人外显子捕获测序

更新时间:2023-03-28 14:06:01 阅读量: 生活好文 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

人外显子捕获测序

人外显子捕获测序

项目报告

适用范围

本项目分析报告适用于外显子捕获测序项目,不同样本数分析内容会略有差别。

人外显子捕获测序

目录

1.名词解释 (3)

2.分析结果展示 (4)

2.1测序质量评估及质控 (4)

2.1.1 测序质量评估 (4)

2.1.2 数据质控 (7)

2.2参考序列比对分析 (9)

2.3SNP与I N D EL分析 (11)

2.3.1 方法说明与结果概述 (11)

2.3.2 突变概况 (12)

2.3.3 SNP突变注释 (14)

2.3.4 InDel注释 (18)

2.3.5 附件格式说明 (20)

2.4CNV分析 (24)

2.5突变圈图汇总 (26)

人外显子捕获测序

1. 名词解释

Bp:base-pair,碱基对,读长的单位,每一个bp指一对互补的碱基。

Read:读长,测序数据中每一条序列就是一个read。

Raw_reads:原始数据

Clean_reads:QC之后的数据

Fastq: 序列数据存储的标准格式之一,每4行为一条read的信息。包含测序read名,序列,正反链标示,序列质量值

Pair-end测序:双端测序,两端均测序,随后合并成一条read。

Single-end测序:单端测序,只测一端,即为一条read。

质量评分:指的是一个碱基的错误概率的对数值,即质量评分越高,错误概率越小。

QC:Quality control,即质量控制。

滑窗法:检测一个窗口内的碱基质量值,如果满足条件则向前移动一个单位继续检测,如果不满足条件即做删除处理,随后继续移动到下一个单位进行检测,直到检测完所有的数据。

人外显子捕获测序

2. 分析结果展示

2.1测序质量评估及质控

2.1.1测序质量评估

本次测序采用Hiseq PE150模式(双端测序PE:paired-end),每一个样本分别有R1.fastq和R2.fastq 两个文件,分别代表5’ -> 3’和3’->5’的测序结果。R1.fastq与R2.fastq中的文件行数是一致的,且根据reads name一一对应。

FASTQ: Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。每条read包含4 行信息。第一行以“@”开头,随后是序列标示和相关的描述信息,第三行以“+” 开头,随后是序列描述信息或者什么都不加;),第二行为碱基序列,第四行是质量信息,与第二行中的碱基序列一一对应,根据评分体系不同每个字符的含义所表示的数字有所差别。例如:

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

+

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

质量评分:质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表:

表2.1 fastq碱基质量分数含义

对于每个碱基的质量编码标示,不同的软件采用不同的方案,本项目中使用的方案是,Phred quality score,值的范围从0到62对应的ASCII码从64到126,得分在0到40之间;

及绘图),

人外显子捕获测序

结果目录:1_QC/

All_sample_QC_infor.xls:所有样本原始数据统计,结果如下:

Sample1 Sample2 Sample3 Total Reads Count(#) 52371438 100692442 85857336

Total Bases Count(bp) 7855715700 151******** 12878600400 Average Read Length(bp) 150.0 150.0 150.0

Q10 Bases Count(bp) 7790082322 14975444709 12764165642 Q10 Bases Ratio(%) 99.16% 99.15% 99.11%

Q20 Bases Count(bp) 7388059470 14072300518 12115708593 Q20 Bases Ratio(%) 94.05% 93.17% 94.08%

Q30 Bases Count(bp) 6818368403 12881210687 11191373650 Q30 Bases Ratio(%) 86.79% 85.28% 86.90%

N Bases Count(bp) 511435 954208 865147

N Bases Ratio(%) 0.01% 0.01% 0.01%

GC Bases Count(bp) 3754848233 6891496512 6353503460

GC Bases Ratio(%) 47.80% 45.63% 49.33%

注:若样本数目较多,此处只会截取部分样本数据,完整数据请见结果文件夹中的对应文件。Total Reads Count:样本所有reads数目,为reads1与reads2数目之和

Total Base Count:所有碱基数目,即数据量

Average Read Length:平均序列长度

Q30 Base Count:碱基质量在30以上的数目

Q30 Base Ratio:Q30碱基比例

N Base Count:N 碱基的数目

N Base Ratio:N碱基比例

GC Base Count:GC碱基数目

GC Base Ratio:GC含量

各样本碱基质量图如下:

人外显子捕获测序

图2.1各位置碱基质量分布图

注:若样本数据较多,此处只展示某个样本的Read1质量分布,其它样本数据见

1_QC/Sample/*fastqc.zip 文件。

说明:横坐标表示测序位置,纵坐标为测序质量值图中,横轴代表位置,纵轴quality 。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。Hiseq 测序是双端测序,每条 read 长度 125bp 。随着测序的进行,酶的活性会逐步下降,因此到达一定测序长度后,碱基质量值也会随之下降。从图6.1 可知,中位值均在 Q20 以上,因此该文库碱基质量良好,可用于后续分析。本分析会对所有数据进行质控,后续只取 Q20 以上的数据进行分析。

各样本碱基GC 含量分布图如下:

图2.2 各位置碱基GC 含量分布图

人外显子捕获测序

注:若样本数据较多,此处只展示某个样本的Read1质量分布,其它样本数据见

1_QC/Sample/*fastqc.zip文件。

说明:横坐标是reads 碱基坐标,纵坐标是所有reads 的A、C、G、T碱基分别占的百分比。在文库较均匀随机的情况下,四种颜色的分界线应该波动极小,呈一条直线,但一般测序前几个碱基由于测序尚不大稳定,前几个碱基ACGC含量会有波动。

2.1.2 数据质控

对于Hiseq双端测序原始序列3’端可能带有adaptor 接头序列,以及一些少量低质量序列和杂质序列,为了提高后续分析质量和可靠性,对原始序列进行去接头、质量剪切、污染评估等处理。

数据质控步骤:

1)去除3’端测序接头,采用的软件为cutadapt,Read1 3’端测序接头为AGATCGGAAGAGCACACGTCTGAAC,Read2 3’端测序街头为AGATCGGAAGAGCGTCGTGTAGGGA。

2)去除融合后的reads尾部质量值在20以下的碱基。设置10bp的端口,如果窗口内的平均质量值低于20,从窗口开始去除后端的碱基

3)切除reads中含N部分序列:长度阈值35bp

4)对序列进行污染评估,看其是否有污染,方法为:随机从QC之后序列中抽取10000条序列进行blast 比对,比对数据库为NCBI NT数据库,取evalue <=1e-10并且相似度>90%,coverage >80%的比对结果,计算

其物种分布。

去除测序接头软件:cutadapt(https://http://www.77cn.com.cn/pypi/cutadapt/1.2.1)

主要参数设置:-O 10 -min_len 35 -a AGATCGGAAGAGCACACGTCTGAAC

质量控制使用软件:Prinseq(http://www.77cn.com.cn/)

主要参数设置:-trim_qual_left 20 -trim_qual_right 20 -trim_qual_window 10 -trim_qual_step 1

-min_len 35

污染评估软件:blast+

(http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Dow nload)

主要参数设置:-evalue 1e-10 -num_threads 40

结果目录:1_data_for_analysis/

All_sample_QC_infor.xls:所有样本QC之后结果统计,详细结果如下:

本文来源:https://www.bwwdw.com/article/yn3n.html

Top