人外显子捕获测序

更新时间：2023-03-28 14:06:01 阅读量：生活好文文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

人外显子捕获测序

人外显子捕获测序

项目报告

适用范围

本项目分析报告适用于外显子捕获测序项目，不同样本数分析内容会略有差别。

人外显子捕获测序

1.名词解释 (3)

2.分析结果展示 (4)

2.1测序质量评估及质控 (4)

2.1.1 测序质量评估 (4)

2.1.2 数据质控 (7)

2.2参考序列比对分析 (9)

2.3SNP与I N D EL分析 (11)

2.3.1 方法说明与结果概述 (11)

2.3.2 突变概况 (12)

2.3.3 SNP突变注释 (14)

2.3.4 InDel注释 (18)

2.3.5 附件格式说明 (20)

2.4CNV分析 (24)

2.5突变圈图汇总 (26)

人外显子捕获测序

1. 名词解释

Bp:base-pair，碱基对，读长的单位，每一个bp指一对互补的碱基。

Read：读长，测序数据中每一条序列就是一个read。

Raw_reads:原始数据

Clean_reads：QC之后的数据

Fastq: 序列数据存储的标准格式之一，每4行为一条read的信息。包含测序read名，序列，正反链标示，序列质量值

Pair-end测序：双端测序，两端均测序，随后合并成一条read。

Single-end测序：单端测序，只测一端，即为一条read。

质量评分：指的是一个碱基的错误概率的对数值，即质量评分越高，错误概率越小。

QC：Quality control，即质量控制。

滑窗法：检测一个窗口内的碱基质量值，如果满足条件则向前移动一个单位继续检测，如果不满足条件即做删除处理，随后继续移动到下一个单位进行检测，直到检测完所有的数据。

人外显子捕获测序

2. 分析结果展示

2.1测序质量评估及质控

2.1.1测序质量评估

本次测序采用Hiseq PE150模式（双端测序PE：paired-end），每一个样本分别有R1.fastq和R2.fastq 两个文件，分别代表5’ -> 3’和3’->5’的测序结果。R1.fastq与R2.fastq中的文件行数是一致的，且根据reads name一一对应。

FASTQ: Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。每条read包含4 行信息。第一行以“@”开头，随后是序列标示和相关的描述信息，第三行以“+” 开头，随后是序列描述信息或者什么都不加；），第二行为碱基序列，第四行是质量信息，与第二行中的碱基序列一一对应，根据评分体系不同每个字符的含义所表示的数字有所差别。例如：

@SEQ_ID

GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT

!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65

质量评分：质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用，其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表：

表2.1 fastq碱基质量分数含义

对于每个碱基的质量编码标示，不同的软件采用不同的方案，本项目中使用的方案是，Phred quality score，值的范围从0到62对应的ASCII码从64到126，得分在0到40之间；

及绘图），

人外显子捕获测序

结果目录：1_QC/

All_sample_QC_infor.xls：所有样本原始数据统计，结果如下：

Sample1 Sample2 Sample3 Total Reads Count(#) 52371438 100692442 85857336

Total Bases Count(bp) 7855715700 151******** 12878600400 Average Read Length(bp) 150.0 150.0 150.0

Q10 Bases Count(bp) 7790082322 14975444709 12764165642 Q10 Bases Ratio(%) 99.16% 99.15% 99.11%

Q20 Bases Count(bp) 7388059470 14072300518 12115708593 Q20 Bases Ratio(%) 94.05% 93.17% 94.08%

Q30 Bases Count(bp) 6818368403 12881210687 11191373650 Q30 Bases Ratio(%) 86.79% 85.28% 86.90%

N Bases Count(bp) 511435 954208 865147

N Bases Ratio(%) 0.01% 0.01% 0.01%

GC Bases Count(bp) 3754848233 6891496512 6353503460

GC Bases Ratio(%) 47.80% 45.63% 49.33%

注：若样本数目较多，此处只会截取部分样本数据，完整数据请见结果文件夹中的对应文件。Total Reads Count：样本所有reads数目，为reads1与reads2数目之和

Total Base Count：所有碱基数目，即数据量

Average Read Length：平均序列长度

Q30 Base Count：碱基质量在30以上的数目

Q30 Base Ratio：Q30碱基比例

N Base Count：N 碱基的数目

N Base Ratio：N碱基比例

GC Base Count：GC碱基数目

GC Base Ratio：GC含量

各样本碱基质量图如下：

人外显子捕获测序

图2.1各位置碱基质量分布图

注：若样本数据较多，此处只展示某个样本的Read1质量分布，其它样本数据见

1_QC/Sample/*fastqc.zip 文件。

说明：横坐标表示测序位置，纵坐标为测序质量值图中，横轴代表位置，纵轴quality 。红色表示中位数，黄色是25%-75%区间，触须是10%-90%区间，蓝线是平均数。Hiseq 测序是双端测序，每条 read 长度 125bp 。随着测序的进行，酶的活性会逐步下降，因此到达一定测序长度后，碱基质量值也会随之下降。从图6.1 可知，中位值均在 Q20 以上，因此该文库碱基质量良好，可用于后续分析。本分析会对所有数据进行质控，后续只取 Q20 以上的数据进行分析。

各样本碱基GC 含量分布图如下：

图2.2 各位置碱基GC 含量分布图

人外显子捕获测序

注：若样本数据较多，此处只展示某个样本的Read1质量分布，其它样本数据见

1_QC/Sample/*fastqc.zip文件。

说明：横坐标是reads 碱基坐标，纵坐标是所有reads 的A、C、G、T碱基分别占的百分比。在文库较均匀随机的情况下，四种颜色的分界线应该波动极小，呈一条直线，但一般测序前几个碱基由于测序尚不大稳定，前几个碱基ACGC含量会有波动。

2.1.2 数据质控

对于Hiseq双端测序原始序列3’端可能带有adaptor 接头序列，以及一些少量低质量序列和杂质序列，为了提高后续分析质量和可靠性，对原始序列进行去接头、质量剪切、污染评估等处理。

数据质控步骤：

1）去除3’端测序接头，采用的软件为cutadapt，Read1 3’端测序接头为AGATCGGAAGAGCACACGTCTGAAC，Read2 3’端测序街头为AGATCGGAAGAGCGTCGTGTAGGGA。

2）去除融合后的reads尾部质量值在20以下的碱基。设置10bp的端口，如果窗口内的平均质量值低于20，从窗口开始去除后端的碱基

3）切除reads中含N部分序列：长度阈值35bp

4）对序列进行污染评估，看其是否有污染，方法为：随机从QC之后序列中抽取10000条序列进行blast 比对，比对数据库为NCBI NT数据库，取evalue <=1e-10并且相似度>90%,coverage >80%的比对结果，计算

其物种分布。

去除测序接头软件：cutadapt（https://http://www.77cn.com.cn/pypi/cutadapt/1.2.1）

主要参数设置：-O 10 -min_len 35 -a AGATCGGAAGAGCACACGTCTGAAC

质量控制使用软件：Prinseq（http://www.77cn.com.cn/）

主要参数设置：-trim_qual_left 20 -trim_qual_right 20 -trim_qual_window 10 -trim_qual_step 1

-min_len 35

污染评估软件：blast+

（http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Dow nload）

主要参数设置：-evalue 1e-10 -num_threads 40

结果目录：1_data_for_analysis/

All_sample_QC_infor.xls：所有样本QC之后结果统计，详细结果如下：

本文来源：https://www.bwwdw.com/article/yn3n.html

相关文章：

正在阅读：

人外显子捕获测序03-28

青岛市城镇职工生育保险计划生育手术证明信12-13

水利工程设计概估算编制规定水总(2014)429号05-17

CCRC-QOT-0428-B 4 风险评估01-10

(no1)2013学年高一政治第五课《我国的人民代表大会制度》精品教案新人教版必修212-30

初中思品小课题方案《用时事政治案例激活初中思品教学》09-01

本溪市农业技术推广服务中心名录2018版247家 - 图文01-11

三阶、四阶龙格库塔函数matlab代码09-04

勘测设计计算题答案 - 图文10-12

红红火火过大年02-14

上一篇：合同签订过程中的风险防范下一篇：湖南文艺出版社小学四年级上册音乐教案全册