人外显子捕获测序
更新时间:2023-03-28 14:06:01 阅读量: 生活好文 文档下载
人外显子捕获测序
人外显子捕获测序
项目报告
适用范围
本项目分析报告适用于外显子捕获测序项目,不同样本数分析内容会略有差别。
人外显子捕获测序
目录
1.名词解释 (3)
2.分析结果展示 (4)
2.1测序质量评估及质控 (4)
2.1.1 测序质量评估 (4)
2.1.2 数据质控 (7)
2.2参考序列比对分析 (9)
2.3SNP与I N D EL分析 (11)
2.3.1 方法说明与结果概述 (11)
2.3.2 突变概况 (12)
2.3.3 SNP突变注释 (14)
2.3.4 InDel注释 (18)
2.3.5 附件格式说明 (20)
2.4CNV分析 (24)
2.5突变圈图汇总 (26)
人外显子捕获测序
1. 名词解释
Bp:base-pair,碱基对,读长的单位,每一个bp指一对互补的碱基。
Read:读长,测序数据中每一条序列就是一个read。
Raw_reads:原始数据
Clean_reads:QC之后的数据
Fastq: 序列数据存储的标准格式之一,每4行为一条read的信息。包含测序read名,序列,正反链标示,序列质量值
Pair-end测序:双端测序,两端均测序,随后合并成一条read。
Single-end测序:单端测序,只测一端,即为一条read。
质量评分:指的是一个碱基的错误概率的对数值,即质量评分越高,错误概率越小。
QC:Quality control,即质量控制。
滑窗法:检测一个窗口内的碱基质量值,如果满足条件则向前移动一个单位继续检测,如果不满足条件即做删除处理,随后继续移动到下一个单位进行检测,直到检测完所有的数据。
人外显子捕获测序
2. 分析结果展示
2.1测序质量评估及质控
2.1.1测序质量评估
本次测序采用Hiseq PE150模式(双端测序PE:paired-end),每一个样本分别有R1.fastq和R2.fastq 两个文件,分别代表5’ -> 3’和3’->5’的测序结果。R1.fastq与R2.fastq中的文件行数是一致的,且根据reads name一一对应。
FASTQ: Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。每条read包含4 行信息。第一行以“@”开头,随后是序列标示和相关的描述信息,第三行以“+” 开头,随后是序列描述信息或者什么都不加;),第二行为碱基序列,第四行是质量信息,与第二行中的碱基序列一一对应,根据评分体系不同每个字符的含义所表示的数字有所差别。例如:
@SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT
+
!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65
质量评分:质量评分指的是一个碱基的错误概率的对数值。其最初在Phred拼接软件中定义与使用,其后在许多软件中得到使用。其质量得分与错误概率的对应关系见下表:
表2.1 fastq碱基质量分数含义
对于每个碱基的质量编码标示,不同的软件采用不同的方案,本项目中使用的方案是,Phred quality score,值的范围从0到62对应的ASCII码从64到126,得分在0到40之间;
及绘图),
人外显子捕获测序
结果目录:1_QC/
All_sample_QC_infor.xls:所有样本原始数据统计,结果如下:
Sample1 Sample2 Sample3 Total Reads Count(#) 52371438 100692442 85857336
Total Bases Count(bp) 7855715700 151******** 12878600400 Average Read Length(bp) 150.0 150.0 150.0
Q10 Bases Count(bp) 7790082322 14975444709 12764165642 Q10 Bases Ratio(%) 99.16% 99.15% 99.11%
Q20 Bases Count(bp) 7388059470 14072300518 12115708593 Q20 Bases Ratio(%) 94.05% 93.17% 94.08%
Q30 Bases Count(bp) 6818368403 12881210687 11191373650 Q30 Bases Ratio(%) 86.79% 85.28% 86.90%
N Bases Count(bp) 511435 954208 865147
N Bases Ratio(%) 0.01% 0.01% 0.01%
GC Bases Count(bp) 3754848233 6891496512 6353503460
GC Bases Ratio(%) 47.80% 45.63% 49.33%
注:若样本数目较多,此处只会截取部分样本数据,完整数据请见结果文件夹中的对应文件。Total Reads Count:样本所有reads数目,为reads1与reads2数目之和
Total Base Count:所有碱基数目,即数据量
Average Read Length:平均序列长度
Q30 Base Count:碱基质量在30以上的数目
Q30 Base Ratio:Q30碱基比例
N Base Count:N 碱基的数目
N Base Ratio:N碱基比例
GC Base Count:GC碱基数目
GC Base Ratio:GC含量
各样本碱基质量图如下:
人外显子捕获测序
图2.1各位置碱基质量分布图
注:若样本数据较多,此处只展示某个样本的Read1质量分布,其它样本数据见
1_QC/Sample/*fastqc.zip 文件。
说明:横坐标表示测序位置,纵坐标为测序质量值图中,横轴代表位置,纵轴quality 。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。Hiseq 测序是双端测序,每条 read 长度 125bp 。随着测序的进行,酶的活性会逐步下降,因此到达一定测序长度后,碱基质量值也会随之下降。从图6.1 可知,中位值均在 Q20 以上,因此该文库碱基质量良好,可用于后续分析。本分析会对所有数据进行质控,后续只取 Q20 以上的数据进行分析。
各样本碱基GC 含量分布图如下:
图2.2 各位置碱基GC 含量分布图
人外显子捕获测序
注:若样本数据较多,此处只展示某个样本的Read1质量分布,其它样本数据见
1_QC/Sample/*fastqc.zip文件。
说明:横坐标是reads 碱基坐标,纵坐标是所有reads 的A、C、G、T碱基分别占的百分比。在文库较均匀随机的情况下,四种颜色的分界线应该波动极小,呈一条直线,但一般测序前几个碱基由于测序尚不大稳定,前几个碱基ACGC含量会有波动。
2.1.2 数据质控
对于Hiseq双端测序原始序列3’端可能带有adaptor 接头序列,以及一些少量低质量序列和杂质序列,为了提高后续分析质量和可靠性,对原始序列进行去接头、质量剪切、污染评估等处理。
数据质控步骤:
1)去除3’端测序接头,采用的软件为cutadapt,Read1 3’端测序接头为AGATCGGAAGAGCACACGTCTGAAC,Read2 3’端测序街头为AGATCGGAAGAGCGTCGTGTAGGGA。
2)去除融合后的reads尾部质量值在20以下的碱基。设置10bp的端口,如果窗口内的平均质量值低于20,从窗口开始去除后端的碱基
3)切除reads中含N部分序列:长度阈值35bp
4)对序列进行污染评估,看其是否有污染,方法为:随机从QC之后序列中抽取10000条序列进行blast 比对,比对数据库为NCBI NT数据库,取evalue <=1e-10并且相似度>90%,coverage >80%的比对结果,计算
其物种分布。
去除测序接头软件:cutadapt(https://http://www.77cn.com.cn/pypi/cutadapt/1.2.1)
主要参数设置:-O 10 -min_len 35 -a AGATCGGAAGAGCACACGTCTGAAC
质量控制使用软件:Prinseq(http://www.77cn.com.cn/)
主要参数设置:-trim_qual_left 20 -trim_qual_right 20 -trim_qual_window 10 -trim_qual_step 1
-min_len 35
污染评估软件:blast+
(http://blast.ncbi.nlm.nih.gov/Blast.cgi?CMD=Web&PAGE_TYPE=BlastDocs&DOC_TYPE=Dow nload)
主要参数设置:-evalue 1e-10 -num_threads 40
结果目录:1_data_for_analysis/
All_sample_QC_infor.xls:所有样本QC之后结果统计,详细结果如下:
正在阅读:
人外显子捕获测序03-28
建设工程危险性较大的分部分项工程清单07-01
应急手册03-20
七年级数学上册第四章基本平面图形复习教案(新版)北师大版09-21
脂肪酶在食品工业中的应用与研究进展09-04
这里也有乐趣作文800字07-02
第一次摘瓜作文500字07-11
SAP-FICO面试题(带目录)01-19
- 北大-战略管理:创新思维学
- 超市负毛利管理
- 五年级英语上册Unit3Myfatherisawriter(Lesson17_18)教案人教精
- 昆明理工大学自动控制原理期末 11级(A卷)
- 生物技术导论教案 - 天津科技大学
- 原告蔡循吾与被告马骏嵘、刘建友、赵中田、莫光辉、安邦财产保险
- 公共服务市场化改革中的政府责任
- 开展地理第二课堂,培养学生综合能力
- “心愿”等作文素材
- 2008年5月二级企业培训师考试真题及答案1
- 钢结构屋面防水施组设计
- 嵊州重大森林火灾事故应急处置预案
- “十三五”重点项目-液体分布器生产建设项目商业计划书
- 2016年山东省中小学教师远程研修观评课研修组研课报告
- 民爆行业生产安全事故应急预案及编制导则
- 企业管理咨询的概念
- 物理光学 梁铨廷 答案
- 四川省成都市第七中学2015届高三一诊模拟化学试题及答案
- 《走进化学实验室》教学设计
- 村党支部书记精准扶贫工作纪实
- 测序
- 捕获
- 春节期间安全保障措施1
- 护理科研与写作提高班通知
- 模拟可视对讲系统与数字可视对讲系统区别
- Oracle语句优化规则汇总(10)
- HDP501压力变送器
- 输入阻抗 输出阻抗 阻抗匹配
- 进气流量传感器电路检修学习手册
- 发动机转子型机油泵流量设计验证
- 功能高分子材料的发展现状与展望
- 卡维地洛特点及治疗高血压病的研究进展
- 安乐死中的伦理问题
- 我乡幼儿教育的现状与思考(报告)
- 专科《模具设计方法》 试卷 答案
- 第二章 增值税法-出口货物和劳务及应税服务增值税免税政策
- 2018版中国稀土行业全景调研报告目录
- 4.3电磁波的发射和接收导学案
- 技术规格、参数及其他要求
- 青年志愿者协会世界残疾人日活动策划书
- 感悟青春_ABC教育网_
- IT综合运维管理系统技术方案