真核基因组分析常规流程

更新时间:2024-04-21 22:04:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

真核基因组分析常规流程

一,二代数据质量控制

二代测序数据质量控制软件FastQC 分析的内容包括: 测序数据的基本信息 每个碱基的质量值

每条reads序列的质量值 每条序列的ATCG组成 每条序列N的含量 每条序列的长度分布 序列中duplication程度 K-mer信息

软件信息:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

二,数据过滤

过滤掉低质量值的reads 过滤掉接头

过滤掉N含量多的reads 过滤掉长度过短的reads 过滤掉PCR重复 三,组装

组装软件可以根据基因组情况选择,具体方法参看软件说明。

四,组装结果评估

1) 将组装用reads回贴到组装的基因组上,看reads mapping rate 来评估组装的质量

可以使用bwa来比对,samtools来统计 2) 使用CEGMA来评估组装的完整性

CEGMA (Core Eukaryotic Genes Mapping Approach) is a pipeline for building a setof

high reliable set of gene annotations in virtually any eukaryotic genome. Thestrategy relies on a simple fact: some highly conserved proteins are encoded inessentially all eukaryotic genomes. We use the KOGs database to build a set ofthese highly conserved ubiquitous proteins. We define a set of 458 coreproteins, and the protocol, CEGMA, to find orthologs of the core proteins in newgenomes and to determine their exon-intron structures

五,基因组注释

1) 重复序列注释

2) 基因注释

3) 蛋白功能注释

蛋白结构注释:interproscan

同源注释:swissprot tremble 数据库 通路:kegg数据库

六,进化分析

1) 基因家族聚类

同源的蛋白质可以分为直系同源与旁系同源,当同源是基因复制的结果,两份拷贝在一个物种的历史上是平行演化的,这样的基因被称为旁系同源基因。当同源是物种形成的结果,基因的历史反映了物种的历史,被称为直系同源;直系同源是不同物种内的同源序列,他们是来自于物种形成时的共同祖先基因;通常认为直系同源的序列具有相似的生物学功能;

使用OrthoMCL聚类

2) 系统发育树构建

选取所有物种的单拷贝同源基因,分别进行比对,连成一个super gene,提取四倍简并位点构建系统树

3) 分歧时间计算

使用PAML mcmctree计算分歧时间

利用http://www.timetree.org/里面的时间进行校对

4) 4dtv距离分布计算

使用mcsan寻找共线性基因对,计算共线性基因对的4dtv距离,作出分布图。

5) Ks分布计算

流程的功能

1,检测物种(植物)是否有过近期全基因组复制或者大规模复制事件。 2,估计该物种全基因组复制的时间范围。 流程实现

1,根据基因家族聚类的结果找到每个家族的每条基因

2,根据BLASTP 结果找串联重复基因家族(基因间插入数小于20 视为串联) 3,对每个基因家族的序列做muscle 比对 4,转换成cds 的phylip 格式

5,使用PAML 中的yn00 计算基因家族中序列俩俩的Ks 值 6,去掉大于2 的Ks 值取中位或者平均值来代表这个基因家族每个copy 的Ks(若该基因家族有N 个基因,则发生过N-1 次复制) 7,以每0.5 为单位加和这个区间的Ks 8,作图分布图

6) 共线性分析

Mcscan的结果,过滤后做点图或用circos作图

7) 正选择

利用blastall找到两两比对的best hit,利用lastz比对gene pair, 输入kaks_calculator计算ka/ks。

本文来源:https://www.bwwdw.com/article/qiop.html

Top