进化树建树方法及软件使用
更新时间:2023-04-22 18:52:01 阅读量: 实用文档 文档下载
- 构建进化树的方法推荐度:
- 相关推荐
by espwh123Contents: 1. 2. PAUP 3. MEGA 4.phylip 5.PHYLIP Phylogenetic analysis workshop 6. ---
大家好: 我在此介绍几个进化树分析及其相关软件的使用和应用范围。 这几个软件分 别是 PHYLIP 、 PUZZLE 、 PAUP 、 TREEVIEW、 CLUSTALX 和 PHYLO-WIN (LINUX) 。 在介绍软件之前,我先简要地叙述一下有关进化树分析的一些方法学问题。 进化树也称种系树,英文名叫“Phyligenetic tree”。对于一个完整的进化树分析 需要以下几个步骤: ⑴ 要对所分析的多序列目标进行排列 (To align sequences) 。 做 ALIGNMENT 的软件很多,最经常使用的有 CLUSTALX 和 CLUSTALW,前 者是在 WINDOW 下的而后者是在 DOS 下的。⑵ 要构建一个进化树( To reconstrut phyligenetic tree ) 。构建进化树的算法主要分为两类: 独立元素 法 (discrete character methods)和距离依靠法(distance methods) 。所谓独立元素法 是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一 个序列上可能包含很多的酶切位点, 而每个酶切位点的存在与否是由几个碱基的 状态决定的, 也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序 列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了) 。而距 离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。 进化树枝条的长 度 代 表着 进化 距离 。 独 立元 素 法 包 括 最 大简 约 性 法 ( Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods) ;距离依靠法包括除 权配对法(UPGMAM)和邻位相连法(Neighbor-joining) 。⑶ 对进化树进行评 估。主要采用 Bootstraping 法。进化树的构建是一个统计学问题。我们所构建出 来的进化树只是对真实的进化关系的评估或者模拟。 如果我们采用了一个适当的 方法,那么所构建的进化树就会接近真实的“进化树” 。模拟的进化树需要一种 数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说,最大简约 性法适用于符合以下条件的多序列:i 所要比较的序列的碱基差别小,ii 对于序 列上的每一个碱基有近似相等的变异率,iii 没有过多的颠换/转换的倾向,iv 所 检验的序列的碱基数目较多(大于几千个碱基) ;用最大可能性法分析序列则不 需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能 要花上几天的时间才能计算完毕。 UPGMAM (Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就
是存在着一个分子钟。 这种算法得到的进化树相对来说不是很准确,现在已经很 少使用。邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且 计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进 化距离不能太大。 另外, 需要特别指出的是对于一些特定多序列对象来说可能没 有任何一个现存算法非常适合它。最好是我们来发展一个更好的算法来解决它。 但无疑这是非常难的。我想如果有人能建立这样一个算法的话,那他(她)完全 可以在 A.上发一篇高质量的文章。 下面介绍几个软件的使用。首先是 PHYLIP。其是多个软件的压缩包,下载 后双击则自动解压。 当你解压后就挥发现 PHYLIP 的功能极其强大,主要包括五 个方面的功能软件:i,DNA 和蛋白质序列数据的分析软件。ii,序列数据转变 成距离数据后,对距离数据分析的软件。 iii,对基因频率和连续的元素分析的 软件。iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有 0 和 1 的状态) 时,对序列进行分析的软件。v,按照 DOLLO 简约性算法对序列进行分析的软 件。vi,绘制和修改进化树的软件。在此,我主要对前两种功能软件进行说明。 我们现在有几个序列如下:Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT要对这 8 个序列进行进化树分析,按照上面的步骤,首先用 CLUSTALX 排列序 列,输出格式为 *.PHY。用记事本打开如下图:图中的 8 和 50 分别表示 8 个序列和每个序列有 50 个碱基。然后,打开软件
SEQBOOT,如下图:按路径输入刚才生成的 *.PHY 文件,并在 Random number seed (must be odd) ? 的下面输入一个 4N+1 的数字后,屏幕显示如下:图中的 D、J、R、I、O、1、2 代表可选择的选项,键入这些字母,程序的条件 就会发生改变。 D 选项无须改变。J 选项有三种条件可以选择, 分别是 Bootstrap、
Jackknife 和 Permute。文章上面提到用 Bootstraping 法对进化树进行评估,所谓 Bootstraping 法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半 序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列。一个 多序列组也就可以变成许多个多序列组。根据某种算法(最大简约性法、最大可 能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生 成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最 “逼真” 的进化树。 Jackknife 则是另外一种随机选取序列的方法。它与 Bootstrap 法的区别是不将剩下的一半序列补齐, 只生成一个缩短了一半的新序列。 Permute 是另外一种取样方法,其目的与 Bootstrap 和 Jackknife 法不同,这里不再介绍。 R 选项让使用者输入 republicate 的数目。所谓 republicate 就是用 Bootstrap 法生 成 的一个多序列 组 。 根 据 多序列 中 所 含 的序列的 数 目的 不同可 以 选取 不同 的 republicate。当我们设置好条件后,键入 Y 按回车。得到一个文件 outfile Outfile 用记事本打开如下:这个文件包括了 100 个 republicate。 打开 DNAPARS(最大简约性法)或 DNAML(最大可能性法)软件。将刚才生 成的 outfile 文件更名后输入。如下图:
选项 O 是让使用者设定一个序列作为 outgroup。 一般选择一个亲缘关系与所分析 序列组很接近的序列作为 outgroup (本例子不选 outgroup) , outgroup 选择的好坏 将直接影响到最后的进化树的好坏。选项 M 是输入刚才设置的 republicate 的数 目。设置好条件后,键入 Y 按回车。生成两个文件 outfile 和 treefile。 Outfile 打开如下图:
该文件包括了 227 个进化树。 Treefile 可以用 TREEVIEW 软件打开同样包含了这 227 个进化树。 打开 CONSENSE 软件,将刚才生成的 treefile 文件更名后输入。如下图:键入 Y 按回车。生成两个文件 outfile 和 treefile。Treefile 用 TREEVIEW 打开, 如下图:
Outfile 打开如下图:我们看出两个树是同样的。但在 outfile 的树上的数字表示该枝条的 Bootstrap 支 持率(除以 100.6) 。到现在,8 个序列的进化树分析(最大简约法)已经完成。 如果要用邻位相连法对这 8 个序列进行分析的话,也首先执行 SEQBOOT 软 件将这 8 个序列变成 100 个 republicate。 然后, 打开 DNADIST 软件, 把 SEQBOOT 生成的文件输入,如下图:
选 项 D 有 四 种 距离模 式 可 以 选择 ,分别是 Kimura 2-parameter 、 Jin/Nei 、 Maximum-likelihood 和 Jukes-Cantor。选项 T 一般键入一个 15-30 之间的数字。 选项 M 键入 100。运行后生成文件如下图:这个文件包含了与输入文件相同的 100 个 republicate,只不过每个 republicate 是 以两两序列的进化距离来表示。 文件中的每个 republicate 都省略了第一排的 Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以这个输出文件为输入文件,执行 NEIGHBOR 软件。如下图:选项 M 键入 100。生成两个文件 outfile 和 treefile 用记事本和 TREEVIEW 打开 后, 发现 这两个文件 都 含 有 100 个进化树。 再将 treefile 文件 更 名后 输入
CONSENSE 软件,又得到两个文件 outfile 和 treefile,这就是最后的结果。以上 是对 DNA 序列的分析, 如果要对蛋白质序列进行分析, PROTDIST、 PROTPARS 等软件。其他软件的用法可以参照 PHYLIP 的 documents。 下面介绍 PUZZLE 软件。它是用最大可能性的方法来构建进化树的一个软 件, 并 且 对树进行 bootstrap 评估 。 该 软件 搜寻 进化树 时 用的算法是 quartet puzzling ,这个算法相对 较 快 , 但 如 要分析的序列 较 多 时 ,也相 当 耗 时 。 另 有 LINUX 版, 运行起来相对较快。 PUZZLE 的输入格式为 PHYLIP INTERLEAVED。 CLUSTAL 可以生成此格式文件。 PUZZLE 的界面与 PHYLIP 类似, 也是 MS-DOS 下的软件。 PHYLO-WIN 是 LINUX 下的一个软件。界面友好,极易操作。该界面如下 图:Puzzle:http//:www.tree-puzzle.de http//:www.evolution.bmc.uu.se http//:Phylo-win:Phylip、Treeview and Clustalx:
PAUPPAUP 1. DNA Mega DNAsp *.meg Clustal *.meg PAUP *.aln File- Save/Export Date As Mega *.aln NEXUS File FormatFile- Convert To Mega Format2.MP PAUP outgroup_ Bootstrap_nreps=1000_keepall Describetree Savetrees_from=1 to=1000 3.NJ PAUP outgroup_ Set_criterion=distance Bootstrap_search=nj_nreps=1000_keepall contree Savetrees_from=1_to=1000 4.ML PAUP outgroup_ Set_criterion=likelihood
Bootstrap_nreps=100_keepall contree Savetrees_from=1_to=100“ _” *.tre Treeview
MEGA2 1()2 MEGA2 alnmeg ClustalmegFile:Convert to MEGA Format...
3alnOK4megmegmegaln5“Click me to activate a data filemeg
6meg”7OK
89 BootstrapBootstrapMEGA UPGMABootstrap
10 ...11 Distance Options Models (Poisson Correction)
12 Include sites13 100 OKBootstrap(Replications)
14 ... bootstrap bootstrap15Imageemfcopy
正在阅读:
进化树建树方法及软件使用04-22
2018-2019九年级英语上册Unit5ArtworldPeriod6Task课时训练新版牛津版12-29
中考古诗词赏析材料05-18
2014级《创业基础》课后习题答案11-13
电子技术基础 模拟部分第9章(2)07-18
信息产业部电子教育与考试中心--培训基地(站)名单 - 图文01-13
单用途商业预付卡购卡协议(样本)04-01
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 建树
- 软件使用
- 进化
- 方法
- 大量bilibili正式会员答案
- 广西防城港市防城区2022-2022学年七年级上学期期中质量检测地理
- 中国古代外交史专题
- 外研版八年级下Module1知识点归纳总结(无答案)
- 2015中国最美小城排行榜
- 《备战2014》2013中考生物试题分类汇编八 绿色植物的一生(含解析
- 浅析我国公路工程档案管理中存在的问题
- 无线维护岗位认证教材大纲
- 学生学习动力机制的研究报告
- 心理咨询的一般过程
- shell高级编程经典教程
- The Little prince book report
- 施工图设计说明及室内设计工程一般施工细则
- 2-《死亡现象解读》
- 防尘口罩安全使用工作指导
- 企业并购支付方式述评
- 关于业务员管理的若干制度527
- 机床夹具设计试题及答案
- (鄂教版)四年级品德与社会下册课件 网络漫游 1
- 人教版小学数学第三册教学计划范文