进化树建树方法及软件使用

更新时间：2023-04-22 18:52:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

构建进化树的方法推荐度：
相关推荐

by espwh123Contents: 1. 2. PAUP 3. MEGA 4.phylip 5.PHYLIP Phylogenetic analysis workshop 6. ---

大家好：我在此介绍几个进化树分析及其相关软件的使用和应用范围。这几个软件分别是 PHYLIP 、 PUZZLE 、 PAUP 、 TREEVIEW、 CLUSTALX 和 PHYLO-WIN （LINUX）。在介绍软件之前，我先简要地叙述一下有关进化树分析的一些方法学问题。进化树也称种系树，英文名叫“Phyligenetic tree”。对于一个完整的进化树分析需要以下几个步骤： ⑴ 要对所分析的多序列目标进行排列（To align sequences）。做 ALIGNMENT 的软件很多，最经常使用的有 CLUSTALX 和 CLUSTALW，前者是在 WINDOW 下的而后者是在 DOS 下的。⑵ 要构建一个进化树（ To reconstrut phyligenetic tree ）。构建进化树的算法主要分为两类：独立元素法（discrete character methods）和距离依靠法（distance methods）。所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的（例如：一个序列上可能包含很多的酶切位点，而每个酶切位点的存在与否是由几个碱基的状态决定的，也就是说一个序列碱基的状态决定着它的酶切位点状态，当多个序列进行进化树分析时，进化树的拓扑形状也就由这些碱基的状态决定了）。而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法（ Maximum Parsimony methods）和最大可能性法（Maximum Likelihood methods）；距离依靠法包括除权配对法（UPGMAM）和邻位相连法（Neighbor-joining）。⑶ 对进化树进行评估。主要采用 Bootstraping 法。进化树的构建是一个统计学问题。我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法，那么所构建的进化树就会接近真实的“进化树” 。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。一般来说，最大简约性法适用于符合以下条件的多序列：i 所要比较的序列的碱基差别小，ii 对于序列上的每一个碱基有近似相等的变异率，iii 没有过多的颠换/转换的倾向，iv 所检验的序列的碱基数目较多（大于几千个碱基）；用最大可能性法分析序列则不需以上的诸多条件，但是此种方法计算极其耗时。如果分析的序列较多，有可能要花上几天的时间才能计算完毕。 UPGMAM （Unweighted pair group method with arithmetic mean）假设在进化过程中所有核苷酸/氨基酸都有相同的变异率，也就

是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确，现在已经很少使用。邻位相连法是一个经常被使用的算法，它构建的进化树相对准确，而且计算快捷。其缺点是序列上的所有位点都被同等对待，而且，所分析的序列的进化距离不能太大。另外，需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。最好是我们来发展一个更好的算法来解决它。但无疑这是非常难的。我想如果有人能建立这样一个算法的话，那他（她）完全可以在 A.上发一篇高质量的文章。下面介绍几个软件的使用。首先是 PHYLIP。其是多个软件的压缩包，下载后双击则自动解压。当你解压后就挥发现 PHYLIP 的功能极其强大，主要包括五个方面的功能软件：i，DNA 和蛋白质序列数据的分析软件。ii，序列数据转变成距离数据后，对距离数据分析的软件。 iii，对基因频率和连续的元素分析的软件。iv，把序列的每个碱基/氨基酸独立看待（碱基/氨基酸只有 0 和 1 的状态）时，对序列进行分析的软件。v，按照 DOLLO 简约性算法对序列进行分析的软件。vi，绘制和修改进化树的软件。在此，我主要对前两种功能软件进行说明。我们现在有几个序列如下：Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13 ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGCACGGTACCAT ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT ATGTATTTCGTACATTACTGCCAGCCACCATGAATATTGTACAGTACCAT ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT ATGTATTTCGTACATTACTG CCAGCCACCATGAATATTGTACGGTACCAT ATGTATCTCGTACATTACTGCCAGCCACCATGAATATTGTACGGTACCAT要对这 8 个序列进行进化树分析，按照上面的步骤，首先用 CLUSTALX 排列序列，输出格式为 *.PHY。用记事本打开如下图：图中的 8 和 50 分别表示 8 个序列和每个序列有 50 个碱基。然后，打开软件

SEQBOOT，如下图：按路径输入刚才生成的 *.PHY 文件，并在 Random number seed (must be odd) ? 的下面输入一个 4N+1 的数字后，屏幕显示如下：图中的 D、J、R、I、O、1、2 代表可选择的选项，键入这些字母，程序的条件就会发生改变。 D 选项无须改变。J 选项有三种条件可以选择，分别是 Bootstrap、

Jackknife 和 Permute。文章上面提到用 Bootstraping 法对进化树进行评估，所谓 Bootstraping 法就是从整个序列的碱基（氨基酸）中任意选取一半，剩下的一半序列随机补齐组成一个新的序列。这样，一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法（最大简约性法、最大可能性法、除权配对法或邻位相连法）每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较，按照多数规则（majority-rule）我们就会得到一个最 “逼真” 的进化树。 Jackknife 则是另外一种随机选取序列的方法。它与 Bootstrap 法的区别是不将剩下的一半序列补齐，只生成一个缩短了一半的新序列。 Permute 是另外一种取样方法，其目的与 Bootstrap 和 Jackknife 法不同，这里不再介绍。 R 选项让使用者输入 republicate 的数目。所谓 republicate 就是用 Bootstrap 法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的 republicate。当我们设置好条件后，键入 Y 按回车。得到一个文件 outfile Outfile 用记事本打开如下：这个文件包括了 100 个 republicate。打开 DNAPARS（最大简约性法）或 DNAML（最大可能性法）软件。将刚才生成的 outfile 文件更名后输入。如下图：

选项 O 是让使用者设定一个序列作为 outgroup。一般选择一个亲缘关系与所分析序列组很接近的序列作为 outgroup （本例子不选 outgroup）， outgroup 选择的好坏将直接影响到最后的进化树的好坏。选项 M 是输入刚才设置的 republicate 的数目。设置好条件后，键入 Y 按回车。生成两个文件 outfile 和 treefile。 Outfile 打开如下图：

该文件包括了 227 个进化树。 Treefile 可以用 TREEVIEW 软件打开同样包含了这 227 个进化树。打开 CONSENSE 软件，将刚才生成的 treefile 文件更名后输入。如下图：键入 Y 按回车。生成两个文件 outfile 和 treefile。Treefile 用 TREEVIEW 打开，如下图：

Outfile 打开如下图：我们看出两个树是同样的。但在 outfile 的树上的数字表示该枝条的 Bootstrap 支持率（除以 100.6）。到现在，8 个序列的进化树分析（最大简约法）已经完成。如果要用邻位相连法对这 8 个序列进行分析的话，也首先执行 SEQBOOT 软件将这 8 个序列变成 100 个 republicate。然后，打开 DNADIST 软件，把 SEQBOOT 生成的文件输入，如下图：

选项 D 有四种距离模式可以选择，分别是 Kimura 2-parameter 、 Jin/Nei 、 Maximum-likelihood 和 Jukes-Cantor。选项 T 一般键入一个 15-30 之间的数字。选项 M 键入 100。运行后生成文件如下图：这个文件包含了与输入文件相同的 100 个 republicate，只不过每个 republicate 是以两两序列的进化距离来表示。文件中的每个 republicate 都省略了第一排的 Mo3 Mo5 Mo6 Mo7 Mo8 Mo9 Mo12 Mo13。以这个输出文件为输入文件，执行 NEIGHBOR 软件。如下图：选项 M 键入 100。生成两个文件 outfile 和 treefile 用记事本和 TREEVIEW 打开后，发现这两个文件都含有 100 个进化树。再将 treefile 文件更名后输入

CONSENSE 软件，又得到两个文件 outfile 和 treefile，这就是最后的结果。以上是对 DNA 序列的分析，如果要对蛋白质序列进行分析， PROTDIST、 PROTPARS 等软件。其他软件的用法可以参照 PHYLIP 的 documents。下面介绍 PUZZLE 软件。它是用最大可能性的方法来构建进化树的一个软件，并且对树进行 bootstrap 评估。该软件搜寻进化树时用的算法是 quartet puzzling ，这个算法相对较快，但如要分析的序列较多时，也相当耗时。另有 LINUX 版，运行起来相对较快。 PUZZLE 的输入格式为 PHYLIP INTERLEAVED。 CLUSTAL 可以生成此格式文件。 PUZZLE 的界面与 PHYLIP 类似，也是 MS-DOS 下的软件。 PHYLO-WIN 是 LINUX 下的一个软件。界面友好，极易操作。该界面如下图：Puzzle:http//:www.tree-puzzle.de http//:www.evolution.bmc.uu.se http//:Phylo-win:Phylip、Treeview and Clustalx:

PAUPPAUP 1. DNA Mega DNAsp *.meg Clustal *.meg PAUP *.aln File- Save/Export Date As Mega *.aln NEXUS File FormatFile- Convert To Mega Format2.MP PAUP outgroup_ Bootstrap_nreps=1000_keepall Describetree Savetrees_from=1 to=1000 3.NJ PAUP outgroup_ Set_criterion=distance Bootstrap_search=nj_nreps=1000_keepall contree Savetrees_from=1_to=1000 4.ML PAUP outgroup_ Set_criterion=likelihood

Bootstrap_nreps=100_keepall contree Savetrees_from=1_to=100“ _” *.tre Treeview

MEGA2 1()2 MEGA2 alnmeg ClustalmegFile:Convert to MEGA Format...

3alnOK4megmegmegaln5“Click me to activate a data filemeg

6meg”7OK

89 BootstrapBootstrapMEGA UPGMABootstrap

10 ...11 Distance Options Models (Poisson Correction)

12 Include sites13 100 OKBootstrap(Replications)

14 ... bootstrap bootstrap15Imageemfcopy

本文来源：https://www.bwwdw.com/article/y82q.html

相关文章：