phylip软件使用及使用的详细过程

更新时间:2024-01-27 19:17:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

phylip软件使用

PHYLIP是一个综合的系统发生分析软件包,由华盛顿大学的Joseph Felsenstein开发的。现在该软件包可完成许多系统发生分析。软件包中可用的方法包括了简约法、距离矩阵和似然法,以及bootstrap和一致 性树。可以处理的数据类型有分子序列、基因频率、限制性位点、距离矩阵和二进制离散字符。

下载地址:

http://evolution.genetics.washington.edu/phylip.html

对于windows操作系统有三个下载文件(phylipw.exe, phylipwx.exe,

phylipwy.exe),下载之后解压到一个文件夹中,里面包含了所有的程序,手册也在其中。

画图程序(drawgram, drawtree)需要安装X windows开发环境,否则会报错。

用户界面:

程序通过一个菜单来控制,用户设置选项。数据从一个文本文件中读入程序,这个文本文件不能是有特殊格式的文字处理器(office word)。有些序列比对程序,如clustalX,可将数据文件写为PHYLIP格式。

而大部分的程序自动寻找在infile文件中的数据。如果它们没有找到这个文件,它们将提示用户自己输入数据文件名。输出的内容将被写到特定的文件 中,如:outfile和outtree。Outtree中的树是newick格式的,这是一个正式的标准,由1986年被主要系统发生软件包的作者所确 定的。

Getting started

注意保持记录。

记录每步的实验过程是非常重要的,甚至是在计算分析时。也许你会对许多的结果文件感到头痛,那么最好的方法就是给结果文件改一个有意义的名字。

序列比对。

PHYLIP的输入文件是比对过的序列,并且是PHYLIP格式的。文件的后缀名是.phy的。比对可用clustalX:

http://www-igbmc.u-strasbg.fr/BioInfo/ClustalX/Top.html

一定要把比对的序列保存为phylip格式的。

PHYLIP程序的运行

这些程序要按照一定的顺序来运行。前一个程序的输出作为下一个程序的输入。如何合理的组合这些程序也很关键。

在windows中,PHYLIP程序可通过双击程序的图标来启动,或是在命令行中输入程序的名称来启动。我们建议使用命令行方式,因为你也许能看到一些错误提示。它启动的方是:开始->所有程序->附件->命令提示符。

大部分PHYLIP程序运行方法相同。程序把infile作为默认输入文件,如果没有找到它将要求用户输入数据文件的名称。输出结果写在outfile文件中。有些则写在outfile和outtree或plotfile中。

因为大部分程序使用默认的输入和输出文件名,所以在下一步的分析前,要重命名你想保存的文件。比如,你用Dnadist得到了距离矩阵 (outfile),你还想试试不同的设置,那么再做矩阵计算前,你可以把outfile重命名为dnadist_out_F84,或其它名称,这样你就 能区别两次的结果了。 程序

距离方法:

顺序使用这些程序。首先,用dandist或protdist程序计算序列比对结果的距离矩阵。接着这个矩阵被fitch、kitsch或 neighbor程序转换为树。Dandist和protdist程序的输出文件是outfile。在运行fitch、kitsch或neighbor 前,outfile应该重命名为infile或另外的名字。fitch、kitsch和neighbor的输出文件是outfile和outtree。

Dnadist DNA距离矩阵计算器 Protdist 蛋白质距离矩阵计算器

Fitch 没有分子时钟的Fitch-Margoliash树 Kitsch 有分子时钟的Fitch-Margoliash树 Neighbor Neighbor-Joining和UPGMA树

基于字符的方法

这些程序读入一个序列对,它们的输出文件是outfile和outtree。

Dnapars DNA简约法

Dnapenny DNA简约法using branch-and-bound Dnaml DNA最大似然,无分子时钟 Dnamlk DNA最大似然,有分子时钟 Protpars 蛋白质简约法 Proml 蛋白质最大似然法

重抽样工具

该程序生成一系列的特殊的随机样本,保存在outfile中。这些样本在后继的分析中作为一个序列对文件,要设置选项M(use multiple datasets)。 Seqboot 生成随机样本,用bootstrap和jack-knife方法。 画树

这些程序可画newick格式的树。如,danml程序生成的树。Drawgram和drawtree生成文件为plotfile,而retree生成outtree。 Drawgram 画有根树 Drawtree 画无根树

Retree interactive tree-rearrangement 一致树

用多重树构建一致树。如,dnapars可生成多重树,可用consense程序来汇总。Bootstrap的结果也由它来汇总为一棵majority rule tree。

Consense draws consensus trees from multiple trees 树的距离

计算多个树间的基于拓朴结构的距离。该方法可用来比较不同分析方法的结果。 Treedist 计算树拓朴结构间的距离

Quick start

这里以DNA序列数据为例说明。构建和画树,用F84进化模式的NJ方法。 距离方法

比对你的DNA序列并且保存比对结果为PHYLIP格式,如:alignment.phy。启动dnadist程序,双击图标或在命令行中输入dnadist。

Dnadist首先检查该程序所在文件夹中是否有infile文件。如果没有找到infile,它就会提示你输入序列比对文件。

Dnadist: can't find input file \Please enter a new file name> alignment.phy

注意,将程序与数据文件放在同一个文件夹中,使用起来会容易一些。如果数据文件在另外的文件夹中,你就要输入该文件的全部路径,比如文件在D:/data文件夹中,

Dnadist: can't find input file \

Please enter a new file name> D:\\data\\alignment.phy

所有的PHYLIP程序都是菜单提示的。下面就是dnadist的菜单。每行都是以一个字母或数字开始的。通过输入每行前面的字母或数字,来修改相应的程序设置。例如,输入”D”按回车将循环得到不同的进化模式。修改完后输入“Y”,按回车,开始运行该程序。

Nucleic acid sequence Distance Matrix program, version 3.66 Settings for this run:

D Distance (F84, Kimura, Jukes-Cantor, LogDet)? F84 G Gamma distributed rates across sites? No T Transition/transversion ratio? 2.0 C One category of substitution rates? Yes W Use weights for sites? No

F Use empirical base frequencies? Yes L Form of distance matrix? Square M Analyze multiple data sets? No

I Input sequences interleaved? Yes

0 Terminal type (IBM PC, ANSI, none)? ANSI 1 Print out the data at start of run No 2 Print indications of progress of run Yes

Y to accept these or type the letter for one to change y

两两序列的距离保存在outfile文件中。你可以将它重命名为outfile.txt,那么以后双击它时就可自动用记事本打开了。 Distances calculated for species Rabbit .... Human ... Opossum .. Chicken . Frog

Distances written to file \Done.

接着把outfile重命名为infile,运行neighbor程序(输入neighbor)。该程序从infile文件中读取距离数据。这里不需要设置,输入Y按回车。 Neighbor-Joining/UPGMA method version 3.66 Settings for this run:

N Neighbor-joining or UPGMA tree? Neighbor-joining O Outgroup root? No, use as outgroup species 1 L Lower-triangular data matrix? No R Upper-triangular data matrix? No S Subreplicates? No

J Randomize input order of species? No. Use input order M Analyze multiple data sets? No

0 Terminal type (IBM PC, ANSI, none)? ANSI

1 Print out the data at start of run No 2 Print indications of progress of run Yes 3 Print out tree Yes

4 Write out trees onto tree file? Yes

Y to accept these or type the letter for one to change y

运行完之后,树包含在outfile和outtree。可以用文本编辑器来看outfile中的树。 画树

下面我们用drawgram程序把outtree画成一棵好看的树吧。首先,把outtree重命名为intree,并把font文件的其中一个重 命名为fontfile,启动drawgram程序。该程序首先寻找文件fontfile,如果找不到它(如果你没有把字体文件之一改为fontfile 的话),它会提示输入一个字体文件。接着就会出现菜单。你需要将选项P对应的最终画图设备改为MS-windows bitmap。它还要要求你输入树的维数,比如说640x400。设置好后输入Y按回车。

Drawgram打开一个新的窗口,你可以看到一棵树,如果你满意这个结果,选择file菜单中的plot。在当前文件夹中出现一个plotfile文件。如果你将它重命名为plotfile.bmp,就可用图形工具将它打开了。

树支的长度是核苷酸或氨基酸改变的数目,改变的数目用dandist程序进化模式来估算。

氨基酸序列

所用的程序与上面所举的例子类似。只要把dnadist换成protdist就行了。

################# 详细说明 #################

除了基于距离的方法外,还有基于字符的方法:最大简约法和最大似然法。 根据实际情况,除了数据分析和画之外,我们还要验证数据的可靠性,比如用bootstrap方法。

如果运行有些程序之前,你还运行过别的程序,在文件夹中已经存在了outfile文件的话,程序会有这样的提示:

Dnadist: the file %use as output file already exists. Do you want to Replace it, Append to it, write to a new File, or Quit? (please type R, A, F, or Q)

#####DNA数据####

Dnadist的菜单

Nucleic acid sequence Distance Matrix program, version 3.66 Settings for this run:

D Distance (F84, Kimura, Jukes-Cantor, LogDet)? F84 G Gamma distributed rates across sites? No T Transition/transversion ratio? 2.0 C One category of substitution rates? Yes W Use weights for sites? No

F Use empirical base frequencies? Yes L Form of distance matrix? Square M Analyze multiple data sets? No I Input sequences interleaved? Yes

0 Terminal type (IBM PC, ANSI, none)? ANSI 1 Print out the data at start of run No

2 Print indications of progress of run Yes

D——距离计算方法,进化模式。是争对替换问题和转换颠换的。Jukes-Cantor距离假设所有替换的概率都相等。Kimura距离有两个不同 的替换率,一个对应转换,一个对应颠换。这些模式都假设每个碱基的频率是相等,且等于0.25。F84距离,转换和颠换率不同,碱基的频率也不同。 LogDet距离在序列间有较大的碱基频率差异时使用。LogDet距离不能复制含糊的代码,必须是确定的序列。

PHYLIP构建进化树的完整详细过程 一、获取序列

一般自己通过测序得到一段序列(已知或未知的都可以),通过NCBI的BLAST获取相似性较高的一组序列,下载保存为FASTA格式。用BIOEDIT等软件编辑序列名称,注意PHYLIP在DOS下运行,文件名不能超过10位,超过的会自动截留前面10位。 二、多序列比对

目前一般应用CLASTAL X进行,注意输出格式选用PHY格式。生成的指导树文件(DND文件)可以直接用TREEVIEW打开编辑,形式上和最终生成的进化树类似,但是注意不是真正的进化树。 三、构建进化树 1.N-J法建树

依次应用PHYLIP软件中的SEQBOOT.EXE、DNADIST.EXE、NEIGHBOR.EXE和CONSENSE.EXE打开。具体步骤如下: (1)打开seqboot.exe

输入文件名:输入你用CLASTAL X生成的PHY文件(*.phy)。

R为bootstrap的次数,一般为1000 (设你输入的值为M,即下两步DNADIST.EXE、NEIGHBOR.EXE中的M值也为1000) odd number: (4N+1)(eg: 1、5、9…) 改好了y

得到outfile(在phylip文件夹内) 改名为2

(2)打开Dnadist.EXE 输入2

修改M值,再按D,然后输入1000(M值) y

得到outfile(在phylip文件夹内)

改名为3

(3)打开Neighboor.EXE 输入3

M=1000(M值) 按Y

得到outfile和outtree(在phylip文件夹内) 改outtree为4,outfile改为402 (4)打开consense.exe 输入4 y

得到outfile和outtree(在phylip文件夹内) Outfile可以改为*.txt文件,用记事本打开阅读。 四、进化树编辑和阅读

outtree可改为*.tre文件,直接双击在treeview里看;也可以不改文件扩展名,直接用treeview、PHYLODRAW、NJPLOT等软件打开编辑。TREEVIEW可以显示BOOTSTRAN值,序列较多(60条以上)的时候打开直接显示有明显的重叠,可以在打印预览中显示,或输出为EMF WMF图片文件看,但是序列较多时BOOTSTRAN值的显示位置比较乱,和序列名称有重叠。

PHYLODRAW的编辑功能较强,可以自由调节X、Y轴的长度。输出格式为BMP、PS格式。缺点是不能直接显示BOOTSTRAN值,包括打开TREEVIEW输出的NEX文件,而且输出的BMP文件不全,类似截屏文件,我用PHOTOSHOP进行拼接合成,添加BOOTSTRAN值和注解符号等。据说也可以将PS文件用记事本打开,改变其中的字号,然后通过ADOBE DISTRILLOR将PS转化为PDF,就可以解决问题。如果发现还有重叠,可以再次改变PS文件中的字号大小,直到合适为止。

NJPLOT可以显示BOOTSTRAN值和分值长度。但是不能调节图片X、Y轴的长度。

建MP,ML树将Dnadist和Neighboot两步分别改为Dnapars和Dnaml,其余步骤相同。据说ML法序列较多是非常耗时,我没有尝试。因为我的序列较多。

也可以用CLASTAL X中的BOOTSTRAN N-J TREE法生成进化树,TREE菜单输出格式选项(OUTPUT FORMAT OPTION)中的BOOTSTRAN LABELS ON 选NODE(节点)。在treeview里,选择tree菜单 ,然后把show internal edge lables 的选项打勾了,直接打开生成的文件bootstrap的值就可以显示出来。

本文来源:https://www.bwwdw.com/article/dukw.html

Top