MEGA计算序列间遗传距离

更新时间:2023-11-27 10:01:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

序列间遗传距离的计算

1. 导入比对好的“*.meg”格式数据。 2. 数据划分

(1)序列数据的基因和域(genes & domains)的指定和选择

在MEGA中可对指定范围的序列位点进行分析。虽然经过比对和剪切后的序列通常都可全长用于分析,但对于蛋白质编码基因序列来说,序列的第一位并非总是密码子的第一位,此时要通过该设置指定密码子是从序列的第几位开始(要先通过Spin翻译确定),否则软件会将序列的第一位默认为密码子的第一位。具体的操作是:点击“Data→Setup/Select Genes & Domains”(在主窗口和数据管理窗口均可进行此设置),在弹出的“Genes/Domain Organization”小窗口中进行设置;“From”选项用于设置分析的起始位点,“To”用于设置分析的终止位点(设置完成后会在#Site项显示出选定范围内的位点总数),“Codon Start”用于设置密码子(开放阅读框)从序列的第几位碱基开始读起(如密码子从序列的第一位碱基开始读则设置为“1st site”,依此类推),“Codi…”用于选择是否启动蛋白质翻译功能,该项未选时(如右图)MEGA将无法将蛋白质编码基因序列翻译成蛋白质序列,数据管理窗口中的

按钮将呈灰色显示

而失去功能。

(2)分类单元的分组及选择

MEGA可对数据集中指定的分类单元进行分析。为了使选择更加方便,通常可对数据

的分类单元进行分组(groups),分组的具体操作是:点击“Data→Setup/Select Taxa & Groups”(在主窗口和数据管理窗口均可进行此设置),在弹出来的“Setup/Select Taxa & Groups”小窗口中根据分析需要对分类单元进行分组,选择需要分析的数据组,点击右下角的“Close”按钮关闭小窗口,即可对选定的组进行相关分析。

(3)已分组数据的保存

为了保存已经指定的数据分组,在关闭活动数据文件(active data file;在主窗口中用“File→Close Data……Alt+F5”关闭文件或直接关闭MEGA软件)前必须将数据输出另存,否则分组信息不会直接保存在原始序列文件中。

注意,在保存数据时必须确认数据中的所有分类单元都被选定(即在“Setup/Select Taxa & Groups”小窗口左边的“Taxa/Groups”框中选定“All”选项),否则输出的数据文件中将只能保存分析时选定的数据部分。

3. 成对序列遗传距离计算 点击“Distance→Compute Pairwise F7”菜单命令,弹出分析选择(Analasys Preference)窗口(也可称为参数设置窗口),可通过点击各选项右边的下拉菜单(pull-down menu)完成设置。各种参数的设置方法如下:

“Compute”参数设置:该设置有两个选项,选择“Distances only”时只计算遗传距离;选择“Distances & Std. Err.”时在计算遗传距离的同时还计算标准误差,此时会增加一项设置误差计算参数的选项,可以调节。一般选择“Distances only”即可。

“Include sites”参数设置:该设置包括“Gaps/Missing Data”和“Codon Positions”两项。“Gaps/Missing Data”用来设置空位处理原则:若选“Complete Deletion”则在计算遗传距离时凡有任一序列具空位的位点都不予计算;若选“Parwise Deletion”则在计算两条序列的遗传距离时仅不计算两条序列中的任一条具空位的位点,对于两条序列都不具空位的位点,即使数据集中的其它序列存在空位,也不删除;一般情况下都选“Parwise Deletion”。“Codon Positions”用来设置计算遗传距离时使用的密码子位点,可以根据需要选择使用密码子中的任意一位或几位或全部位点来计算遗传距离;通常可考虑用不同位点分别计算并进行对比。

“Substitution Model”参数设置:该设置包括“Model”和“Substitutions to Include”两项。“Model”选项用来选择计算遗传距离时使用的计算模型:点击“Model”选项右边的图标,在下拉菜单(pull-down menu) “Nucleotide→[距离模型,如p-distance、Kimura 2-parameter等]” 中选择合适的计算遗传距离的模型(理论上应先用Modeltest检验各种模型,然后选择最适模型进行计算,但在通常情况下选择较简单的模型即可,如p-distance、K2P模型等;“Number of differences”是一种根据序列间不同碱基的数量来计算遗传距离的模型,选用此模型时则“Gaps/Missing Data”选项应设置为“Complete Deletion”)。“Substitutions to Include”用来选择计算遗传距离时使用的碱基替换信息:“d: Transitions+Transversions”表示同时利用转换和颠换值来计算遗传距离,“s: Transitions only”表示仅用转换值来计算遗传距离,“v: Transversions only”表示仅用颠换值来计算遗传距离,“R=s/v”表示用转换颠换比值来计算遗传距离(“L: No. of Valid Common Sites”表示用普通有效位点来计算遗传距离?)。

所有参数设置完成后点击窗口右下方的

即开始计算,结果将在新窗口

中显示(该窗口最小化隐藏后可从主窗口上方

的“Windows”菜单中恢复),将结果另存备用即可。

* 利用窗口上方的快捷图标(shortcuts)可选择显示格式和保存格式,如点击遗传距离值显示在左下方(lower left),点击right),利用点击

图标可使

图标可使使遗传距离值显示在右上方(upper

图标可减少(decrease)或增加(increase)小数(decimal)的位数,

图标将以Excel格式输出计算结果。点

图标将以文本格式输出计算结果,点击

击任何一个输出格式选择图标都会弹出遗传距离输出选择窗口(Distance Write-out Options),点击的图标代表的格式为该窗口中的默认输出格式,若想改变输出格式,可点击该窗口中Output Format选项框右边的

按钮,在下拉菜单中选择其它输出格式。

4. 序列总体平均遗传距离:

点击“Distance→Compute Overall Mean”菜单命令,在弹出的分析选择(Analasys Preference)窗口(也可称为参数设置窗口)中设置各种参数,点击窗口右下方的

,保存计算结果备用。

5. 替换饱和性分析(重要)

(1)计算序列的校正遗传距离:在进行“成对序列遗传距离计算”时将“Substitution Model”

参数设置中的“Model”选项设置为Kimura 2-parameter(也可根据需要选用其它模型,但后面的颠转换、颠换遗传距离计算也要选用同一模型) ,“Substitutions to Include”选项设置为 “d: Transitions+Transversions”,计算所得的遗传距离作为替换饱和性分析的校正距离,以 “*.xls”格式保存备用(输出时MEGA会自动将对角矩阵转换成一列数据)。 (2)计算序列的转换遗传距离:在进行“成对序列遗传距离计算”时将“Substitution Model”

参数设置中的“Model”选项设置为Kimura 2-parameter(一定要与计算校正距离时选用的模型相同) ,“Substitutions to Include”选项设置为 “s: Transitions only”,计算所得的遗传距离即为替换饱和性分析的转换距离,以 “*.xls”格式保存备用。 (3)计算序列的颠换遗传距离:在进行“成对序列遗传距离计算”时将“Substitution Model”

参数设置中的“Model”选项设置为Kimura 2-parameter(一定要与计算校正距离时选用的模型相同) ,“Substitutions to Include”选项设置为 “v: Transversions only”,计算所得的遗传距离即为替换饱和性分析的颠换距离,以“*.xls”格式保存备用。 注意:以上分析可选择不同的模型进行比较,看结果是否有差异。 (4)Excel作图,用直观坐标图显示替换饱和性状态。

① 导入数据:将上述三种遗传距离导入同一个Excel文件中,按相同的顺序排成三列,列与列之间不要留下空白列,每一列数据的标识符号(名称)放在该列的顶端(第一行),校正距离放在第一列(因为Excel作图时一般将第一列默认为横坐标)。

②作图:选定三列数据,点击主菜单中的“插入→图表”,在弹出的“图表向导-图表类型”窗口中选择“标准类型”中的“XY散点图”(在进行其它数据分析时可根据需要选择其它图表类型,包括“自定义”类型),点击“下一步”;在“图表源数据”窗口中点击“下一步”;在“图表选项”窗口中设置需要在图表中显示的各种选项:在“标题”标签中可设置“图表标题”、“数值(X)轴(A)”标题、“数值(Y)轴(V)”标题,在“坐标轴”标签中可设置“显示/隐藏坐标轴上的数值”,在“网格线”标签中可设置“显示/隐藏网格线”,在“图例”标签中可设置“显示/隐藏图例”以及图例与图表的相对位置(包括“底部、右上角、靠上、靠右、靠左”等选项),在“数据标志”标签中可设置“数据标签”(该项设置只有在数据较少时为了方便识别数据才选用,一般情况下均不予选择),点击“下一步”;在“图表位置”窗口选择图表插入的具体位置,一般选择默认选项“作为其中的对象插入(O)”,点击完成,即会在Excel表中插入一个生成的图表;该图表可直接复制插入到Word文档中使用,也可在Photoshop软件中转换成独立的“*.jpg”文件保存备用,需要时再插入Word文档中。

注意:该项分析也可在其它一些软件中进行。如DAMBE,但可供选用的模型在不同软件中有所不同;选择不同密码子的方法是:点击命令“Sequences→work on codon position 1/2/3/1+2”,用“Sequences→Restore sequences”命令可恢复全序列进行分析;碱基替换饱和性分析的方法是:打开序列数据→点击命令“Graphics→transition and transversion versus divergence”,在弹出来的小窗口中选择参数设置,点击“Go”按钮,分析结果将显示在一个新的“Graph Tool”窗口中。图形文件的输出:在“Graph Tool”窗口中点击“File→Save file in metafile format”即可将分析结果保存为“*.WMF”格式的图形文件;若选择“File→Save file in bitmap format”,则保存为“*.bmp”格式的图形文件,文件较

小,但分辨率较低,不能满足发表论文的需要。要编辑坐标轴则点击“Graphic→……”菜单进行选择。若要将分析结果以遗传距离的形式保存,则在“Graph Tool”窗口中点击“Edit→Copy data to EXCEL”,然后创建一个“*.xls”文档,将数据粘贴到新建的“*.xls”文档中即可。使用DAMBE进行碱基替换饱和性分析的优点是可以直接输出图形文件,对大型数据矩阵特别方便,缺点是以EXCEL格式输出遗传距离值时没有同时输出物种对名称;若要将遗传距离与物种对对应起来,需要使用其它命令或方法。

DNA序列组成及变异分析

* 这些分析通常可以在MEGA软件中进行,也可以在其它相关软件中实现,如DAMBE等。

用MEGA进行数据分析时,输入的数据必须是“*.meg”格式文件,否则不能识别,所以在分析数据前要先将其它格式文件转换成“*.meg”格式文件。MEGA可以将多种格式的序列文件(*.fasta、*.aln、*.nexus、*.phylip、*.phylip2、*.gcg、*.pir、*.nbrf、*.msf、*.ig和*.xml格式)转换成“*.meg”格式,不论其是否已经比对好。所以,用MEGA转换序列数据格式之前要先将序列比对好并删除引物序列。许多人通常喜欢将比对整理好的序列保存为“*.fasta”格式,因为这种格式更加通用,而且其它格式的文件均可由此格式通过一定的软件或批处理文件转换生成。

* MEGA(Molecular Evolutionary Genetics Analysis; http://www.megasoftware.net/)是一个不

断更新的软件,如果启动该软件时出现“The current test version of MEGA may be out of date (release #4104). We recommend that you obtain an updated version from http://www.megasoftware.net or http://megasoftware.net”, 可考虑重新下载新版本安装,也可点击“OK”后忽略。

一、转换文件格式

1. 运行MEGA 4.1。

2. 导入数据。点击MEGA 4.1主窗口左上角工具栏中的“Text Editor and Format Convertor”图标

(或点击“File→Text Editor...F3”),在弹出来的“Text File Editor and Format

Convertor”窗口中点击“File→Open”或直接点击窗口左上角工具栏中的“Open a file (Ctrl+0)”图标

,选择并打开需要转换的序列文件。

* “Text Editor and Format Convertor”窗口最小化隐藏后可点击MEGA主窗口中的“Text Editor and Format Convertor”图标

和随之显示在主窗口左下角的该窗口的最小化图标

来恢复,也可点击主窗口中的“File→Text Editor…… F3”

菜单命令,然后点击显示在主窗口左下角的该窗口的最小化图标来恢复。在用MEGA的数据处理窗口“View Sequence Data”

进行统计分析时,若选择了“Statistic→Display Results in Text Editor”设置,即在“Text Editor and Format Convertor”窗口中显示结果,窗口最小化隐藏后又需要重新使用时也是用同样的方法来激活恢复。

点击“Satistics→Nucleotide Composition”,软件将会在内置文本编辑器(built-in text editor)“Text File Editor and Format Convertor”窗口中显示碱基组成分析结果,保存文件备用(分析结果包括碱基总数,每种碱基的百分比,各碱基在密码子第1位、第2位、第3位的使用频率)。

* “Text Editor and Format Convertor”窗口最小化隐藏后可点击MEGA主窗口中的“Text Editor and Format Convertor”图标

和随之显示在主窗口左下角的该窗口的最小化图标

来恢复,也可点击主窗口中的“File→Text Editor…… F3”

菜单命令,然后点击显示在主窗口左下角的该窗口的最小化图标来恢复。

4. 计算密码子使用情况:

点击“Satistics→Codon Usage”,软件将会在“Text File Editor and Format Convertor”窗口中显示密码子使用分析结果,保存文件备用(分析结果包括碱基总数,每种碱基的百分比,各碱基在密码子第1位、第2位、第3位的使用频率)。

* 计算“密码子使用”情况时,必须先指定密码子在序列中的起点(第一位、第二位、第三位或其它位置),具体操作见“序列遗传距离的计算”中的“2. 指定序列数据的起始及终止位点”。

5. 计算碱基对频率(Nucleotide Pair Frequencies)

点击“Satistics→Nucleotide Pair Frequency→Directional(16 Pairs)或Undirectional(10 Pairs)”,统计结果将显示在“Text Editor and Format Convertor”窗口中,保存备用即可。

* 用此菜单命令计算获得的转换/颠换比值(R)将作为后面利用PAUP软件进行系统发育分析时确定是否对数据进行加权的参考依据。

* Directional (16 Pairs)是指定向的替换;Undirectional(10 Pairs)是指不定向的替换。

6. 碱基替换模式检验

用此数据处理窗口中的“Statistical→Nucleotide Pair Frequency→……”菜单命令计算的“转换/颠换值”是转换/颠换位点的数量比值,而用主窗口中的“Pattern→……”菜单命令可以计算有关碱基替换模型的一些其它统计数值(statistical quantities)

(1)序列间替换模式的同质性检验(Test of the homogeneity of Substitution Patterns between Sequences.)

点击“Pattern→Test Substitution Pattern Homogeneity……”菜单命令,在弹出来的分析选择(Analysis Preferences)窗口中设置相关选项:“Gap/Missing”选项一般选“Pairwise Deletion”,“Codon Positions”可根据需要选择密码子第一位、第二位、第三位或任意两位的组合或全选;设置完成后点击窗口右下角的“Compute”按钮,计算结果将会在一个新窗口中显示保存结果备用。

该菜单命令计算所得的数值(statistical quantities)表示:根据序列间碱基组成偏倚差异程度推断时拒绝零假说(null hypothesis,即序列以相同的替换模式进化)的概率。用Monte Carlo test (1000 replicates)估算P-值,P-值显示在表格的左下方(below the diagonal);P-值小于0.05使被认为显著(用黄色标记)。每对序列对的平均位点差异系数显示在表格的右上方(above the diagonal)[The probability of rejecting the null hypothesis that sequences have evolved with the same pattern of substitution, as judged from the extent of differences in base composition biases between sequences (Disparity Index test, [1]). A Monte Carlo test (1000 replicates) was used to estimate the P-values [1], which are shown below the diagonal. P-values smaller than 0.05 are considered significant (marked with yellow highlights) The estimates of the disparity index per site are shown for each sequence pair above the diagonal. ]

(2)序列间碱基组成偏倚差异估算(Estimates of Base Composition Bias Difference between Sequences)

点击“Pattern→Compute Composition Distance……”菜单命令,其它操作与“序列间替换模式的同质性检验”相同。

(3)序列间碱基组成净差估算(Estimates of Net Base Composition Bias Disparity between Sequences)

点击“Pattern→Compute Pattern Disparity Index……”菜单命令,其它操作与“序列间替换模式的同质性检验”相同。

(4)核苷酸替换模式的最大复合似然法估算(Maximum Composite Likelihood Estimate of the Pattern of Nucleotide Substitution)

点击“Pattern→Compute Substitution Pattern (4×4)……”或“Pattern→Compute Transition/Transversion Bias (R)……”菜单命令,其它操作与“序列间替换模式的同质性检验”相同。

* 用此菜单命令计算所得的“总体转换/颠换偏倚”(The overall transition/transversion bias)值R是根据转换/颠换速率(The transition/transversion rate tatios)计算出来的,与根据“碱基对频率”计算中的“转换/颠换”位点数计算出来的R值不同。

本文来源:https://www.bwwdw.com/article/d6qt.html

Top