QTL定位中常见的12个问题
更新时间:2023-12-09 13:39:01 阅读量: 教育文库 文档下载
- qtl定位的原理推荐度:
- 相关推荐
数量性状基因定位研究中若干常见问题的分析与解答
李慧慧 张鲁燕 王建康*
中国农业科学院作物科学研究所/国家农作物基因资源与基因改良重大科学工程/CIMMYT中国办事处,北京100081
摘 要:QTL作图是基因精细定位、克隆以及有效开展分子育种的基础,在利用QTL作图开展数量性状基因
定位研究的过程中经常会碰到一些问题,与统计方法有关的一些问题包括:LOD的统计学意义是什么?检测QTL的可信度和LOD临界值的关系是什么?如何评价不同的QTL作图方法?提高QTL检测效率的途径有哪些?与遗传参数估计有关的一些问题包括:QTL的贡献率是如何计算出来的?如何确定QTL有利等位基因的来源?选择基因型分析的有效性如何?复合性状是否适宜于QTL作图?与作图群体及遗传图谱有关的一些问题包括:QTL作图群体中表型数据是否要求服从正态分布?加密标记是否可以显著提高QTL检测功效?缺失分子标记对QTL作图有什么影响?奇异分离标记对QTL作图有什么影响?笔者试图结合我们多年的研究工作对这些具有共性的12个常见问题做出分析和解答,供科研工作者参考。
关键词:数量性状;QTL作图;完备区间作图;似然比检验;功效分析
Analytical Answers to Frequently Asked Questions in Quantitative Trait Locus Mapping
LI Hui-Hui, ZHANG Lu-Yan, and WANG Jian-Kang*
Institute of Crop Sciences / National Key Facility for Crop Gene Resources and Genetic Improvement / CIMMYT China Office, Chinese Academy of Agricultural Sciences, Beijing 100081, China?
Abstract: QTL mapping is an important step in gene fine mapping, map-based cloning, and the efficient use of gene information in molecular breeding. Questions are frequently met and asked in the application of QTL mapping in practical genetic populations. Questions related to statistical method of QTL mapping are: what does LOD score mean? What is the relationship between the reliability of detected QTL and the LOD threshold? How to evaluate different QTL mapping methods? How to improve the QTL detection power? Questions related to genetic parameter estimation are: how to calculate the phenotypic variance explained by each
本研究由国家自然科学基金项目(30771351)资助。
第一作者联系方式:Tel: 010-82106038; E-mail: lihuihui@caas.net.cn
* 通讯作者 (Correspondence author): 王建康,Tel: 010-82105846; E-mail: wangjk@caas.net.cn; jkwang@cgiar.org
1
detected QTL? How to determine the source of favorable alleles at detected QTL? How efficient is the selective genotyping? Can composite traits be used in QTL mapping? Questions related to linkage map and mapping populations are: Does the phenotype of a trait of interest have to follow a normal distribution? Does the increase in marker density greatly improve QTL mapping power? What effects will missing markers have in QTL mapping? What effects will segregation distortion have in QTL mapping? Our objective in this paper is to provide the analytical answers to 12 frequently asked questions, based on our studies in past several years.
Keywords: Quantitative trait; QTL mapping; Inclusive composite interval mapping; Likelihood ratio test; Power analysis
经典数量遗传学建立在多基因假说基础之上,把控制数量性状的基因作为一个整体,重点研究各种遗传效应与遗传方差的分解和估计,不区分个别基因在表型效应上的差异[1-3]。分子标记连锁图谱的大量出现,使得我们可以像研究质量性状基因一样研究数量性状基因,也可以把单个数量性状基因(quantitative trait gene or locus,简称QTL)定位在染色体上,并估计其遗传效应,这一过程称为QTL作图或定位[4]。QTL作图是基因精细定位和克隆的基础,目前已成为数量性状遗传研究的常用方法。QTL定位结果可以帮助育种家获得目标性状的遗传信息,借助与QTL连锁的分子标记在育种群体中跟踪和选择有利等位基因,提高选择的准确性和预见性。但是,在利用QTL作图开展遗传研究的过程中也经常碰到一些问题,这些问题大致可分为有关作图统计方法、有关遗传参数估计、以及有关作图群体及连锁图谱等三大类。笔者试图结合我们近些年的研究工作对具有共性的12个问题做出分析和解答,供广大科研工作者在利用QTL作图开展遗传研究时参考。与作图统计方法有关的四个问题是:LOD的统计学意义是什么?检测QTL的可信度和LOD临界值的关系是什么?如何评价不同的QTL作图方法?提高QTL检测效率的途径有哪些?与遗传参数估计有关的四个问题是:QTL的贡献率是如何计算出来的?如何确定QTL有利等位基因的来源?选择基因型分析的有效性如何?复合性状是否适宜于QTL作图?与作图群体及遗传图谱有关的四个问题是:QTL作图群体中表型数据是否要求服从正态分布?加密标记是否可以显著提高QTL检测功效?缺失分子标记对QTL作图有什么影响?奇异分离标记对QTL作图有什么影响?
1 QTL作图中的统计学问题 1.1 LOD的统计学意义是什么?
区间作图(Interval mapping,简称IM)[5]、复合区间作图(Composite interval mapping,简称CIM)[6]
和完备区间作图(Inclusive composite interval mapping,简称ICIM)[4,7-9]均利用极大似然估计原理,通过一维扫描在全基因组上逐点检测QTL的存在。检验的零假设(H0)是扫描位点上不存在QTL,备择假设(HA)是扫描位点上存在一个QTL,似然比统计量(LRT)用来衡量扫描位点上存在QTL的可能性大小。似然比统计量的一般定义是,
LRT??2ln(L0), LA其中ln是自然对数函数,L0是H0下似然函数的极大值,LA是HA下似然函数的极大值。似然比统计量大多数情况下有很好的统计学性质,即渐近服从?分布,?分布的自由度为两种假设下独立变量个数之差,
22
2
因此容易确定给定显著性水平下检验统计量的临界值。一些研究表明QTL作图时的似然比统计量可能不服从单一?2分布,但却可以用2个不同自由度的混合?2分布来近似[6,10],因此也可以确定给定显著性水平下检验统计量的临界值。
Lander和Botstein在提出IM的同时也提出利用人类遗传研究中常用的LOD (Likelihood of odd)值作为检验QTL是否存在的标准[5]。LOD值定义为极大似然函数比的常用对数,即,
LOD?log(LA)?log(LA)?log(L0)。 L0因此,若LA是L0的10倍,则LOD=1;如果LA是L0的100倍,则LOD=2;如果LA是L0的1000倍,则LOD=3。根据LOD值和LRT值的定义,不难得到它们之间有如下关系:
LOD?LRTLRT 或 LRT?4.6052LOD。 ?2ln(10)4.60521.2 检测QTL的可信度和LOD临界值之间的关系是什么?
与其他假设检验一样,QTL作图中的检验也可产生四种结果(图1)。当一个位点上没有QTL,通过测验却错误地判断有QTL存在,称这种现象为假阳性;当一个位点上有QTL,通过测验判断有QTL存在,称这种现象为真阳性;当一个位点上有QTL,通过测验却错误地判断没有QTL存在,称这种现象为假阴性;当一个位点上没有QTL,通过测验判断没有QTL存在,称这种现象为真阴性。假阳性和假阴性是统计测验中的两类错误,犯第一类错误(或假阳性)的概率(?)等于H0为真时被拒绝的概率,即,
?=P{拒绝H0|H0为真}=P{假阳性}/[P{假阳性}+P{真阴性}]。
犯第二类错误(或假阴性)的概率(?)等于H0为假时未被拒绝的概率,即,
?=P{未拒绝H0|H0为假}=P{假阴性}/[P{假阴性}+P{真阳性}]。
对于特定的检验方法而言,在一定的试验精确度下,降低?则会提高?,降低?则会提高?,同时降低?和?的途径是提高试验精确度和增加样本量。犯第一类错误的概率?一般在检验前设定,对一定的检验方法,给定?后?也是确定的。但是除t-测验外,大多数统计假设检验给定?下的?难以用代数解析式表示出来。
表1前5列给出LOD值1.0~5.0时对应的LRT值以及三种自由度下一次检验中犯第一类错误概率,犯
3
第一类错误概率?有时也叫做显著性概率;后4列给出显著性概率0.1~0.0001时对应的LOD临界值。以自由度2为例,LOD=1.30对应的显著性概率为0.05,如果只做一次假设检验,采用这样的LOD临界值就能保证假阳性的概率不超过0.05,即鉴定出的QTL是假阳性的概率低于0.05,或者说鉴定出的QTL为真的概率超过0.95。基于区间测验的QTL作图,一般在基因组内所有染色体上按一定步长逐点检验QTL的存在,而这些检验又不是完全独立的,因此也很难确定一次检验的显著性水平所对应的全局?。例如,如果每次检验均采用临界值LOD=3,当自由度为2时每个扫描位置对应的?近似为0.001,QTL作图需要知道的是全基因组检验后的?。由于QTL作图的复杂性,如涉及到多次非独立假设检验,不同物种有不同大小的基因组,不同作图群体有不同的标记数,零假设下似然比检验统计量服从什么样的渐近分布尚无定论,因此难以准确确定LOD临界值对应的一次检验和全局?,但一些非参数统计方法已用于给定全局?后LOD临界值的确定[11-12]。一般认为采用2~3的LOD临界值可以把全局?控制在0.05以内,在显性QTL和互作QTL作图中,似然比统计量有较大的自由度,还可适当考虑采用较高的临界值,如3~4。但通过理论或模拟,进一步明确QTL作图中似然比检验统计量的渐近分布还是必要的,笔者推测渐近分布可能与染色体条数、每条染色体长度、标记密度和QTL遗传效应类型等因素有关。
与所有假设检验一样,采用较高的LOD临界值会更好地控制假QTL的发生,同时遗传效应较小的真QTL却不易被检测出来。如何平衡两类错误的概率,这不仅仅是统计学问题,还要考虑到具体的研究目标。如果QTL作图只是初步确定基因在染色体上的位置,然后根据作图结果构建其他次级群体对检测到的QTL进行精细定位、甚至图位克隆,然后开展转基因工作,这类研究几乎不容许假QTL的发生。此时要适当提高检验QTL时的LOD临界值,保证后续研究中QTL的可靠性。另一方面,如果研究目标是把QTL作图结果用于标记辅助选择聚合育种,这时只有尽可能多地检测出控制育种目标性状的QTL,才能保证对所有控制育种性状的基因进行选择,因此有必要适当降低检验QTL时的LOD临界值,使得遗传效应较小的QTL也有机会被检测出来。此时即使有一些假QTL的存在,也不至于造成很大的损失。
4
LOD > LOD0, i.e., accept HALOD < LOD0, i.e., accept H0False positives, Type I errorsTrue positives, no errorsFalse negatives, Type II errorsTrue negatives, no errorsPower = 1-P{Type II error}H0: there is no QTL at HA: there is one a genomic position on QTL at the the trait in interestgenomic position
图1 QTL定位中假设检验的两类错误。阴影部分表示检验统计量LOD值的分布,LOD0表示临界值 Fig. 1 Two types of error in hypothesis test in QTL mapping. The shadow area represents the distribution of the
test statistic LOD score, and LOD0 is the threshold value
表1 3种自由度下不同LOD值对应的犯第一类错误概率(?)和不同?下对应的LOD临界值 Table 1 The corresponding probabilities of type I error to LOD and the corresponding LOD threshold to the
significance probabilities under three degrees of freedom
LOD
LRT
df = 1
1.00 2.00 3.00 4.00 5.00
4.61 9.21 13.82 18.42 23.03
0.031786 0.002407 0.000201 0.000018 0.000002
?
df = 2 0.099759 0.010002 0.000998 0.000100 0.000010
df = 3 0.202686 0.026625 0.003161 0.000360 0.000040
?
LOD df = 1
df = 2 1.00 1.30 2.00 3.00 4.00
df = 3 1.36 1.70 2.46 3.53 4.58
0.1 0.05 0.01 0.001 0.0001
0.59 0.83 1.44 2.35 3.29
1.3 如何评价不同的QTL作图方法?
图2给出一个模拟的加倍单倍体(DH)群体中ICIM、CIM和IM三种方法的LOD值和估计遗传效应的曲线图。遗传模型中包含7个QTL,第1染色体上1个,第2和4染色体上分别有2个相引相连锁QTL,第3染色体上有2个互斥相连锁QTL,所有QTL遗传效应的绝对值为1,效应的方向如图2箭头所示。从图中我们可以很直观地看到不同QTL作图方法找到的QTL不尽相同,IM无法准确定位连锁QTL,CIM无法准确定位互斥连锁的QTL。统计检验的功效定义为1??,即发现真QTL的概率,常用来比较不同统计方法的有效性。QTL作图包含着复杂的统计假设检验,难以从理论上推导出不同QTL作图方法的统计功效。一般采用模拟方法比较不同方法QTL检测功效和假阳性的大小,功效高同时又具有较低假阳性在统计上就是较好的方法。
5
我们用独立遗传模型说明功效的计算(表2),假定基因组包含10条染色体,每条长度160 cM且均匀分布17个标记,8个QTL(IQ1~IQ8)分别位于前8条染色体,另外2条为空白染色体。为简单起见,我们用IQ2、IQ5、IQ6和IQ7说明功效的计算,4个QTL分别解释2%、5%、10%和20%的表型变异(即PVE)。假定表型方差为1.0,这样加性遗传效应等于PVE的平方根(表2)。模拟4个DH群体,群体大小均为200,每个群体中ICIM和IM检测到的所有超过LOD临界值2.5的QTL列于表3,用于统计每个QTL检测功效以及假阳性。以第一个模拟群体为例,ICIM检测到5个QTL,其中3个分别位于第5、6和7条染色体的51.10、60.00和70.00 cM处,分别落在了IQ5、IQ6和IQ7的10 cM置信区间内(表3),因此当置信区间为10 cM时把IQ5、IQ6和IQ7的统计功效加1;第2条染色体上检测到一个QTL,与IQ2的距离为6.90 cM,不在IQ2的10 cM置信区间内,第7条染色体上40 cM处检测到一个QTL,既不在IQ7的10 cM置信区间内也不在其20 cM置信区间内,因此判定为假阳性。同理,IM发现4个QTL,其中两个分别位于第6和7染色体的60.00 cM和70.00 cM处,分别落在IQ6和IQ7的10 cM置信区间内,这2个QTL对应的功效加1,另外2个不在这4个QTL的10 cM置信区间内,因此判定为假阳性。
按照上述算法,对于4次模拟来说,在LOD临界值2.5下当置信区间为10 cM时(表3),ICIM检测IQ2、IQ5、IQ6和IQ7的功效分别为2、1、3和2,即IQ2在4次模拟中被检测到2次,IQ5被检测到1次,IQ6被检测到3次,IQ7被检测到2次;IM检测4个独立QTL的功效分别为1、0、3和2。ICIM检测到的16个QTL中有8个假阳性,IM检测到的13个QTL中有7个假阳性。当置信区间为20 cM时(表3),ICIM检测IQ2、IQ5、IQ6和IQ7的功效分别为3、2、4和4,IM的检测功效分别为1、1、3和4;ICIM检测到的16个QTL中有3个假阳性,IM检测到的13个QTL中有4个假阳性。因此通过100甚至1000次的模拟,就能得到准确的检测功效和假阳性率,从而判断不同QTL作图方法的有效性。
6
20LOD score15105020Estimated effect完备区间作图ICIM210-1-2210-1-2完备区间作图ICIMLOD score151050Estimated effect复合区间作图CIM复合区间作图CIMLOD score151050Estimated effect20区间作图IM210-1-2区间作图IM1111111222222333333444444555555666666Testing every 1 cM on six chromosomes1111111222222333333444444555555666666Testing every 1 cM on six chromosomes
图2 200个加倍单倍体家系群体中区间作图、复合区间作图和完备区间作图的比较
Fig. 2 Comparison of interval mapping, composite interval mapping and inclusive composite interval mapping
in a simulated population with 200 doubled haploid lines.
假定一个基因组包含6条染色体,每条长度为120 cM,等距离分布13个标记,第1条染色体上35cM处存在1个QTL,第2、3、4条染色体上都在35和68cM处存在2个QTL,图中箭头表示QTL的近似位置,朝上箭头表
示QTL的加性效应为正,朝下箭头表示QTL的加性效应为负,效应的绝对值均为1。
A genome with 6 chromosomes was assumed, each of 120 cM and evenly distributed with 13 markers. One QTL was located at 35 cM on chromosome 1, and two QTL were located at 35 and 68 cM on chromosomes 2, 3, and 4. Arrows pointed to the approximate QTL positions. Upward arrows indicated the QTL have positive effects, while
downward arrows indicated the QTL have negative effects. The absolute genetic effect is 1 for all QTL.
表2 8个独立遗传QTL在基因组中的位置、加性遗传效应、解释表型变异的百分数以及10 cM和20 cM置信
区间
Table 2 Eight independent QTL and their chromosomal positions, additive effects and explained phenotypic
variation (%), along with the 10 cM and 20 cM confidence intervals (CI)
QTL
染色体 Chromosome
IQ1 IQ2 IQ3
1 2 3
位置 Position (cM) 25 32 39
加性效应 Additive 0.1000 0.1414 0.1732
贡献率 PVE (%) 1 2 3
置信区间 Confidence interval (CI) CI=10 cM (20 cM, 30 cM) (27 cM, 37 cM) (34 cM, 44 cM)
CI=20 cM (15 cM, 35 cM) (22 cM, 42 cM) (29 cM, 49 cM)
7
IQ4 IQ5 IQ6 IQ7 IQ8
4 5 6 7 8
46 53 60 67 74
0.2000 0.2236 0.3162 0.4472 0.5477
4 5 10 20 30
(41 cM, 51 cM) (48 cM, 58 cM) (55 cM, 65 cM) (62 cM, 72 cM) (69 cM, 79 cM)
(36 cM, 56 cM) (43 cM, 63 cM) (50 cM, 70 cM) (57 cM, 77 cM) (64 cM, 84 cM)
8
表3 利用4个模拟DH群体计算完备区间作图和区间作图两种方法的检测功效和假阳性,QTL置信区间长度分别是10 cM或20 cM
Table 3 Calculation of power and false QTL in four simulated DH populations for ICIM and IM. The confidence interval of each predefined QTL is 10 or 20 cM.
Pop 完备区间作图 Inclusive composite interval mapping
染色体 1 2 3 4
区间作图 Interval mapping
位置 47.10 6.70 60.00 70.00 30.00 60.00 63.90 56.20 72.60 86.30 60.00 38.70
加性效应 0.26 0.25 0.30 0.52 0.30 0.28 0.43 0.31 0.48 0.47 0.31 -0.26
位置 25.10 51.10 60.00 40.00 70.00 30.50 45.00 59.10 59.40 30.00 55.40 70.00 90.00 69.30 60.00 38.90
加性效应 LOD PVE (%) CI=10 cM CI=20 cM 染色体 0.19 0.29 0.30 0.20 0.42 0.27 0.27 0.26 0.38 0.21 0.29 0.28 0.25 0.22 0.33 -0.23
2.56 3.48 6.05 8.14 6.72 8.86 2.94 3.71 11.87 16.64 5.35 7.78 5.25 7.94 4.94 7.50 9.84 15.61 2.50 3.96 4.47 7.81 4.42 7.14 3.39 5.41 2.65 4.99 5.87 11.34 2.92 5.70
False QTL IQ2 IQ5 IQ6 IQ7 IQ2 IQ6 IQ2 IQ6 IQ7
IQ5 IQ6 IQ7 IQ2 IQ6 IQ2 IQ6 IQ7
5 6 6 2 6 7 6 7 7 7 10
LOD PVE (%) CI=10 cM CI=202.71 6.74 2.51 6.15 3.99 8.77 13.39 26.53
4.38 9.59 3.81 8.39 8.90 19.44
3.66 8.81 9.55 21.01 8.94 19.93 5.77 13.04 4.57 9.99 3.04 7.18
False QTL IQ5 IQ6 IQ7 IQ2 IQ6 IQ7 IQ6
IQ6 IQ7 IQ2 IQ6 IQ7 IQ6
Chromosome Position Additive 2 5 6 7 7 2 5 6 7 2 6 7 7 6 7 10
Chromosome Position Additive
False QTL False Q
False QTL False QTL 7
False QTL IQ5 False QTL IQ7
False QTL IQ7
False QTL False QFalse QTL IQ7
False QTL False QTL 7 False QTL IQ6 False QTL IQ7
108.00 0.38 False QTL False Q
False QTL False Q
False QTL False QTL
9
1.4 提高QTL检测功效的途径有哪些?
统计上提高假设检验功效的途径主要是增加样本量和减小试验误差,对QTL作图来说就是增大作图群体、减小表型测定时的误差(即提高性状的遗传力)。以ICIM为例,增大群体对提高QTL检测功效是明显的(图3)。对大小为100、200和400的群体来说,把PVE=4%的QTL定位到10 cM置信区间内的概率分别为29%、67%和91%;而把PVE=10%的QTL定位到10 cM置信区间内的概率分别为79%、97%和100%。
减小表型误差则间接提高单个QTL的贡献率[13],如果通过降低表型误差把QTL对表型的贡献率由4%提高到5%,对大小为100、200、400的群体来说,检测功效则分别由29%、67%和91%提高到44%、77%和94%。因此,QTL作图研究中作图群体在资源允许的条件下要尽可能地大,同时表型鉴定时要尽量减小随机误差。当然对受环境影响大并具有较大基因型和环境互作的性状,还要在多地点/多年份进行表型鉴定。
降低表型变异也可间接提高PVE,从而提高QTL的检测功效。遗传研究中近等基因系和染色体片断置换系[14-15]都是通过这种途径提高遗传分析的可靠性。举例来说,假定某群体中3个独立遗传QTL的遗传方差分别为0.1、0.2和0.3,误差方差为0.4,因此3个QTL分别解释10%、20%和30%的表型变异,在这3个QTL的近等基因系中假定QTL的遗传效应和误差方差保持不变,那么3个QTL近等基因系群体的表型方差分别为0.5、0.6和0.7,3个QTL解释的表型变异则增加到20%、33%和43%,因此在这3个近等基因系群体中进行QTL定位研究将更加有效。
1009080706050403020100Power or FDR (%)401602804005204016028040052040160280400520401602804005204016028040052040160280400520401602804005204016028040052040160280400520PVE=1%PVE=2%PVE=3%PVE=4%PVE=5%PVE=10%PVE=20%PVE=30yRPopulation size 图3 QTL的检测功效与群体大小的关系
Fig. 3 Relationship between QTL detection power and mapping population size
10
selective genotyping
2.4 复合性状是否适宜于QTL作图?
植物育种中,有不少性状可以看作是由两个或两个以上性状的代数运算得到的,如玉米雌雄开花间期等于雌穗开花期减去雄穗开花期,水稻籽粒的长宽比等于粒长除以粒宽。为了便于叙述,我们把通过单独测量得到性状值的性状称为构成性状,由若干构成性状经过代数运算得到的性状称为复合性状。不少研究者利用构成性状和复合性状同时进行作图,有时会发现一些复合性状独有的QTL,但对复合性状QTL作图的理论根据和有效性缺乏了解。其实复合性状的使用使得遗传模型变得更为复杂,为说明这一点,假定分别有2个独立遗传QTL控制2个构成性状(表6),加性遗传效应均为1,性状I和II的群体平均数分别为25和20。可以证明4个QTL在和性状上的遗传效应均为1、在差性状上的遗传效应分别为1、1、?1和?1,在积和商性状上的遗传效应不仅与QTL在构成性状中的效应有关,而且还依赖于群体平均数(表6)。进一步还能证明除加性效应外,4个QTL在积和商性状上还存在互作效应(表6),因此复合性状的遗传效应也比构成性状更为复杂 [21]。
模拟研究也表明,对于独立的QTL而言,复合性状的遗传力与构成性状基本一致,而对于连锁的QTL,积和商性状的遗传力有所下降(表7)。对于不同的遗传模型,与构成性状相比,复合性状的检测功效始终会有不同程度的降低,而且错误发现率会升高;选择较大的作图群体,复合性状检测功效下降的程度会减小,同时错误发现率也会略有减小,但错误发现率仍然高于构成性状(表7)。
QTL间连锁的存在,不利于复合性状作图,检测功效会大大降低,QTL的效应和位置的估计不准确;当连锁距离大于或等于35 cM时,复合性状效应和位置的估计基本无偏,但检测功效仍然低于构成性状。构成性状间的正相关会极大地降低差与商性状的检测功效,而构成性状间的负相关会极大地降低和与积性状的检测功效,但不管是正相关或是负相关,构成性状的QTL检测功效都高于复合性状的检测功效。复合性状独有QTL的遗传机制尚不明确,模拟试验显示检测到的复合性状独有QTL可能是由构成性状中的微效QTL引起的。
与构成性状相比,复合性状受较多QTL控制、QTL具有更复杂的遗传效应和连锁关系、QTL作图功效比构成性状下的功效明显下降,因此使用复合性状作图的意义不大。复合性状在遗传和育
16
种中的使用应充分考虑二者有着不同的研究目标,遗传研究在于尽可能多地了解控制目标性状基因的遗传规律,构成性状受较少QTL控制、具有较简单的遗传模型,因此易于研究单个QTL的遗传;育种的目的是要同时选择尽可能多的有利基因和基因组合。与多性状选择指数[3]类似,复合性状的选择可以同时选择影响多个性状的有利等位基因,适度提高育种效率。因此,QTL作图研究中应谨慎使用复合性状,但这并不是排除育种中使用复合性状进行选择。
表6 构成性状和复合性状的理论遗传效应,假定各有2个QTL控制2个构成性状
Table 6 The theoretical QTL effects of two individual traits and four composite traits, assuming each
individual trait is controlled by two QTL.
QTL 染色体
位置
加性效应 Additive 性状 I Trait I
Q1 Q2 Q3 Q4
1 2 3 4
18 28 53 63
1.0 1.0 25
性状 II 和性状 Trait II 1.0 1.0 20
Addition 1.0 1.0 1.0 1.0 45
差性状
积性状
商性状
Chromosome Position (cM)
Subtraction Multiplication Division 1.0 1.0 -1.0 -1.0 5
20 20 25 25 500
0.0503 0.0503 -0.0631 -0.0631 1.2563
群体均值 Population mean
表7 利用构成性状和复合性状的QTL检测功效 Table 7 QTL detection power of individual and composite traits
参数 Parameter 功效 Power (%)
Q1 Q2 Q3 Q4
错误发现率
False discovery rate (%) 位置估计
Estimated position (cM)
Q1 Q2 Q3 Q4
加性效应估计
Q1
18.54 28.46 1.00
52.65 62.85
18.55 28.49 52.68 62.83 1.10
18.62 28.38 52.61 62.63 1.11
18.36 28.44 52.75 62.88 23.32
18.45 28.52 52.65 62.58 0.06
QTL 性状 I 性状 II 和性状
Trait I Trait II Addition 95.10 94.80
92.50 94.50
69.60 69.80 67.20 68.40 27.42
差性状 Subtraction 69.30 70.40 65.30 65.40 28.05
积性状 Multiplication 55.20 54.10 76.90 77.80 28.07
商性状 Division 50.50 50.90 75.20 75.20 29.68
21.63 22.98
17
Estimated additive effect Q2
Q3 Q4
1.01
1.00 1.00
1.09 1.11 1.10
1.11 -1.11 -1.12
23.42 26.46 26.61
0.06 -0.07 -0.07
3 QTL作图有关作图群体及遗传图谱的问题
3.1 QTL作图群体中的表型数据是否要求服从正态分布?
一些QTL应用研究论文中,误以为表型数据的正态分布是QTL作图的前提。其实大部分作图方法只是要求表型数据的随机误差项服从正态分布,数量性状只有在多基因假说下才真正符合正态分布,表型数据的非正态并不影响QTL作图。一般地,个体的表型是群体平均数μ、遗传型值G和随机误差效应ε之和,即统计模型P???G??q[3]
。加显性模型下包含q个QTL的遗传模型为
其中wj和vj是第j个QTL基因型的指示变量[4, 9],因此G一般服从多项分布,G??[ajwj?djvj],
j?1而ε则要求服从正态分布,并且是大多数统计方法建模的前提。在多基因假说下,G服从正态分布,因此P也服从正态分布。当QTL的个数较少、并存在少数遗传效应较大的QTL时,P将不服从正态分布。
举例说明,假定长度为160 cM的染色体25 cM处有一QTL解释80%的表型变异,遗传效应为1.0,群体平均数为10。图7为一个模拟作图群体中性状的次数分布,作图群体包含200个DH家系,表型数据明显不服从正态分布。ICIM一维扫描结果(图7)表明LOD在27 cM处达到峰值88.44,对应位置的遗传效应估计值为0.9989,解释81.12%的表型变异。
18
50Frequency4030201008.599.51010.51111.512Phenotypic value100LOD scoreEstimated effect806040201070130203040506080901001101201401501D-scanning on one chromosome, step=1cM16001.210.80.60.40.20-0.20 图7 一个表型非正态的模拟作图群体及其QTL作图结果。染色体25 cM处有一QTL解释80%的表型
变异,遗传效应为1.0,作图群体包含200个加倍单倍体家系
Fig. 7 QTL mapping in a simulated population with 200 doubled haploid lines that do not follow a normal distribution. One QTL is simulated at 25 cM on the chromosome, explaining 80% of the phenotypic
variation
3.2 加密标记是否可以显著提高QTL检测功效?
问题1.2中列出了统计学上提高假设检验功效的2个主要途径,即提高样本量和降低表型误差。从实际应用角度来看,在一个已建成的群体一般难以再增加个体数,人们有时候关心是否可以通过加密标记来更准确地定位QTL。在图3模拟实验的基础上,我们又模拟了两种标记密度(MD),即5和20 cM(图8)。MD为5、10和20 cM时需要总的标记数分别为330、170和90,当标记数由密度为10 cM时的170减少到密度为20 cM时的90个时,对于PVE小于10%的QTL,即使群体大小为600,10 cM置信区间检测功效也有明显的下降;对于PVE大于10%的QTL,随着群体的增大,检测功效接近于100%,但对于较小的群体,检测功效也有明显的下降。当标记数由密度为10 cM时的170增加到密度为5 cM时的330时,只有PVE=1%的QTL的检测功效才有明显的变化,其它QTL检测功效的增加不明显。对于一般有100~200个体的作图群体,QTL连锁作图中每隔10 cM左右有一个分子标记可能就足够了[13]。
与IM和ICIM相比,ICIM可以更好地检测连锁QTL(图2)。当然连锁程度对检测功效有较大
19
影响,如果2个QTL分布在同一个标记区间内,可能所有的方法都难以检测到。ICIM要求连锁QTL间至少有一个空白区间[7],即分隔QTL,因此更密的标记更有可能把连锁QTL变成分隔QTL,也更容易被检测出来。假定在长度为160 cM的一条染色体上22 cM和42 cM处分布2个等效相引相QTL,分别解释31%的表型变异,图9给出群体大小为100、300和500时100个群体的ICIM平均LOD曲线图。当MD为20 cM时,2个QTL位于2个相邻的标记区间,之间没有空白区间。ICIM作图结果表明即使群体大小为500,也无法将二者区分开,而是在两个QTL之间发现一个效应近似等于两个QTL之和的“幻影”QTL。当MD为10 cM时,两个QTL被一个空白区间(即区间[30 cM,40 cM])分隔,这时有一部分模拟群体检测到2个QTL,大多数模拟群体还是只定位到一个遗传效应较大的“幻影”QTL。当MD为5cM时,两个QTL被3个空白区间(即区间[25 cM,30 cM]、[30 cM,35 cM]和[35 cM,40 cM])分隔,当群体大小为300和500时大多数模拟群体中都能正确的检测到2个QTL,当群体大小为100时大多数模拟群体都没能检测到2个QTL。
因此,标记的加密尽管可以把紧密连锁的QTL分隔开,但仍需足够大的群体,才能提供更多QTL的重组基因型,从而把2个连锁的QTL分离出来。在低于200的作图群体中,标记增加到一定程度,如每隔5~10 cM有一个标记,再增加更多的标记也不会明显提高QTL的检测功效。
1009080706050403020100MD=5 cMMD=10 cMMD=20 cMPower or FDR (%)401602804005204016028040052040160280400520401602804005204016028040052040160280400520401602804005204016028040052040160280400520PVE=1%PVE=2%PVE=3%PVE=4%PVE=5%PVE=10%PVE=20%PVE=30yRPopulation size 图8 QTL检测功效与标记密度和群体大小的关系
Fig. 8 Relationship of QTL detection power with marker density and mapping population size
20
8LOD scorePopulation size 100MD=5cMMD=10cMMD=20cMPopulation size 30064202015LOD score105040Population size 500LOD score302010001020304050607080901001101201301401501602242Chromosomal position (cM) 图9 3种群体大小中连锁QTL的完备区间作图结果
Fig. 9 Inclusive composite interval mapping of linked QTL in populations of three sizes
3.3 缺失分子标记对QTL作图有什么影响?
对于缺失标记,作图软件QTL IciMapping(可从网站http://www.isbreeding.net获得)中利用连锁信息以一定概率水平把缺失标记基因型插值为P1、P2或F1型,从而避免QTL作图中样本量的减少。在一个包含180个单株的水稻F2群体中,ICIM定位到9个影响株高的QTL[9]。根据这些QTL建立遗传模型,模拟不同程度标记的缺失[22],研究缺失标记对株高QTL检测功效的影响(图10)。随着缺失率的增加,QTL作图功效会逐步降低,同时错误发现率逐步提高。对于效应较小的QTL和较小的群体,缺失标记对QTL作图的影响较大;对于效应较大的QTL和较大的群体,缺失标记对QTL作图的影响可以忽略(图10)。尽管作图功效会受到缺失标记的影响,但在缺失标记条件下,被检测到的QTL位置和效应估计与无缺失条件下基本一致,都是渐近无偏的,估计值的方差也基本相同。通过模拟不同大小的群体还可以发现,一定比例的标记缺失对QTL作图结果的影响相当于对应比例个体缺失对QTL作图的影响(图10),也就是说,一个群体大小为n、缺失率为p的群体的作图功效与大小为n(1?p)、无缺失群体的作图功效大致相同。
21
10080Population size 180, with various missing marker levels1000%5 %0?6040200qPH1-1qPH1-2qPH3-1qPH3-2qPH4qPH5qPH6qPH7qPH12FDRVarious population sizes, with no missing markers180171162153144135126Power (%)6040200qPH1-1qPH1-2qPH3-1qPH3-2qPH4qPH5qPH6qPH7qPH12FDR10080Population size 500, with various missing marker levels0%5 %008060Various population sizes, with no missing markers500475450425400375350Power (%)6040200qPH1-1qPH1-2qPH3-1qPH3-2qPH4qPH5qPH6qPH7qPH12FDR40200qPH1-1qPH1-2qPH3-1qPH3-2qPH4qPH5qPH6qPH7qPH12FDR
图10 F2群体中缺失标记对QTL检测功效的影响。
Fig. 10 Effect of missing markers on QTL detection in F2 population.
3.4 奇异分离标记对QTL作图有什么影响?
奇异分离(SD,segregation distortion)会引起周围的标记出现奇异,而奇异分离标记(SDM)也会导致连锁的QTL出现SD。当SDM与QTL不连锁时,SDM对QTL定位基本没有影响。但是当SDM与QTL紧密连锁时,会对QTL作图产生影响,尤其当QTL效应较小、作图群体也较小时,SDM会对QTL作图产生较大的影响,有时会提高与其连锁的QTL的检测功效,有时会降低,这取决于QTL的效应和SD类型(图11)。以F2群体为例,检测QTL实际上就是检测三种QTL基因型QQ、Qq和qq之间的差异。若SD会使QTL的遗传方差高于无奇异分离时的遗传方差(见公式[1]),则会提高作图功效;反之,则会降低作图功效。然而,无论功效提高还是降低,QTL的位置和效应估计与无SD情况下基本一致,都是渐近无偏的,估计值的方差也基本相同[22]。
推广到其它具有2种等比例基因型的作图群体,如RIL和DH,任何SD都会引起连锁QTL的2种基因型偏离1∶1的分离比,这种偏离对检测2种QTL基因型间的差异会产生不利影响,从而减低QTL的检测功效。如果2种基因型的理论分离比为3∶1,如回交群体衍生的重组近交家系,若SDM导致2种基因型更接近1∶1,此时SD便可提高与SDM连锁QTL的检测功效(图12)。若SDM导致2种基因型更加偏离3∶1,如4∶1,这样的SD无疑要降低与SDM连锁QTL的检测功效,在图12方差比值的曲线中可以看出如果奇异分离导致QQ频率在(0.25,0.75)中变化,奇异
22
分离时QQ具有较大的遗传方差,这样的奇异分离将提高QTL的检测功效。
SD一般是由不同配子或合子生活力的差异引起的,如产生RIL的一粒传方法就是为了尽可能避免在遗传研究群体中SD的发生。但在实际数据中,即使是在通过一粒传法产生的作图群体中SD也不可避免。在实际应用中,对遗传效应较大的QTL和较大的作图群体,少量的SDM对QTL作图的影响是有限的,这种影响也会随着与QTL间的连锁距离的增大而消失[22]。
A10080No distortionSDM5SDM1SDM6Population size 180SDM2SDM7SDM3SDM8SDM4SDM9Power (%)6040200Population size 500B10080Power (%)6040200qPH1-1qPH1-2qPH3-1qPH3-2qPH4qPH5qPH6qPH7qPH12
图11 F2群体中奇异分离标记对QTL检测功效的影响
Fig. 11 Effect of segregation distortion markers on QTL detection in F2 population
23
1.4 1.2 Ratio of variance (k)1.0 0.8 0.6 0.4 BC1-derived DH populationF1-derived DH population0.000.050.100.150.200.250.300.350.400.450.500.550.600.650.700.750.800.850.900.951.00Frequency of QQ 0.2 0.0 图12 BC1和F1产生的DH作图群体中奇异分离时QTL的遗传方差与无奇异分离时方差的比值 Fig. 12 Ratio of genetic variance of QTL under segregation distortion and non-distortion in BC1 and F1
derived doubled haploids populations
4 结论
LOD是2种假设检验下极大似然函数比值的常用对数,较高的LOD临界值将更好地控制假QTL的发生,同时遗传效应较小的真QTL就不易被检测出来。如何平衡两类错误的概率,不仅是统计学问题,还要考虑到具体的研究目标。QTL作图包含着复杂的统计假设检验,一般采用模拟方法估计QTL检测功效和假阳性的大小,功效高同时又具有较低假阳性在统计上就是较好的方法。增加群体大小、减小表型误差、创造近等基因系和染色体片断置换系、大群体中适当增加标记密度都是提高QTL检测功效的有效途径。
QTL的遗传方差占表型方差的比例定义为QTL的贡献率,遗传方差受QTL的遗传效应和QTL基因型频率共同影响,不同QTL的贡献率一般不具有可加性。有利等位基因的判断依赖于QTL作图时如何编码2个亲本,正加性效应QTL意味着编码为2的亲本携带的等位基因能提高性状值,反之编码为0的亲本携带的等位基因能提高性状值。选择基因型分析的检测功效一般都高于IM的检测功效,但低于ICIM的检测功效。与构成性状相比,复合性状QTL作图功效比构成性状下的功效明显下降,因此使用复合性状进行QTL作图的意义不大,但并不排除育种中使用复合性状进行选择。
24
表型正态分布不是该性状是否适合QTL作图的必要条件,但一般要求表型数据的随机误差服从正态分布。高密度分子标记为分离紧密连锁QTL提供了可能,但高密度标记必须辅以大作图群体,才能提高QTL作图的准确度。缺失标记对QTL作图的影响等同于一个缩小了的作图群体。奇异分离标记对作图的影响可以用与其连锁的QTL遗传方差的变化来衡量,有时奇异分离标记会增大QTL的方差进而提高检测功效,这种影响会随着连锁距离的增大而减弱。缺失标记和奇异分离对QTL位置和效应估计的影响不大,对于效应较大的QTL和较大的群体,缺失标记和奇异分离对QTL作图的影响可以忽略。
References
[1] Lynch M, Walsh B. Genetic and Analysis of Quantitative Traits. Sunderland, MA: Sinauer
Associates, 1998
[2] Doerge R W. Mapping and analysis of quantitative trait loci in experiment populations. Nat Rev
Genet, 2002, 3: 43-52
[3] Zhai H-Q (翟虎渠), Wang J-K (王建康). Applied Quantitative Genetics (应用数量遗传). Beijing:
China Agricultural Science and Technology Press, 2007 (in Chinese)
[4] Wang J-K (王建康). Inclusive composite interval mapping of quantitative trait genes. Acta Agron
Sin(作物学报), 2009, 35(2): 239-245 (in Chinese with English abstract)
[5] Lander E S, Botstein D. Mapping Mendelian factors underlying quantitative traits using RFLP linkage
maps. Genetics, 1989, 121: 185-199
[6] Zeng Z B. Precision mapping of quantitative trait loci. Genetics, 1994, 136: 1457-1468 [7] Li H, Ye G, Wang J. A modified algorithm for the improvement of composite interval mapping.
Genetics, 2007, 175: 361-374
[8] Li H, Ribaut J-M, Li Z, Wang J. Inclusive composite interval mapping (ICIM) for digenic epistasis of
quantitative traits in biparental populations. Theor Appl Genet, 2008, 116: 243-260
[9] Zhang L, Li H, Li Z, Wang J. Interactions between markers can be caused by the dominance effect of
QTL. Genetics, 2008, 180: 1177-1190
[10] Goffinet P, Loisel B, Lawrent B. Testing in normal mixture models when the proportions are known.
Biometrika, 1992, 79: 842-846
[11] Churchill G A, Doerge R W. Empirical threshold values for quantitative trait mapping. Genetics,
1994, 138: 963-971
[12] Chen L, Storey J D. Relaxed significance criteria for linkage analysis. Genetics, 2006, 173:
2371-2381
[13] Li H, Hearne S, B?nziger M, Li Z, Wang J. Statistical properties of QTL linkage mapping in
25
biparental genetic populations. Heredity, 2010 (in press)
[14] Wang J, Wan X, Crossa J, Crouch J, Weng J, Zhai H, Wan J. QTL mapping of grain length in rice
(Oryza sativa L.) using chromosome segment substitution lines. Genet Res, 2006, 88: 93-104 [15] Wang J, Wan X, Li H, Pfeiffer W, Crouch J, Wan J. Application of identified QTL-marker
associations in rice quality improvement through a design breeding approach. Theor Appl Genet, 2007, 115: 87-100
[16] Tinker N A, Mather D E, Rossnagel B G, Kasha K J, Kleinhofs A, Hayes P M, Falk D E, Ferguson
T, Shugar L P, Legge W G, Irvine R B, Choo T M, Briggs K G, Ullrich S E, Franckowiak J D, Blake T K, Graf R J, Dofing S M, Saghai-Maroof M A, Scoles G J, Hoffman D, Dahleen L S, Kilian A, Chen F, Biyashev R M, Kudrna D A, Steffenson B J. Regions of the genome that affect agronomic performance in two-row barley. Crop Sci, 1996, 36: 1053-1062
[17] Zhang L P, Lin G Y, Ni?o-Liu D, Foolad M R. Mapping QTLs conferring early blight (Alternaria
solani) resistance in a Lycopersicon esculentum × L. hirsutum cross by selective genotyping. Mol Breed, 2003, 12: 3-19
[18] Wingbermuehle W J, Gustus C, Smith K P. Exploiting selective genotyping to study genetic
diversity of resistance to Fusarium head blight in barley. Theor Appl Genet, 2004, 109: 1160-1168 [19] Docherty S J, Butcher L M, Schalkwyk L C, Plomin R. Applicability of DNA pools on 500 K SNP
microarrays for cost-effective initial screens in genome wide association studies. BMC Genomics, 2007, 8: 214-221
[20] Sun Y, Wang J, Crouch J H, Xu Y. Efficiency of selective genotyping for genetic analysis and crop
improvement of complex traits. Mol Breed, 2010 (in press)
[21] Wang Y, Li H, Zhang L, Lü W, Wang J. On the use of composite traits in quantitative trait locus
mapping. Genetics, 2010 (under review)
[22] Zhang L, Wang S, Li H, Deng Q, Zheng A, Li S, Li P, Li Z, Wang J. Effects of missing markers and
segregation distortion on QTL mapping in F2 populations. Theor Appl Genet, 2010 (under review)
26
biparental genetic populations. Heredity, 2010 (in press)
[14] Wang J, Wan X, Crossa J, Crouch J, Weng J, Zhai H, Wan J. QTL mapping of grain length in rice
(Oryza sativa L.) using chromosome segment substitution lines. Genet Res, 2006, 88: 93-104 [15] Wang J, Wan X, Li H, Pfeiffer W, Crouch J, Wan J. Application of identified QTL-marker
associations in rice quality improvement through a design breeding approach. Theor Appl Genet, 2007, 115: 87-100
[16] Tinker N A, Mather D E, Rossnagel B G, Kasha K J, Kleinhofs A, Hayes P M, Falk D E, Ferguson
T, Shugar L P, Legge W G, Irvine R B, Choo T M, Briggs K G, Ullrich S E, Franckowiak J D, Blake T K, Graf R J, Dofing S M, Saghai-Maroof M A, Scoles G J, Hoffman D, Dahleen L S, Kilian A, Chen F, Biyashev R M, Kudrna D A, Steffenson B J. Regions of the genome that affect agronomic performance in two-row barley. Crop Sci, 1996, 36: 1053-1062
[17] Zhang L P, Lin G Y, Ni?o-Liu D, Foolad M R. Mapping QTLs conferring early blight (Alternaria
solani) resistance in a Lycopersicon esculentum × L. hirsutum cross by selective genotyping. Mol Breed, 2003, 12: 3-19
[18] Wingbermuehle W J, Gustus C, Smith K P. Exploiting selective genotyping to study genetic
diversity of resistance to Fusarium head blight in barley. Theor Appl Genet, 2004, 109: 1160-1168 [19] Docherty S J, Butcher L M, Schalkwyk L C, Plomin R. Applicability of DNA pools on 500 K SNP
microarrays for cost-effective initial screens in genome wide association studies. BMC Genomics, 2007, 8: 214-221
[20] Sun Y, Wang J, Crouch J H, Xu Y. Efficiency of selective genotyping for genetic analysis and crop
improvement of complex traits. Mol Breed, 2010 (in press)
[21] Wang Y, Li H, Zhang L, Lü W, Wang J. On the use of composite traits in quantitative trait locus
mapping. Genetics, 2010 (under review)
[22] Zhang L, Wang S, Li H, Deng Q, Zheng A, Li S, Li P, Li Z, Wang J. Effects of missing markers and
segregation distortion on QTL mapping in F2 populations. Theor Appl Genet, 2010 (under review)
26
正在阅读:
QTL定位中常见的12个问题12-09
卡车怎样才能省油?12-19
老师我爱你作文02-04
全国市级联考辽宁省沈阳市2017届高三第三次模拟考试数学(文)试题12-07
软件工程师发展前景浅谈05-21
《an en in un》拼音教学设计11-22
小学语文词语汇总08-10
股份公司利润分配管理制度05-11
工作计划具体措施(优秀4篇)03-26
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 定位
- 常见
- 问题
- QTL