ancova(协方差分析)非参数和随机方法

更新时间:2023-11-26 14:16:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第7章ANCOVA(协方差分析):非参数和随机方法

Peter S. Petraitis

Steven J. Beaupre Arthur E. Dunham

7.1生态学问题

生态学参数往往不能满足参数假定的要求。当这种情况发生时,随机方法是更常用的参数方法,比如协方差分析(ANCOVA)和回归分析的一个很好的替代选择。使用随机方法很简单,并且由于标准参数ANCOVA为生态学家所熟知,我们用它来激发对非参数和随机方法的优点和存在问题的讨论。我们通过对检验随机和非参数方法分析性别和生境影响响尾蛇种群的个体大小来进行讨论,年龄在这里被作为一个混淆(confounding)因素考虑。

个体大小的变异常见于许多动物中(即, 无脊椎动物: Paine 1976; Lynch1977; Sebens 1982; Holomuzki 1989; 两栖动物: Nevo 1973; Berven1982;Bruce和Hairson 1990; 有鳞的爬行动物:Tinkle 1972;Dunham 1982; Schwaner 1985; Dunham等1989; 哺乳动物:Boyce 1978;Melton 1982; Ralls和Harvey 1985), 并且由于其与许多繁殖特征, 比如成熟年龄,子代个体的数量和大小,和亲代对子代的投入, 有协变关系,从而引起进化生态学家的极大兴趣,(Stearns 1992; Roff 180, 1992)。对个体大小变异的解释包括资源的季节性,质量和可利用性(如,Case 1978; Palmer 1984; Schwaner和Sarre 1988), 基于个体大小的捕食性(Paine 1976), 种群密度(Sigurjonsdottir 1984), 特性替代(Huey和Pianka 1974; Huey 等 1974)和生长速率的渐变变异(Roff 1980)。然而个体大小的地理变异可能常由于个体大小决定的生长速率和种群年龄结构的相互作用所致。比如,King(1989)建议种群不同的年龄结构是水蛇(Nerodia sipedon insularm)个体大小变异的一个重要方面。因此,懂得个体大小时间和地理格局和最终生长率需要对动物年龄的了解和修正以便同龄动物间的比较。

爬行动物的生长和性别个体二态性的格局传统上是利用非线性生长模型技术来分析的(Andrews 1982;Stamps1995)。对非线性模型精确的拟合需要大量的观察样本,这些样本要求很好地分布在所有体态大小范围内,这在野外研究中常是难以实现的要求(第10章)。此外,由于每一条线都有不同的模型拟合,最佳拟合模型形式(如,von Bertalanffy比之于用长度,或其它, 拟合的逻辑斯蒂模型)会发生变化,而比较工作复杂化。同样的,当拟合参数在几个组间进行比较时,第I类错误的概率增加,就如同多元成对t检验的情形。

1

对于多组小到中等用于比较的数据集,用年龄作协变量的ANCOVA看来对于比较多组个体大小是最佳替代方法。然而个体大小和年龄的野外数据常常杂乱。分析常需对一个或多个协变量进行校正,拟合模型的残值也很少符合独立,同正态分布的假定(Sokal和Rohlf 1995; Zar 1996)。

传统的基于秩(rank)或其它随机类型检验的非参数统计能为参数分析提供好的替代选择。参数分析假定误差呈正态分布,该假定在基于秩或其它随机类型检验的非参数检验中被放松。另一方面,参数过程,随机过程,和基于秩的非参数检验都要求误差独立同分布。随机方法和传统的非参数检验对方差的非奇性(heterogeneity-异质性)敏感,并常有这样的误解:方差的非奇性问题可以通过使用非参数检验来解决(Hayes 1996)。

典型的非参数检验用原始数据的秩;零假设要求秩在处理水平上是随机分配的。对于小样本,由于所有可能的排列都能列出,因而可以计算出观测秩排列的准确概率。因此,一个常规的非参数检验是对原始观测数据秩的随机检验。对于大样本,计算大多数常用非参数检验的显著水平是通过χ2分布来估计。检验统计量的χ2分布判定是以假定每个处理水平的取样秩数据之间区别只在分布位置(如,均值和中值)为基础做出的,且假定基本分布形态相同(即所有其它分布动差-方差,偏斜度等都相同)。这些关于非参数检验的假定常常不能满足,并且,生态学家常常假定这样的检验是不要求数据有任何分布的。

其它类型的随机检验是以重洗原始数据排列为基础的(第14章)。这些检验也要求关于总体分布的假定。人们常混淆哪些过程构成随机检验和哪些过程构成置换排列(permutation)检验。Kempthorne和Doerfler(1969)利用“置换排列”(permutation)这个词来称呼那些以数据所有可能的顺序为基础的检验。随机检验一般只用在所有可能排列中一个随机选取的子集。在严格意义上,常规非参数检验就是置换排列检验。

下一部分,我们探讨用参数,非参数和随机方法解决常用ANCOVA解决的问题时的优点和缺点。我们利用斑纹石响尾蛇(Crotalus lepidus)的个体大小在性别和地理上差别的数据来说明这个问题。蛇的性别二态性的数据很少。Beaupre(1995)研究了在德克萨斯两个地点的斑纹石响尾蛇的性别二态性问题。在调整了年龄参数以后,他发现在两个地点,雌性个体都明显小于雄性个体,并且低海拔的蛇的个体大小明显小于高海拔较的蛇(Beaupre 1995)。他还发现性别和海拔的相互作用。他用非参数方法是因为他发现了与正态分布的显著偏差。

7.2统计学问题

2

7.2.1 数据

标记-重捕法观察得到的雄性和雌性响尾蛇年龄和大小的数据序列来自于6年来收集的德克萨斯州Big Bend 国家公园不同海拔的两个种群。我们的数据和Beaupre(1995)使用的数据不完全一致,我们的数据包括 87个雄性和雌性个体,其中重捕的33个。Beaupre(1995)有99个雌雄个体,其中重捕的31个。对数据更详细的描述可见Beaupre(1995)。每个捕到的蛇的相对年龄根据蛇尾鸣响部分形态估算(即用鸣响节段的数目调整为蜕皮频数; 见Beaupre 1995),并且,头体长度(SVL)用来估计个体大小。有四个变量分别是生境(Boquillas和Grapevine Hill),性别,相对年龄和个体大小(SVL)。生境和性别为固定影响,年龄为协变量。生境作为固定影响是因为我们对这两个特殊地点不同海拔对微气候的影响感兴趣(Dunham et al. 1989)。

7.2.2 常规协方差分析

对于主要影响(此例中,性别,生境)和他们之间相互作用的显著性可由双因子ANCOVA检验,个体大小作为因变量,年龄作为协变量。在用ANCOVA前,进行对斜率奇性(homogeneity-同质性)假定的检验。这是个体大小对年龄在处理水平上的线性依赖的相似性检验。如果达到了斜率奇性的标准,ANCOVA过程有效。ANCOVA在数据对模型假定小有违反时的稳健性众所周知,尤其在对固定因子显著性的检验。在多数情况下,ANCOVA是喜用的参数方法。然而,严重违反假定常见于野外捕获的动物数据中。

首先,因变量, 个体大小, 可能不符合参数统计的假定。爬行动物种群中个体大小分布常呈很高的偏峰态。并且,雌雄个体大小的分布方差可有很大差异(如Beaupre et al. 1998)。因此,误差极不可能符合参数分析的要求呈正态分布。第二,协变量每条蛇的年龄并不准确,然而采用ANCOVA,就像其它回归模型I方法一样, 假定协变量量测误差很小。对于野外捕获动物的年龄估计,即使在最好的条件下,也是有问题的。在多数情况下,生态学家采用年龄的替代,并假设它与年龄成线性,或至少是单调的关系。回归模型I,甚至当自变量(或在ANCOVA中的协变量)有量测误差时也可以使用,只要自变量误差分布大大窄于因变量的误差分布(LaBarbara 1989)。这是常有的,然而野外捕获的动物的年龄的估计可能与个体大小的不确定性相当或更大,因此,我们予期年龄的测量误差比个体大小的测量误差更大。第三,有野外捕获动物的析因(factorial)设计极少平衡。在每一点,几乎不可能捕获到相同数量的雄性和雌性个体。非平衡的ANOVA和ANCOVA对方差非奇性很敏感,这在比较雄性

3

和雌性时可能是个问题。

实验生态学家常试图修正这些难题,这包括修正参数模型本身的假定。最常用的方法是转换因变量使误差方差奇性并将类型III平方和用于非平衡设计。大多数人希望协变量的误差分布变得足够窄。一些例子中,为减低方差,协变量自身被错误转换;然而,这种协变量的转换应该只在有线性关系时应用。

尽管它修正了一个问题,转换因变量却能产生另一个问题。比如,个体大小可能通过转换,减小不同处理水平上的误差方差的非奇性,但转换可能使误差呈非正态分布。转换也会改变自变量和因变量的关系。个体大小的对数转换可减小误差非奇性,使误差分布正态,但转换使模型的累加效应变为乘数效应。这可能是个严重问题,特别是当生态学家在实验中用ANOVA和ANCOVA检验相互作用来推论非累加生态效应,如高阶相互作用时(Wootton 1994)。

非平衡设计的难点可以通过剔除数据的方法得以解决。平衡设计降低非奇性方差的影响。然而,多数生态学家不喜欢放弃辛苦得到的数据。放弃数据的一个潜在缺陷是缩减了的数据可能导致统计效力的显著丧失。通过剔除数据得到的平衡设计的优点极少会超过缺点。

7.2.3 非参数方法

有两种非参数协方差分析的一般方法。第一种方法称作“配对”, 包括将数据限制于与协变量值匹配的数据对和产生基于数据对之差的转换数据(Quade 1982)。配对方法在判定由哪些数据值构成配对子集时存有某种随意性,并且显然,它还没有超出单元分析。

第二种由Shirley(1981)正规化的方法,是一种基于因变量秩化的非参数ANCOVA方法。Shirley的方法是在Benette(1968)工作的基础上完成的,Benette开发了对秩化后数据的一般线性假设的非参数检验。对双因子ANOVA,Bennett检验最熟悉的例子是Scheirer-Ray-Hare检验(Scheirer et al. 1976),这是Kruskal-Wallis检验的扩展。秩化后数据的常规非参数检验对数据的正态分布假定是不严格的。还没有多少人认识到类似Kruskal-Wallis检验的非参数检验当比较中的各组在尺度(如,方差)或形状不同时,可能不会发现位置间的真正差异(如,不同组均秩间的差异)(Lehmann 1975)。极端例子中,协变量也可能需要秩化(Shirley 1981)。

除了将秩化观测数据用于因变量,非参数ANCOVA与其它ANCOVA没什么两样。如同往常,数值相同的观测数据被赋予所占秩距的平均秩值。与标准ANCOVA(第五章)一样,使用两个模型:(1)包括协变量和处理影响相互作用的完整模型,用于斜率奇性检验(在SAS中成为斜率奇性模式,见公式5.2)和(2)不包括上述相互作用的模型,用于检验这种调

4

整后的平均数(SAS中称协方差分析模型,见公式5.3)。

固定影响模型检验统计量由适当主要效应或相互作用效应的平方和除以总均方得到(即,总平方和SS除以总自由度)。检验值与临界值进行比较,该临界值来自于给定α水平和所考虑影响因素自由度的χ2分布。基于以中心极限定理应用于秩化数据的假定,用χ2分布判断显著性水平给出理论近似值(Lehmann 1975)。而这个假定仅当样本很大,且几乎没有具相同秩值的数据时才安全。描述了调整后均秩追溯比较过程见Shirley(1981,1987)。

检验统计量服从χ2分布而不是F分布,因为参数方差已知是来自秩化数据(Mood和Graybill 1963; Lehmann 1975; Sokal和Rohlf 1995)。参数方差的公式是N(N+1)/12, 其中N是实验观察总数。如果没有同秩值数据,秩化数据ANCOVA的总SS除以总自由度等于参数方差(见Sokal and Rohlf 1995对Scheirer-Ray-Hare检验的讨论)。如果有同秩值数据,参数方差一定要修正;修正后的参数方差是[N(N+1)/12]-C,其中,C=(ti3-ti)/12(N-1),其中i是指从1到s的所有数,s是同秩值数据的组数,ti是第i同秩值数据组的同秩数据数目。总SS/总df=[N(N+1)/12]-C。注意:C与Sokal and Rohlf (1995, box 13.6)的修正值D不同,但显然,DN(N+1)/12=[N(N+1)/12]-C。这两个公式的结果一致。

7.2.4 随机方法

随机检验是对观察结果多次随机化并重新计算适当检验统计量,从而产生所有可能结果的分布。如果所有可能结果可数,随机检验就是一个排列检验。假设检验可从以观察数据所计算出分布的概率直接估计(Manly 1997)。如果数据符合参数模型的假定,参数检验和随机检验的结果是渐进等式。其他随机检验的例子见14,16章。

用于随机检验的统计量不必需是类似t或F统计量的常规统计量(Manly 1997),例如,在ANOVA和ANCOVA中,处理均方,或平方和可能与F统计量一样适用。在单元ANOVA中,F统计量的分布和以随机化后的平方和之间有一个常量差。但在更复杂的设计中这是不对的。Edgington(1995)倾向于采用平方和,而Manly(1997)喜欢用F比值,因为他所进行的模拟显示基于平方和的随机化倾向于低效力。我们下面要表明的是平方和和F比值常给出不同的结果,因为他们检验不同的假设。这不是简单效力差异的问题了。

一个比选择统计量更难的问题是如何随机化观察数据。依零假设的不同,有两个不同的析因设计方法(Manly 1997)。一方面,假设关于由于性别和生境不同形成差异的零假设是以一个假定为基础的,该假定是:对于任何性别x生境组合,对任何一条蛇个体大小的观察都是从一个种群中得到的。若该假定为真,我们期望任何观测都取自于性别x生境的任意组

5

本文来源:https://www.bwwdw.com/article/lzlt.html

Top