线性回归方程中的相关系数r

更新时间:2023-12-09 04:28:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

线性回归方程中的相关系数r

r=∑(Xi-X的平均数)(Yi-Y平均数)/根号下[∑(Xi-X平均数)^2*∑(Yi-Y平均数)^2]

R2就是相关系数的平方,

R在一元线性方程就直接是因变量自变量的相关系数,多元则是复相关系数 判定系数R^2

也叫拟合优度、可决系数。表达式是: R^2=ESS/TSS=1-RSS/TSS

该统计量越接近于1,模型的拟合优度越高。

问题:在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。

——但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。

这就有了调整的拟合优度: R1^2=1-(RSS/(n-k-1))/(TSS/(n-1))

在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响: 其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。

总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。 R = R接近于1表明Y与X1, X2 ,…, Xk之间的线性关系程度密切; R接近于0表明Y与X1, X2 ,…, Xk之间的线性关系程度不密切

相关系数就是线性相关度的大小,1为(100%)绝对正相关,0为0%,-1为(100%)绝对负相关

相关系数绝对值越靠近1,线性相关性质越好,根据数据描点画出来的函数-自变量图线越趋近于一条平直线,拟合的直线与描点所得图线也更相近。

如果其绝对值越靠近0,那么就说明线性相关性越差,根据数据点描出的图线和拟合曲线相差越远(当相关系数太小时,本来拟合就已经没有意义,如果强行拟合一条直线,再把数据点在同一坐标纸上画出来,可以发现大部分的点偏离这条直线很远,所以用这个直线来拟合是会出现很大误差的或者说是根本错误的)。 分为一元线性回归和多元线性回归 线性回归方程中,回归系数的含义 一元:

Y^=bX+a b表示X每变动(增加或减少)1个单位,Y平均变动(增加或减少)b各单位 多元:

Y^=b1X1+b2X2+b3X3+a 在其他变量不变的情况下,某变量变动1单位,引起y平均变动量

以b2为例:b2表示在X1、X3(在其他变量不变的情况下)不变得情况下,X2每变动1单位,y平均变动b2单位

就一个reg来说y=a+bx+e

a+bx的误差称为explained sum of square e的误差是不能解释的是residual sum of square 总误差就是TSS 所以TSS=RSS+ESS

判定系数也叫拟合优度、可决系数。表达式是

该统计量越接近于1,模型的拟合优度越高。

问题:在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。

——但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。

这就有了调整的拟合优度

在样本容量一定的情况下,增加解释变量必定使得自由度减少,所以调整的思路是:将残差平方和与总离差平方和分别除以各自的自由度,以剔除变量个数对拟合优度的影响:其中:n-k-1为残差平方和的自由度,n-1为总体平方和的自由度。

总是来说,调整的判定系数比起判定系数,除去了因为变量个数增加对判定结果的影响。 顺便补充一下:

一般做回归的时候要求拟合优度(实际值与拟合值相关系数的平方)越高越好,可以通过增加解释变量来实现,可是解释变量多了后很多解释变量的系数T检验不显著了,而且增加很多变量后模型的自由度就减少了,这些情况狂的存在往往使得模型预测不精确;修正拟合优度就是将残差平方和跟总离差平方和分别除以各自的自由度,这样就剔除了变量个数对其影响了。

首先有一个恒等式:TSS = ESS + RSS

即 总偏差平方和 = 回归平方和 + 残差平方和

通常情况,我们都是讨论解释变量对总效应的贡献,使用一个叫“拟合优度”(或者叫“判定系数”)的指标 其定义为:

回归平方和 / 总偏差平方和 =ESS/TSS = (TSS-RSS)/TSS =(923-325)/923

如果说随机误差对总效应的贡献,那可以直接 RSS/TSS

因为 1 - (TSS-RSS)/TSS 就可以化为 RSS / TSS

差异。比如,你选取了5个人,分别在饭前和饭后测量了他们的体重,想检测吃饭对他们的体重有无影响,就需要用这个t检验。

注意,配对样本t检验要求严格配对,也就是说,每一个人的饭前体重和饭后体重构成一对。

3. 独立样本t检验(independent t test),是用来看两组数据的平均值有无差异。比如,你选取了5男5女,想看男女之间身高有无差异,这样,男的一组,女的一组,这两个组之间的身高平均值的大小比较可用这种方法。

总之,选取哪种t检验方法是由你的数据特点和你的结果要求来决定的。

t检验会计算出一个统计量来,这个统计量就是t值,

spss根据这个t值来计算sig值。因此,你可以认为t值是一个中间过程产生的数据,不必理他,你只需要看sig值就可以了。sig值是一个最终值,也是t检验的最重要的值。

sig值的意思就是显著性(significance),它的意思是说,平均值是在百分之几的几率上相等的。

一般将这个sig值与0.05相比较,如果它大于0.05,说明平均值在大于5%的几率上是相等的,而在小于95%的几率上不相等。我们认为平均值相等的几率还是比较大的,说明差异是不显著的,从而认为两组数据之间平均值是相等的。

如果它小于0.05,说明平均值在小于5%的几率上是相等的,而在大于95%的几率上不相等。我们认为平均值相等的几率还是比较小的,说明差异是显著的,从而认为两组数据之间平均值是不相等的。

总之,只需要注意sig值就可以了。

T值表示的是t值检验 sig是检验值 一般不用看T值,只看sig的值是否小于0.05.如果是,说明通过检验了,说明两者在总体中存在相关关系。 如果你是做论文用下这样的统计,只需了解这些就可以了。

T值是t检验得出来的检验结果,t检验是一种差异性的检验,用于二组正态分布的数值形变量的检验,是一种差异性检验,检验二组是否存在差别。其值越大,差异越显著。 SIG是统计中用的P值,是根据T值的大小查表得出来的数值,他一般与0.05进行比较,小于0.05认为二组的差别显著,大于0.05则差别不显著。

R表示的是拟合优度,它是用来衡量估计的模型对观测值的拟合程度。它的值越接近1说明模型越好。但是,你的R值太小了。

T的数值表示的是对回归参数的显著性检验值,它的绝对值大于等于ta/2(n-k)(这个值表示的是根据你的置信水平,自由度得出的数值)时,就拒绝原假设,即认为在其他解释变量不变的情况下,解释变量X对被解释变量Y的影响是显著的。

F的值是回归方程的显著性检验,表示的是模型中被解释变量与所有解释变量之间的线性关

系在总体上是否显著做出推断。若F>Fa(k-1,n-k),则拒绝原假设,即认为列入模型的各个解释变量联合起来对被解释变量有显著影响,反之,则无显著影响。 单尾双尾检测

通常假设检验的目的是两总体参数是否相等,以两样本均数比较为例,

无效假设为两样本所代表的总体均数相等;

备择假设为不相等(有可能甲大于乙,也有可能甲小于乙)既两种情况都有可能发生. 而研究者做这样的假设说明(1)他没有充分的理由判断甲所代表的总体均数会大于乙的或甲的会小于乙的;(2)他只关心甲乙两个样本各自所代表的总体均数是否相等?至于哪个大不是他关心的问题.这时研究者往往会采用双侧检验.

如果研究者从专业知识的角度判断甲所代表的总体均数不可能大于(或小于)乙的,这时一般就采用单侧检验. 例如:要比较经常参加体育锻炼的中学男生心率是否低于一般中学男生的心率,就属于单侧检验.因为根据医学知识知道经常锻炼的中学男生心率不会高于一般中学男生,因此在进行假设检验时应使用单侧检验.

单尾检验和双尾检验的区别在于他们拒绝H0的标准。单尾检验允许你在差异相对较小时拒绝H0,这个差异被规定了方向。另一方面,双尾检验需要相对较大的差异,这个差异不依赖于方向。

所有的研究者都同意单尾检验与双尾检验不同。一些研究者认为,双尾检验更为严格,比单尾检验更令人信服。因为双尾检验要求更多的证据来拒绝H0,因此提供了更强的证据说明处理存在效应。另一些研究者倾向于使用单尾检验,因为它更为敏感,即在单尾检验中相对较小的处理效应也可能是显著的,但是,它可能不能达到双尾检验的显著性要求。 那么我们是应该使用单尾检验还是双尾检验??通常,双尾检验被用于没有强烈方向性期望的实验研究中,或是存在两个可竞争的预测时。例如,当一种理论预测分数增加,而另一种理论预测分数减少时,应当使用双尾检验。应当使用单尾检验的情况包括在进行实验前已经有方向性预测,或强烈需要做出方向性预测时。

Ho 假设检验(Hypothesis Testing)假设检验是用来判断样本与样本,样本与总体的差异是

由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。

生物现象的个体差异是客观存在,以致抽样误差不可避免,所以我们不能仅凭个别样本的值来下结论。当遇到两个或几个样本均数(或率)、样本均数(率)与已知总体均数(率)有大有小时,应当考虑到造成这种差别的原因有两种可能:一是这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成;二是这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的。假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。

在质量管理工作中经常遇到两者进行比较的情况,如采购原材料的验证,我们抽样所得到的数据在目标值两边波动,有时波动很大,这时你如何进行判定这些原料是否达到了我们规定的要求呢?再例如,你先后做了两批实验,得到两组数据,你想知道在这两试实验中合格率有无显著变化,那怎么做呢?这时你可以使用假设检验这种统计方法,来比较你的数据,它可以告诉你两者是否相等,同时也可以告诉你,在你做出这样的结论时,你所承担的风险。假设检验的思想是,先假设两者相等,即:μ=μ0,然后用统计的方法来计算验证你的假设是否正确。

1.小概率原理

如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在一次试验中几乎不可能发生的;要是在一次试验中A竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。 2.假设的形式

H0——原假设, H1——备择假设

双尾检验:H0:μ = μ0 ,

单尾检验: ,H1:μ < μ0 , H1:μ > μ0 假设检验就是根据样

本观察结果对原假设(H0)进行检验,接受H0,就否定H1;拒绝H0,就接受H1。

检验过程是比较样本观察结果与总体假设的差异。差异显著,超过了临界点,拒绝H0;反之,差异不显著,接受H0。

克朗巴哈系数(Cronbach's α)是一个统计量,是指量表所有可能的项目划分方法的得到的折半信度系数的平均值,是最常用的信度测量方法。它最先被美国教育学家Lee Cronbach在1951年命名。 计算公式:

其中K为样本数,σ2X为总样本的方差,σ2Yi为目前观测样本的方差。 通常Cronbach α系数的值在0和1之间。如果X系数不超过0.6,一般认为内部一致信度不足;达到0.7-0.8时表示量表具有相当的信度,达0.8-0.9时说明量表信度非常好。Cronbach α系数的一个重要特性是它们值会随着量表项目的增加而增加,因此,Cronbach α系数可能由于量表中包含多余的测量项目而被人为地、不适当地提高。还有一种可以和Cronbach α系数同时使用的系数。系

数能够帮助评价,在计算Cronbach α系数的过程中,平均数的计算是否掩盖了某些不相关的测量项目。不同的研究者对信度系数的界限值有不同的看法,有学者认为,在基础研究中Cronbach α系数至少应达到0.8才能接受,在探索研究中Cronbach α系数至少应达到0.7才能接受,而在实务研究中,Cronbach α系数只需达到0.6即可。 Cronbach α系数的实施技巧

要做信度分析需先检查每个问项是否都是同方向的(即都是正面问法,也就是题间的相关系数都是正的),如有一题与其它题相关系数都是负的,应考虑将此题先“变号”或“删除”后再进行计算α系数。如有受测者乱答,可将它的数据删除后再算α值。

对问卷调查当有题目与其它题目是负相关时须注意是否反向问法。如是,则应先将得分反向,再计算α信度或是删除该题。若为测验,则不能做反向处理,只能做删除题目。

标准化 Cronbach α系数的定义

若一份量表有n题,题间的平均相关系数为r,则此量表的标准化α系数为 α=nr/[(n-1)r+1]

本文来源:https://www.bwwdw.com/article/4qy5.html

Top