实验七 相关分析与回归分析

更新时间:2023-09-19 20:44:01 阅读量: 小学教育 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

实验七、相关与线性回归分析

一、实验性质 上机实验

二、实验目的与要求

使学生熟练掌握应用SPSS软件绘制散点图,并利用散点图和相关性检验对变量之间的关系进行分析,并能建立简单的线性回归模型。 三、实验内容 1.散点图的绘制

散点图是相关分析过程中极为常用且非常直观的分析方式。它将数据以点的形式画在直角平面上。通过散点图能够直观地发现变量间的统计关系以及它们的强弱程度和数据对的可能走向。

绘制直方图的具体步骤如下: ? 1、选择Graphs ==> Scatter; ? 2、选择散点图的类型;

? 3、根据所选择的散点图类型,单击Define按钮对散点图作具体定义;

不同类型的散点图具体的定义选项略有差别。

简单散点图是表示一对变量间统计关系的散点图。

? 指定某个变量为散点图的纵轴变量,选入Y Axis框中; ? 指定某个变量为散点图的横轴变量,选入X Axis框中;

? 可把作为分组的变量指定到Set Markers by框中,表示按该变量的不同取值将样本数据

分成若干组,并在一张图上分别以不同颜色绘制散点图。(该项可省略);

? 把标记变量指定到Lable Cases by框中,表示将标记变量的各变量值标记在散点图相应

点的旁边。(该项可省略);

重叠散点图是表示多对变量间统计关系的散点图。

? 两个变量为一对,指定绘制哪些变量间的散点图。其中前一个作为图的纵轴变量,后一

个变量作为图的横轴变量,并可通过单击Swap Pair按钮进行横纵轴变量的调换; ? 把标记变量指定到Lable Cases by框中。含义同简单散点图;

矩阵散点图以方形矩阵的形式在多个坐标轴上分别显示多对变量间的统计关系。

? 把参与绘图的若干个变量指定到Matrix Variables框中。选择变量的先后顺序决定了矩

阵对角线上变量的排列顺序

? 把分组变量指定到Set Markers by框中。同简单散点图; ? 把标记变量指定到Lable Cases by框中。同简单散点图。 矩阵散点图的关键是弄清各矩阵单元中的横纵变量。 以3×3的矩阵散点图为例,变量分别为x1,x2,x3 矩阵散点图坐标变量示意图 x1 (x2,x1) (x3,x1) (x1,x2) (x1,x3) x2 (X2,x3) (X3,x2) x3 括号中前一个变量作为横轴变量,后一个变量作为纵轴变量。

2、相关性检验 两大内容:

? 第一、计算样本相关系数;

? 第二、对样本来自的两总体是否存在显著的线性关系进行推断。 相关系数r的取值在-1~+1之间;

? r>0表示两变量存在正的线性相关关系; r<0表示两变量存在负的线性相关关系。 ? r=1表示两变量存在完全正相关; r=-1表示两变量存在完全负相关; r=0表示两变量不存在线性相关关系;

? ︱r ︱ >0.8表示两变量之间具有较强的线性关系; ︱r ︱ <0.3表示两变量之间的线性相关关系较弱。 零假设H0:两总体不存在线性相关关系,即 r=0; 计算相关系数的基本操作:

? 1、选择:分析Analyze==>相关分析Correlate ==>两变量Bivariate;

? 2、将参加计算相关系数的变量选择到 Variable 框;

? 3、在相关系数(Correlation Coefficents)框中选择计算哪种相关系数。

? 4、在Test of Significance框中选择输出相关系数检验的双尾(Two-Tailed)概率p值

或单尾(One-Tailed)概率p值。

? 5、选中Flag significance correlations选项表示分析结果中除显示统计检验的概率p值以

外,还输出星号标记,以标明变量间的相关性是否显著;不选中则不输出星号标记。 ? 6、在Options按钮中的Statistics选项中,选中Cross-product deviations and covariances

表示输出各变量的离差平方和、样本方差、两变量的叉积离差和协方差。 3、线性回归分析

线性回归用来检测一个非独立变量(因变量)与一组独立变量(自变量)之间的关系。 回归分析一般步骤:

? 确定回归方程中的解释变量( x ) 和被解释变量( y ); ? 确定回归模型; ? 建立回归方程;

? 对回归方程进行各种检验; ? 利用回归方程进行预测。

应重点关注上述过程中第一步和最后一步,至于中间各个步骤,SPSS会自动完成,并给出最合理的模型。

?一元线性回归分析线性回归模型? ?多元线性回归分析? 一元线性回归模型基本问题 一般形式:y=b0+b1x+ε ? 多元线性回归模型基本问题 一般形式:y=b0+b1x1+b2x2+...bpxp+ ε

各种统计检验包括;回归方程的拟合优度检验、回归方程的显著性检验、回归系数的显著性检验、残差分析

? 回归方程的拟合优度检验

检验样本数据点聚集在回归线周围的密集程度,从而评价回归方程对样本数据的代表程度。

一元线性回归方程——使用R2统计量(判定系数或决定系数)

? R2取值在0到1之间;

? R2越接近于1,说明回归方程对样本数据点的拟合优度越高; ? 反之, R2越接近于0,说明回归方程对样本数据点的拟合优度越低。

多元线性回归方程——使用调整后的R2统计量(调整的判定系数或调整的决定系数) ? 回归方程的显著性检验

检验被解释变量与所有解释变量之间的线性关系是否显著,用线性模型来描述它们之间的关系是否恰当。

i. 一元线性回归方程 采用F检验法

零假设H0:b1=0,即回归系数与0无显著差异。 当回归系数为0时,x与y之间不存在线性关系。 ii. 多元线性回归方程 采用F检验法

零假设H0:各个偏回归系数等于0,即各个偏回归系数与0同时无显著差异。

当偏回归系数同时为0时,所有x的全体与y之间不存在线性关系。

SPSS将自动计算检验统计量的观测值和对应的概率p值。 ? 回归系数的显著性检验

研究回归方程中的每个解释变量与被解释变量之间是否存在显著的线性关系,也就是研究解释变量能否有效地解释变量的线性变化,它们能否保留在线性回归方程中。 i. 一元线性回归方程 采用t检验法

零假设H0:b1=0,即回归系数与0无显著差异。 当回归系数为0时,x与y之间不存在线性关系。 ii. 多元线性回归方程 采用t检验法

零假设H0:bi=0,即第i个偏回归系数与0无显著差异。 当偏回归系数bi为0时,xi与y之间不存在线性关系。 ? 变量的筛选问题

在多元线性回归分析中,需重点研究模型中应引入多少解释变量。因此,有必要对变量引入回归方程加以控制和筛选。

? 向前筛选策略(Forward) ? 向后筛选策略(Backward) ? 逐步筛选策略(Stepwise) ? 变量的多重共线性问题

多重共线性是指解释变量之间存在线性相关的现象。 测度解释变量间多重共线性一般有以下几种方式:

? 容忍度 取值范围在0~1之间,越接近于0表示多重共线性越强。 ? 方差膨胀因子(VIF)

是容忍度的倒数,大于10时说明有严重的共线性存在。 ? 特征根和方差比

如果某个特征根既能够刻画某解释变量方差的较大部分比例(如0.7以上),同时又可以刻画另一个解释变量方差的较大部分比例,则表明这两个解释变量间存在较强的线性相关关系。 ? 条件指数

CI(Condition Index)指标为sqr(最大特征根/其它的特征根) CI大于15时可能存在多重共线性 CI大于30时存在严重的多重共线性

线性回归分析的基本操作

? 1、选择:分析Analyze==>回归Regression ==>线性Linear; ? 2、选择被解释变量(y)进入到 Dependent 框; ? 3、选择一个或多个解释变量进入到Independent框中。

? 4、在Method框中选择回归分析中解释变量的筛选策略。其中Enter表示所选变量强

行进入回归方程,是SPSS默认的策略,通常用在一元线性回归分析中;Remove表示从回归方程中剔除所选变量;Stepwise表示逐步筛选策略;Backward表示向后筛选策略;Forward表示向前筛选策略。

? 5、第三和第四步中确定的解释变量及变量筛选策略可放置在不同的块(Block)中。

通常在回归分析中有不止一组的待进入方程的解释变量和相应的筛选策略,可以单击Next和Previous按钮设置多组解释变量和变量筛选策略并放置在不同的块中; ? 6、选择一个变量作为条件变量放到 Selection Variable 框中,并单击Rule按钮给定一

个判断条件。只有变量值满足给定条件的样本才参与线性回归分析;

? 7、在Case Lable框中指定哪个变量作为样本数据点的标志变量,该变量的值将标在回

归分析的输出图形中。

其中第5步中,SPSS将首先在当前块中按照指定的策略筛选解释变量和建立回归方程,然后自动按照下一个块中指定的策略筛选解释变量,并在上个回归方程的基础之上作进一步的建模工作,直到结束。块设置便于作各种探索性的回归分析。 补充:

4、二项Logistic回归

? 当被解释变量为0/1二值变量时使用。 ? 对被解释变量取值为1的概率P进行建模。

? 经过Logit变换后,就可以利用一般线性回归模型建立被解释变量与解释变量之间的

依存模型。即:

二项Logistic回归的基本操作

LogitP?b0?bixiP或ln()?b0?bixi1?P? 1、选择:分析Analyze==>回归Regression ==>二项Logistic 回归Binary Logistic; ? 2、选择被解释变量(y)进入到 Dependent 框;

? 3、把一个或多个解释变量选择到Covariates框中;也可以将不同解释变量组放在不同

的块(Block)中,进而分析不同解释变量组对被解释变量的贡献。 ? 4、在Method框后选择解释变量的筛选策略。

? 5、单击Select按钮,选择一个变量作为条件变量放到 Selection Variable 框中,并单击

Rule按钮给定一个判断条件。只有变量值满足给定条件的样本才参与回归分析; ? 6、如果解释变量为非定距的品质变量,可按Categorical钮指定如何生成虚拟变量。把

Covariates框中的品质变量选择到Categorical Covariates框中,在Change Contrast框中的Contrast选项中选择参照类,并按Change钮,其中最常用的选项是Indicator,表示以某个特定的类为参照类。

案例1:为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年31个省市自治区部分高校有关社科研究方面的数据,研究立项课题数(当年)与投入的具有高级职称的人年数(上年)、发表的论文数(上年)之间的关系。 提示:首先可绘制矩阵散点图进行初步分析。

案例2: 为研究高等院校人文社会科学研究中立项课题数会受哪些因素的影响,收集1999年

31个省市自治区部分高校有关社科研究方面的数据,研究立项课题数(当年)与投入的具有高级职称的人年数(上年)、发表的论文数(上年)之间是否具有较强的线性关系。

分析:对该研究问题可采用相关分析的方法。首先可绘制矩阵散点图(如前);其次,由于收集到的数据全部为定距数据,因此可通过计算pearson简单相关系数分析变量间线性相关性的强弱。

案例3: 为研究高等院校人文社科研究中立项课题数受哪些因素的影响,收集1999年31个省市自治区部分高校有关社科研究方面的数据,并利用线性回归分析方法进行分析。

分析:这里被解释变量为立项课题数(X5),解释变量为投入人年数(X2),投入高级职称的人年数(X3),投入科研事业费(X4),专著数(X6),论文数(X7),获奖数(X8)。

1、解释变量筛选策略先采用强制进入策略,并做多重共线性检测。

2、重新建立回归方程,采用向后筛选策略让SPSS自动完成解释变量的选择,观测每一步检验的变化情况。

案例4:为研究和预测某商品消费特点和趋势,收集到以往的消费数据。数据项包括:是否购买(Purchase)、性别(Gender)‘年龄(Age)和收入水平(income)

分析:这里采用Logistic回归方法,是否购买作为被解释变量(0/1二值变量),其余各变量为解释变量,且其中性别和收入水平为品质变量,年龄为定距变量,变量选择采用Enter方法,性别以男为参照类,收入以低收入为参照类。

案例5:某12个同类企业的生产性固定资产价值与总产值的资料如固定资产价值与总产值.xls(单位:万元)

(1) 请计算固定资产价值与总产值的相关系数。

(2) 在α=0.05的显著性水平下进行相关系数的显著性检验。

(3) 建立固定资产价值与总产值两个变量之间的线性回归方程并进行检验。

案例6:商业协会收集了最近一年来20个城市的5项指数指标,如20个城市的5项指数.xls所示,根据这些数据建立回归模型,用房屋、公用设施、交通运输和保健指数来预测生活日用品指数,对结果进行讨论,并指出显著和不显著的解释变量。

本文来源:https://www.bwwdw.com/article/8vph.html

Top