第11章_相关与回归分析

更新时间:2023-08-05 19:18:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

管理统计学 清华大学出版社 课件

第11章 相关与回归分析

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

内容摘要 变量间的统计关系 一元线性回归 多元线性回归 可线性化的非线性回归

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

变量间的统计关系 变量之间的关系:确定型的函数关系和不确定性的 函数关系 确定型 /自变量 /因变量 不确定型 /相关关系

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

回归分析——研究随机变量之间的相关关系的一种统计 方法。

相关关系

线性相关 正相关

非线性相关

完全相关

不相关

负相关

正相关

负相关

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

相关关系的特点1.变量间关系不能用函数关系精确表达 2.一个变量的取值不能由另一个变量唯一确定 3.当变量取某个值时,变量的取值可能有几个 4.各观测点分布在直线周围

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

(a)

(b)

2

1

0

y

-1

y

-1

0

1

2

正相关-2 -1 x 0 1 2

-2

不相关

-3

-2

-1 x

0

1

2

(c)

-2

(d)

2

1

y

0

y

-1

2

4

6

8

相关但无 线性关系-3 -2 -1 0 x 1 2 3

-2

-2

-1

0 x

1

2

负相关北京理工大学管理与经济学院

0

管理统计学 清华大学出版社 课件

相关系数——对变量之间关系密切程度的度量

( x x )( y y ) r ( x x ) * n( y ) ( y )2 2

2

r 的取值范围是 [-1,1]:

完全相关 /完全正相关 /完全负相关 /不存在线性相关关系 /负相关 /正相关北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

对相关系数的显著性检验– 提出假设 H 0 : =0 – 计算检验的统计量

r

n 2 1 r 2

~ t (n - 2)

– 确定显著性水平 ,并作出决策 若 t > t 2 / ,拒绝; 若 t < t 2 / ,接受北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

例11.1 设有10个厂家的投入和产出如下,根据这 些数据,我们可以认为投入和产出之间存在相关 性吗?厂家 1 2 3 4 5 6 7 8 9 10

投入产出

2030

4060

2040

3060

1030

1040

2040

2050

2030

3070

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

决定系数——说明自变量解释因变量变化百分比 的度量 回归分析——一组样本数据出发,确定变量之间 的数学关系式,对这些关系式的可信程度进行各 种统计检验,并从影响某一特定变量的诸多变量 中找出哪些变量的影响显著,哪些不显著。然后 利用所求的关系式,根据一个或几个变量的取值 来预测或控制另一个特定变量的取值,并给出这 种预测或控制的精确程度。

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

相关分析与回归分析的区别– 分析对象的相互地位不同 – 分析对象的变量类型不同 – 两者的目的不同

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

一元线性回归 一元线性回归(Linear regression),只研究一个 自变量与一个因变

量之间的统计关系。 对于只涉及一个自变量的简单线性回归模型可表 示为:

y b0 b1 x e

其中,b0和b1称为模型的参数;e是误差项, 有 e N 0, 2 。 描述y的平均值或期望值如何依赖于x的方程称为 回归方程对于一个给定的x值,y的期望值为:E y b0 b1x北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

简单线性回归方程的形式为 y b0 b1 x e , 也称为直线回归方程。其中,b0是回归直线在y轴 上的截距,是当x=0时y的期望值; b1是直线的斜 率,称为回归系数,表示当x每变动一个单位时, y的平均变动值。 总体回归参数b0和b1是未知的,必需利用样本数 据去估计。用样本统计量b0和b1代替回归方程中 的未知参数b0和b1 ,就得到了估计的回归方程:

y b0 b1x 其中, b0是估计的回归直线在轴上的截距, b1是 直线的斜率。北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

参数b0和b1的最小二乘估计 对例11.1中的两个变量的数据进行线性回归,就 是要找到一条直线来适当地代表图中的那些点的 趋势。 首先需要确定选择这条直线的标准。这里介绍最 小二乘回归法(least squares regression),就是寻 找一条直线,使得所有点到该直线的垂直距离的 平方和最小。用数据寻找一条直线的过程也叫做 拟合一条直线。

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

设简单线性回归模 y b0 b1 x e 中, b0和b1是 b0和b1的估计值 。则y的估计值用 y b0 b1x 表示。 我们要求出这样的待估参数b0和b1,使因变量的观 察值与估计值之间的离差平方和达到最小,即使 2 2 2 Q yi y e i yi b0 b1 x 极小。为此,分 别求Q对b0和b1的偏导,就可就可以求出符合要求 的待估参数b0和b1:b1 n xy x y n x ( x )2 2

,

b0

y b x y b x 1

n

1

n

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

看例11.1,试用最小二乘法来得到一个表示厂家 投入与产出关系的线性方程。当厂家的投入为20 时,它的预测产出是多少?b1 n xy x y n x 2 ( x) 21

10 10800 220 450 1.1842 2 10 5600 (220)

b0

y b x 45-1.1842 22=18.9476 y b x n1

故回归方程为 y 18.9476+1.1842x 预测值是将x值代入直线回归方程解得的值。若投 入为20,他的预测产出应该为: y 18.9476+1.1842 20=42.6316北京理工大学管理与经济学院

n

管理统计学 清华大学出版社 课件

同理可以计算出其他情况下的预测产出,每组数 据的预测值列出在下表中第3列:80 70 60 50 40 30 20 10 0 0 10 20 投入 30 40 50

产出北京理工大学管理与经济学院

散点图及回

归直线

管理统计学 清华大学出版社 课件

残差分析 真实值与预测值的差就是 回归直线在每个给定点上 的误差,我们称之为残差 (residual)。 从几何上讲,残差是回归 直线到样本数据点之间的 垂直距离,确定斜率和截 距的方程使回归直线位于 样本点之间。这样,从回 归直线到样本点之间的垂 直距离相互抵消,使总和 为0。80 70 60 50 40 30 20 10 0 0 10 20 30 x 投入 40Y 预测 Y 线性 (预测 Y)

y值与预测值

50

包含残差的散点图

北京理工大学管理与经济学院

管理统计学 清华大学出版社 课件

通过对残差进行检验,我们对回归直线与数据点 的拟合情况有进一步了解。– 在投入与产出的例子中,残差值(绝对值)最大为 15.5264,最小为0.7896。用回归直线预测的第10个厂 家(投入为30)的产出值误差为15.5264万元,而第5个 厂商(投入为10)的误差为0.7896万元,这两个分别是 预测的最差和最好的情况。

有时残差也用来确定异常点(outliers),异常点 就是与其他点偏离,与总体趋势不符的数据点。 异常点往往使残差幅度加大,在散点图中很容易 识别。回归直线方程会受到计算中每个点的影响, 因此,异常点的存在可能会使回归直线向异常点 偏离。北京理工大学管理与经济学院

本文来源:https://www.bwwdw.com/article/sa3m.html

Top