第2章_线性回归的基本思想:双变量模型

更新时间:2023-05-13 01:48:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第2章 线性回归的基本思想:线性回归的基本思想:双变量模型 双变量模型

本章主要讲授如下内容:

2.1 预备知识

2.2 变量之间的关系及相关分析 2.3 回归分析的性质

2.4 总体回归函数(population regression function, PRF) 2.5 样本回归函数(sample regression function, SRF) 2.6 几个概念

2.7 参数估计:普通最小二乘法

2.1 预备知识2.1 预备知识 预备知识

1.期望算子的性质

(1)E(aX+b)=aE(X)+b 其中,X是随机变量,a和b是常数 (2)Var(aX+b)=a2Var(X)

(3)E(X+Y)=E(X)+E(Y) 其中,X和Y是随机变量 (4)Var(X+Y)=Var(X)+Var(Y)+2Cov(X,Y)

(5)如果X和Y是独立的,则 E(XY)=E(X)E(Y) (6)如果X和Y是独立的,则 Cov(X,Y)=0 (7)Var()=

2σX

2

,这里,σX=Var(Xi)表明随着样本的增大,均值估计的方差会降低。

n

1n2

(8)E[ (Xi )2]=σX∑n 1i=1

2.求和算子的运用

(1)∑kXi=k∑Xi,这里k为常数 (2)∑(Xi+Yi)= ∑Xi+∑Yi (3)∑k=nk

(4)推论:∑(Xi-)=0

2.2 变量之间的关系及相关分析2.2 变量之间的关系及相关分析 变量之间的关系及相关分析

1.变量之间的相互关系

变量之间的相互关系大体可以分为两类:

(1)确定的函数关系 如圆面积与半径之间的关系;

(2)不确定的统计相关关系 如农作物产量与施肥量之间的关系

变量之间的相互关系可以利用相关分析和回归分析两种分析方法进行研究。

2.相关分析

(1)相关关系的类型

①简单相关与多重相关(复相关)

②线性相关与非线性相关 ③正相关与负相关 (2)相关程度的度量——相关程度的度量——相关系数——相关系数 ①总体相关系数总体相关系数 两个变量X和Y的总体相关系数为:

ρXY=

Cov(X,Y)(X)Var(Y)

这里,

Cov(X,Y)——变量X和Y的协方差 Var(X)——变量X的方差 Var(Y)——变量Y的方差 ②样本相关系数样本相关系数 两个变量X和Y的样本相关系数为:

rXY=

其中,

Xi——变量X的样本观察值 Yi——变量Y的样本观察值

∑(X Y (X )(Y i

i2

i

i

2

——变量X样本值的平均数 ——变量Y样本值的平均数

(3)在进行相关分析时应注意以下几点

①相关系数表现的两个相关的变量X和Y都是随机变量,且两者是对称的,即rXY=rYX; ②相关系数反映的只是两个变量之间的线性相关程度,不能说明两者的非线性相关关系; ③样本相关系数rXY是总体相关系数ρXY的样本估计值,随着取样的不同,样本相关系数可能不同;

④相关系数只能反映变量间的线性相关程度,但不能确定变量之间的因果关系。

2.3 回归分析的性质2.3 回归分析的性质 回归分析的性质

1.“回归”回归”一词的历史渊源

“回归”一词最先由英国生物学家弗朗西斯·高尔顿(Francis Galton)在一篇著名的遗传学论文中提出,他在研究父母身高和子女身高的关系时,发现了“普遍回归定律”(law of universal regression)。该定律得到他的朋友卡尔·皮尔逊(Karl Pearson)证实。

高尔顿的“:人的身高具有走向人口平均身高的趋势。 高尔顿的“普遍回归定律”普遍回归定律” 22.回归的含义 回归的含义

(1)回归的现代含义 回归的现代含义

关于一个变量(称为因变量或被解释变量)与另一个或多个变量(称为自变量或解释变量)之间依存关系的研究。

(2)回归分析的目的 回归分析的目的

①根据自变量的取值,估计因变量的取值;

②检验(建立在经济理论基础之上的)假设; ③根据样本外自变量的取值,预测因变量的取值;

④可同时进行上述分析。

((3)因变量与自变量的几种不同表述 因变量与自变量的几种不同表述

回归分析是研究一个变量关于另一个(些)变量的依赖关系的计算方法和理论。其目的在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。

前一个变量称为因变量,后者称为自变量。因变量与自变量的其他几种不同表述,如表2.1所示。

表2.1 因变量与自变量描述的其他术语

因变量(Dependent variable) 被解释变量(Explained variable) 预测子(Predictand) 回归子(Regressand) 响应(Response) 内生(Endogenous) 结果(Outcome) 被控变量(Controlled)

自变量(Independent variable) 解释变量(Explanatory variable) 预测元(Predictor) 回归元(Regressor) 刺激变量(Stimulus) 外生(Exogenous) 共变(Covariate)

控制变量(Control variable)

33.统计关系与确定关系 统计关系与确定关系

统计关系具有不确定性、随机性。 4.回归与因果关系 回归与因果关系

从逻辑上说,统计关系式本身不可能意味着任何因果关系。要确定因果关系,必须诉诸先验的或理论上的思考。 55.回归分析与相关分析 回归分析与相关分析

(1)回归分析与相关分析的联系

两者都是研究非确定性变量之间的统计依赖关系,并能测度线性依赖程度的大小。 (2)回归分析与相关分析的区别

①相关分析主要测度两个变量之间的线性关联程度,一般用相关系数来进行测度。如吸烟与肺癌之间的相关程度、中学成绩与大学成绩的相关程度等。回归分析主要研究一个变量对一个或多个解释变量的依从关系。如农作物收成依赖于降雨、气温、阳光和施肥等。回归分析有简单回归和复回归两类。

②相关分析仅仅从统计数据上测度变量之间的相关程度,而无需考察两者间是否有因果关系,因此变量的地位在相关分析中是对称的,而且都是随机变量;回归关系则更注重具有统计相关关系的变量间的因果关系分析,因此变量的地位是不对称的,有解释变量和被解释变量之分,而且被解释变量也往往被假设为非随机变量。

③相关分析只关注变量间的联系程度,不关注具体的依赖关系;回归分析则更关注变量间的具体依赖关系。 66.回归分析方法 回归分析方法

(1)最小二乘法 (2)极大似然法

7.回归分析的主要内容

回归分析是计量经济学的方法论基础,其主要内容包括:

——根据样本观察值对计量经济学模型参数进行估计,求得回归方程; ——对回归方程、参数估计值进行显著性检验; ——利用回归方程进行分析、评价及预测。

2.4 总体回归函数2.4 总体回归函数(总体回归函数(population regression function, PRF)

1.条件均值(条件均值(期望)期望)与总体回归函数

(1)例子 见表 2-1 and 图2-1。

(2)总体回归函数

E(Y|Xi) = B1 + B2Xi

这里, B1 和B2 被称为参数(回归系数),其中, B1 为截距(系数), B2 为斜率 (系数);Xi为解释变量;Yi为被解释变量;E(Y|Xi)为被解释变量的条件均值。

2.总体回归函数的统计或随机设定——总体回归函数的统计或随机设定——随机——随机(随机(或统计)或统计)总体回归函数

Yi = B1 + B2Xi +ui

这里,ui为随机误差项[the stochastic (or random) error term]。 3.随机误差项的性质

(1)误差项代表了未纳入模型变量的影响; (2)反映了变量的内在随机性; (3)代表了度量误差

2.5 样本回归函数2.5 样本回归函数(sample regression function, SRF)SRF)

1.样本回归函数

Ýi =b1 + b2Xi

其中,Ýi=总体条件均值E(Y|Xi)的估计量;b1= B1的估计量;b2= B2的估计量。 2.随机样本回归函数

Ýi =b1 + b2Xi + ei

这里,ei是ui的估计量,称为残差项(residual term)。 3.回归分析的目的

根据样本回归函数

Ýi =b1 + b2Xi + ei

估计总体回归函数

Yi = B1 + B2Xi +ui

2.6 几个概念2.6 几个概念 几个概念

1.“线性”线性”回归的含义

(1)变量线性 如下列函数所示

E(Y)=B1+B2Xi2 E(Y)=B1+B2

(2)参数线性 如下列函数所示

2

E(Y)=B1+B2Xi

1

Xi

2.从双变量回归到多变量线性回归 如果解释变量不是一个而是更多,则有

E(Y)=B1+B2X2i+B3X3i+B4X4i

这里

E(Y)=E(Y|X2i,X3i,X4i)

其随机方程形式为:

Yi=B1+B2X2i+B3X3i+B4X4i+ui

=E(Y)+ui

2.7 参数估计2.7 参数估计:参数估计:普通最小二乘法 普通最小二乘法

1.最小二乘原理

根据上面的分析,对于总体回归函数(PRF):

Yi = B1 + B2Xi +ui

由于无法直接观察PRF,所以用样本回归函数(SRF)来估计:

Ýi =b1 + b2Xi + ei

因而:

ei= 实际的Yi – 估计的Yi

= Yi - Ýi

= Yi - b1 - b2Xi

估计PRF的最好方法是:选择B1,B2的估计量b1,b2,使得残差ei尽可能小。

普通最小二乘法(method of ordinary least squares, OLS)规定:选择参数b1,b2,使得残差平方和(residual sum of squares, RSS)最小。

用数学公式表示为:

2

MinimizeΣei2 = Σ(Yi - Ýi)

2

=Σ(Yi - b1 - b2Xi)

2.最小二乘估计值的推导

对于式子

2

Σei2 =Σ(Yi - b1 - b2Xi)

分别对b1,b2求导,得:

Σei2/ b1 = 2Σ(Yi - b1 - b2Xi)(-1) Σei2/ b1 = 2Σ(Yi - b1 - b2Xi)(-Xi)

根据最优化的一阶条件,令上述两式为0,于是有:

ΣYi = nb1 + b2ΣXi

2

ΣYiXi = b1ΣXi + b2ΣXi

其中,n为样本容量,这些联立方程称为(最小二乘的)正规方程(normal equation)。

求解上述联立方程,得:

b2=

∑xyx

i2i

i

=

∑XY n X nii2i

2

b1= b2

这里,xi=(Xi ,yi=(Yi )。

3.最小二乘估计量的性质

(1)用OLS法得出的样本回归线经过样本均值点,即

=b1+b2

(2)残差的均值为0;

(3)对残差与解释变量的积求和,其值为0;即这两个变量不相关

∑eX

i

i

=0

(估计的Y)的积求和,其值为0 (4)对残差与Yii

∑eY

ii

=0

本文来源:https://www.bwwdw.com/article/gkpe.html

Top