1.8 最小二乘估计 学案1(北师大必修3)

更新时间:2024-01-20 03:51:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

§8 最小二乘估计

[读教材·填要点]

1.回归直线

如果两个变量散点图中点的分布从整体上看大致在一条直线附近,那么称这两个变量之间具有线性相关关系,这条直线叫作回归直线.

2.最小二乘法

求线性回归方程y=bx+a时,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法.其中a,b的值由以下公式给出:

????b?????xiyi?nxy2x?nx?ii?1i?1n2n,a=y-bxa,b是线性回归方程的系数.

[小问题·大思维]

1.任给一组数据,我们都可以由最小二乘法得出线性回归方程吗?

提示:用最小二乘法求回归直线的方程的前提是先判断所给数据具有线性相关关系(可利用散点图判断).否则求出的线性回归方程是无意义的.

2.线性回归方程是否经过一定点? --

提示:线性回归方程恒过定点(x,y).

[研一题]

[例1] 下表是某旅游区游客数量与平均气温的对比表:

平均气温(℃) 数量(百个)

若已知游客数量与平均气温是线性相关的,求线性回归方程. -7035-230115

[自主解答] x==,y==,

6363

22

x21+x2+?+x6

-1 20 4 24 10 34 13 38 18 50 26 64 =1+16+100+169+324+676=1 286,

x1y1+x2y2+?+x6y6=-20+96+340+13×38+18×50+26×64=3 474.

- 1 -

35115

--3 474-6××33x1y1+x2y2+?+x6y6-6xy

b==≈1.68,

352-2222

x1+x2+?+x6-6x1 286-6×??3--

a=y-bx≈18.73,

即所求的线性回归方程为y=1.68x+18.73.

[悟一法]

求线性回归方程的步骤:

?1?画出散点图,判断是否具有相关关系;--n2222

?2?计算x,y,∑x=x+x+?+xi12n,=

i1

ni=1

∑xiyi=x1y1+x2y2+?+xnyn.

n

--

∑xy-nxyiii=1--

?3?代入公式b=n,a=y-bx;

-22

∑x-nxi=

i1

?4?写出线性回归方程y=bx+a.

[通一类]

1.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:

x y 6 2 8 3 10 5 12 6 已知记忆力x和判断力y是线性相关的,求线性回归方程. -6+8+10+12-2+3+5+6

解:x==9,y==4,

44

i1ni=1

22222

∑x=6+8+10+12=344, i=n

∑xiyi=6×2+8×3+10×5+12×6=158,

158-4×9×414b===0.7,

344-4×9220--

a=y-bx=4-0.7×9=-2.3. 则所求的线性回归方程为y=0.7x-2.3.

[研一题]

[例2] 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:

x y

2 30 4 40 5 60 6 50 8 70 - 2 -

(1)画出散点图; (2)求线性回归方程;

(3)预测当广告费支出为7百万元时的销售额. [自主解答] (1)

(2)从散点图可以发现,y与x具有线性相关关系,利用计算器求得:

55

--2x=5,y=50,∑xi=145,∑xiyi=1 380, ==

i1

i1

设回归方程为y=bx+a,则

i1

5b=

--

∑xy-5x yii=

i1

5

-22∑x-5x i=

=1 380-5×5×50

=6.5,

145-5×52--

a=y-bx=50-6.5×5=17.5,故所求线性回归方程为y=6.5x+17.5. (3)当x=7时,y=6.5×7+17.5=63.

所以,当广告费支出为7百万元时,销售额约为6 300万元.

[悟一法]

用线性回归方程估计总体的一般步骤:

(1)作出散点图,判断散点是否在一条直线附近;

(2)如果散点在一条直线附近,用公式求出a、b并写出线性回归方程; (3)根据线性回归方程对总体进行估计.

[通一类]

2.假设关于某设备的使用年限x和所支出的维修费用y(单位:万元)有如下的统计资料:

使用年限x 维修费用y

若由资料知y对x呈线性相关关系,试求: (1)回归方程y=bx+a的系数a,b;

(2)使用年限为10年时,试估计维修费用是多少. 解:(1)列表如下:

i xi 1 2 2 3 3 4 4 5 5 6 2 2.2 3 3.8 4 5.5 5 6.5 6 7. 0

- 3 -

yi xiyi x2i 2.2 4.4 4 3.8 11.4 9 i15.5 22.0 16 i16.5 32.5 25 7.0 42.0 36 55--2x=4,y=5, ∑xi=90,∑xiyi=112.3 == --

∑xy=-5x y112.3-5×4×5iii=1b=5==1.23,

-290-5×422

∑xi-5 x=

i15

--

a=y-bx=5-1.23×4=0.08. (2)回归方程是y=1.23x+0.08,

当x=10时,y=1.23×10+0.08=12. 38(万元), 即估计使用10年时维修费用是12.38万元.

有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:

人均GDP(万元) 患白血病的儿童数

(1)画出散点图,并判定两个变量是否具有线性相关关系;

(2)通过计算可得两个变量的线性回归方程为y=23.25x+102.25,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?

[错解] (1)根据表中数据画散点图,如图所示,从图可以看出,虽然后5个点大致分布在一条直线的附近,但第一个点离这条直线太远,所以这两个变量不具有线性相关关系.

(2)将x=12代入y=23.25x+102.25,得y=23.25×12+102.25=381.25>380,所以上述断言是正确的.

[错因] 在第(1)问中,是否具有线性相关关系,要看大部分点、主流点是否分布在一条直线附近,个别点是不影响“大局”的,所以可断定这两个变量具有线性相关关系.在第(2)问中,381.25只是一个估计值,由它不能断言这个城市患白血病的儿童一定超过380人.如果这个城市的污染很严重,有可能人数远远超过380,若这个城市的环境保护的很好,则人数就有可能远远低于380.

[正解] (1)根据表中数据画散点图,如错解图所示,从图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线

- 4 -

10 351 8 312 6 207 4 175 3 132 1 180 性相关关系.

(2)将x=12代入y=23.25x+102.25,得y=23.25×12+102.25=381.25>380,即便如此,但因381.25只是一个估计值,会受其他情况的影响,所以不能断言这个城市患白血病的儿童一定超过380人.

1.已知x与y之间的一组数据:

x y

则y与x的线性回归方程y=bx+a必过点( ) A.(2,2) C.(1,2)

B.(1.5,0) D.(1.5,4) 0 1 1 3 2 5 3 7 1+2+31+3+5+7

解析:x==1.5,y==4.

44答案:D

2.工人工资y(元)依劳动生产率x(千元)变化的回归直线方程为y=80x+50,则下列判断正确的是( )

A.劳动生产率为1 000元时,工资为130元 B.劳动生产率提高1 000元时,工资约提高80元 C.劳动生产率提高1 000元时,工资约提高130元 D.当月工资210元时,劳动生产率为2 000元

解析:回归直线的斜率为80,所以x每增加1个单位,y约增加80,即劳动生产率提高1000元时,工资提高约80元.

答案:B

3.下表是某厂1到4月份用水量情况(单位:百吨)的一组数据:

月份x 用水量y

用水量y与月份x之间具有线性相关关系,其线性回归方程为y=-0.7x+a,则a的值为( )

A.5.25 C.2.5

B.5 D.3.5 1 4.5 2 4 3 3 4 2.5

- 5 -

--

解析:x=2.5,y=3.5,代入回归方程,得3.5=-0.7×2.5+a,∴a=5.25. 答案:A

4.某商店统计了最近6个月某商品的进价x与售价y(单位:元)的对应数据如下:

x y

6

--

则x=________,y=________,?x2i=________,

i=1

3 4 5 6 2 3 8 9 9 12 12 14 i=1

?xiyi=________,回归方程为________.

6

66

--

解析:根据公式代入即可求得,也可以利用计算器求得x=6.5,y=8,?x2=327,?xiyii

i=1

i=1

=396,

回归方程为y=1.14x+0.59.

答案:6.5 8 327 396 y=1.14x+0.59

5.某单位为了解用电量y度与气温x℃之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:

气温(℃) 用电量(度) 18 24 13 34 10 38 -1 64 由表中数据得线性回归方程y=bx+a中b=-2,预测当气温为-4℃时,用电量的度数约为________.

18+13+10-124+34+38+64解析:x==10,y==40,则a=y-b x=40+2×10

44=60,则y=-2x+60,则当x=-4时,y=-2×(-4)+60=68.

答案:68

6.下表提供了某厂节能降耗技术改造后,生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:

x y

(1)请画出上表中数据的散点图;

(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y=bx+a; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤.(参考数值:3×2.5+4×3

- 6 -

3 2.5 4 3 5 4 6 4.5 +5×4+6×4.5=66.5)

解:(1)散点图如图所示.

(2)由对照数据,计算得: -3+4+5+62

∑x=86,x==4.5, i

4i=1

-2.5+3+4+4.5

y==3.5.

4

4

4

又已知∑xiyi=66.5, =

i1

--

∑xy-4x y66.5-4×4.5×3.5iii=1

∴b=4==0.7,

-286-4×4.522

∑xi-4x=

i1

4

--

a=y-bx=3.5-0.7×4.5=0.35. ∴所求的线性回归方程为y=0.7x+0.35. (3)90-(0.7×100+0.35)=19.65(吨标准煤),

故生产100吨甲产品的生产能耗比技改前降低19.65吨标准煤.

一、选择题

1.设有一个回归方程y=2-1.5x,当x增加1个单位时( ) A.y平均增加1.5个单位 B.y平均减少1.5个单位 C.y平均增加2个单位 D.y平均减少2个单位

解析:y′=2-1.5(x+1)=2-1.5x-1.5=y-1.5,即x增加1个单位,y平均减少1.5个单位.

答案:B

2.对有线性相关关系的两个变量建立的线性回归方程y=a+bx中,回归系数b( ) A.可以小于0 B.只能大于0 C.只能等于0 D.只能小于0

- 7 -

--

x1y1+x2y2+?+xnyn-nxy

解析:∵b=,∴b的取值是任意的.

-2222

x1+x2+?+xn-nx答案:A

3.由一组样本数据(x1,y1),(x2,y2),?,(xn,yn)得到线性回归方程y=bx+a,那么下面说法不正确的是( ) .

A.直线y=bx+a必经过点(x,y)

B.直线y=bx+a至少经过点(x1,y1),(x2,y2),?,(xn,yn)中的一个点

i=1

?xiyi-nx y?x2i-nx

n

n

C.直线y=bx+a的斜率为 2

i=1

D.直线y=bx+a与各点(x1,y1),(x2,y2),?,(xn,yn)的接近程度?[yi-(bxi+a)]2是该

i=1

n

坐标平面上所有直线与这些点的最接近的直线

解析:直线y=bx+a一定过点(x,y),但不一定要过样本点. 答案:B

4.(2012·湖南高考)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关^系,根据一组样本数据(xi,yi)(i=1,2,?,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是( )

A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(x,y)

C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg

^

解析:当x=170时,y=0.85×170-85. 71=58.79,体重的估计值为58.79 kg,故D不正确.

答案: D

5.(2011·山东高考)某产品的广告费用x与销售额y的统计数据如下表:

广告费用x(万元) 销售额y(万元)

根据上表可得回归方程y=bx+a中的b为9.4,据此模型预报广告费用为6万元时销售额为( )

- 8 -

4 49 2 26 3 39 5 54 A.63.6万元 C.67.7万元

B.65.5万元 D.72.0万元

----

解析:容易计算得x=3.5,y=42,故a=y-bx=42-9.4×3.5=9.1,所以当广告费用为6万元时销售额为9.4×6+9.1=65.5(万元).

答案:B 二、填空题

6.(2011·辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元).调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回-

归直线方程:y=0.254x+0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.

解析:由回归直线方程的意义知,x每增加1万元,y平均增加0.254万元. 答案:0.254

7.对一质点的运动过程观测了4次,得到如下表所示的数据,则刻画y与x的关系的线性回归方程为____________.

x y

44

--2

解析:x=2.5,y=3.75,∑xy=46,∑xiii=30, ==

i1

i1

1 1 2 3 3 5 4 6 46-4×2.5×3.75--b==1.7,a=y-bx=-0.5, 230-4×2.5所以所求的线性回归方程为:y=1.7x-0.5. 答案:y=1.7x-0.5

8.(2011·广东高考)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x(单位:小时)与当天投篮命中率y之间的关系:

时间x 命中率y

小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.

解析:小李这5天的平均投篮命中率为(0.4+0.5+0.6+0.6+0.4)÷5=0.5. --

又x=3,y=0.5, 由表中数据,得b=0.01, --

a=y-bx=0.47,

1 0.4 2 0.5 3 0.6 4 0.6 5 0.4 - 9 -

故回归直线方程为y=0.01x+0.47. 令x=6,则有y=0.01×6+0.47=0.53. 答案:0.5 0.53 三、解答题

9.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量(单位:千克)影响的试验,得到如下一组数据:

施化肥量 水稻产量

(1)作出这些数据的散点图;

(2)由(1)分析两变量关系得出什么结论? (3)求出回归直线方程. 解:(1)如图所示.

15 330 20 345 25 365 30 405 35 445 40 450 45 455

(2)由(1)可看出,各点散布在从左下角到右上角的区域内,为正相关,也可以说在适量限制范围内水稻产量随施肥量的增大而增大,但不是直线递增.

77

--2

(3)用科学计算器可求得x=30,y=399.3,∑xi=7 000,∑xiyi=87 175.于是 ==

i1

i1

b=

i1

--

∑xiyi-7x y=

i1

7

-22∑x-7xi=

7=

87 175-7×30×399.3--

≈4.75.a=y-bx=399.3-4.75×30≈257.因27 000-7×30

此所求回归直线方程为y=4.75x+257.

10.(2012·福建高考)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:

单价x(元) 销量y(件)

^--(1)求回归直线方程y=bx+a,其中b=-20,a=y-bx;

(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)

8 90 8.2 84 8.4 83 8.6 80 8.8 75 9 68 - 10 -

1

解:(1)由于x=(x1+x2+x3+x4+x5+x6)=8.5,

61

y=(y1+y2+y3+y4+y5+y6)=80.

6

^

所以a=y-bx=80+20×8.5=250,从而回归直线方程为y=-20x+250. (2)设工厂获得的利润为L元,依题意得 L=x(-20x+250)-4(-20x+250) =-20x2+330x-1 000 33

=-20(x-)2+361.25.

4

当且仅当x=8.25时,L取得最大值.

故当单价定为8.25元时,工厂可获得最大利润.

- 11 -

1

解:(1)由于x=(x1+x2+x3+x4+x5+x6)=8.5,

61

y=(y1+y2+y3+y4+y5+y6)=80.

6

^

所以a=y-bx=80+20×8.5=250,从而回归直线方程为y=-20x+250. (2)设工厂获得的利润为L元,依题意得 L=x(-20x+250)-4(-20x+250) =-20x2+330x-1 000 33

=-20(x-)2+361.25.

4

当且仅当x=8.25时,L取得最大值.

故当单价定为8.25元时,工厂可获得最大利润.

- 11 -

本文来源:https://www.bwwdw.com/article/pgwo.html

Top