【推荐重点】2019高中数学 第1章 统计案例 1.2 回归分析学案 苏教版选修1-2

更新时间:2023-08-28 19:43:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

1 1.

2 回归分析

1.线性回归模型

(1)线性回归模型y =a +bx +ε,其中a +bx 是确定性函数,ε称为随机误差.

(2)随机误差产生的原因主要有以下几种: ①所用的确定性函数不恰当引起误差; ②忽略了某种因素的影响; ③存在观测误差.

(3)在线性回归方程y ^=a ^+b ^x 中

b ^=∑i =1n x i -x -y i -y

-∑i =1n x i -x -2=∑i =1

n

x i y i -n x -y

-∑i =1

n

x 2i -n x -2

a ^=y --

b ^x -(其中x -=1n ∑i =1n x i ,y -=1n ∑i =1

n

y i ).

其中,a ^,b ^分别为a ,b 的估计值,a ^称为回归截距,b ^称为回归系数,y ^称为回归值.

2.相关系数

(1)计算两个随机变量间线性相关系数的公式 ∑i =1n x i -x -2∑i =1

n

y i -y -2

=∑i =1

n

x i y i -n x -y

-∑i =1n

x 2i -n x -2

∑i =1

n

y 2i -n y

-2

2 (2)r 具有如下性质:

①|r |≤1;

②|r |越接近于1,x ,y 的线性相关程度越强;

③|r |越接近于0,x ,y 的线性相关程度越弱.

3.对相关系数进行显著性检验的基本步骤

(1)提出统计假设H 0:变量x ,y 不具有线性相关关系;

(2)如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n -2在教材附录1中查出一个r 的临界值r 0.05(其中1-0.95=0.05称为检验水平);

(3)计算样本相关系数r ;

(4)作出统计推断:若|r |>r 0.05,则否定H 0,表明有95%的把握认为x 与y 之间具有线性相关关系;若|r |≤r 0.05,则没有理由拒绝原来的假设H 0,即就目前数据而言,没有充分理由认为y 与x 之间有线性相关关系.

我们把相关关系(不确定性关系)转化为函数关系(确定性关系),当两个具有相关关系的变量

近似地满足一次函数关系时,我们所求出的函数关系式y ^=a ^+b ^x 就是回归直线方程.求回归直线

方程的一般方法是借助于工作软件求出回归直线方程,也可以利用计算器计算出b ^,再由a ^=y --b

^x -求出a ^,写出回归直线方程y ^=b ^x +a ^

.计算时应注意:

(1)求b ^时,利用公式b ^=∑i =1

n x i y i -n x - y

-∑i =1

n

x 2i -n x -2

,先求出x -=1n (x 1+x 2+…+x n ),y -=1n

(y 1+y 2+…+y n ),∑i =1n x i y i =x 1y 1+x 2y 2+…+x n y n ,∑i =1

n x 2

i =x 21+x 22+…+x 2n .再由a ^=y --b ^x -求出a ^

的值,并写出回归直线方程.

(2)线性回归方程中的截距a ^和斜率b ^都是通过样本估计而来的,存在着误差,这种误差可能导

致估计结果的偏差.

(3)回归直线方程y ^=a ^+b ^x 中的b ^表示x 增加1个单位时,y ^的变化量为b ^,而a ^表示y ^不随x 的

变化而变化的部分.

(4)可以利用回归直线方程y ^=a ^+b ^x 求在x 取某一个值时y 的估计值.

3

[例1] 假设关于某设备的使用年限x (年)和所支出的维修费用y (万元)有如下的统计资料:

若由数据可知,y 对x 呈线性相关关系. (1)求线性回归方程;

(2)估计使用年限为10年时,维修费用是多少?

[思路点拨] 由于题目条件已经指明y 对x 呈线性相关关系,所以可直接利用公式求a ^与b ^

,然后求出线性回归方程,最后把10代入,估计维修费用.

[精解详析] (1)列表如下:

经计算得:x -=4,y -=5,∑i =1

5x 2

i =90,∑i =1

5

x i y i =112.3,

于是b ^=

∑i =1

5

x i y i -5x -y

∑i =1

5

x 2

i -5x -

2

=1.23,a ^=y --b ^·x -

=0.08,

所以线性回归方程为y ^=b ^x +a ^

=1.23x +0.08.

(2)当x =10时,y ^

=1.23×10+0.08=12.38(万元),即若估计使用年限为10年时,维修费用为12.38万元.

4 [一点通] 若题目中没有指明y 对x 呈线性相关关系,而只给出资料,则需根据散点图或利用线性相关系数先确定变量是否线性相关,再求线性回归方程.

1.(辽宁高考)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.

解析:以x +1代x ,得y ^=0.254(x +1)+0.321,与y ^=0.254x +0.321相减可得,年饮食支

出平均增加0.254万元.

答案:0.254

2.(湖北高考改编)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:

①y 与x 负相关且y ^=2.347x -6.423;

②y 与x 负相关且y ^=-3.476x +5.648;

③y 与x 正相关且y ^=5.437x +8.493;

④y 与x 正相关且y ^=-4.326x -4.578.

其中一定不正确的结论的序号是________.

解析:由回归直线方程y ^=b ^x +a ^,知当b ^>0时,x 与y 正相关,当b ^<0时,x 与y 负相关,

所以①④一定错误.

答案:①④

3.某产品的广告费用x 与销售额y 的统计数据如下表:

根据上表可得回归方程y ^=b ^x +a ^中的b ^为9.4,据此模型预报广告费用为6万元时的销售额为

________万元.

解析:∵x -=4+2+3+54=72,y -=49+26+39+544

=42.

5 又y ^=b ^x +a ^必过(x -,y -),

∴42=72

×9.4+a ^,∴a ^=9.1. ∴线性回归方程为y ^=9.4x +9.1.

∴当x =6时,y ^=9.4×6+9.1=65.5(万元).

答案:65.5

4.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:

(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -;

(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)

解:(1)由于x =16

(x 1+x 2+x 3+x 4+x 5+x 6)=8.5, y =1

6

(y 1+y 2+y 3+y 4+y 5+y 6)=80.

所以a =y -bx =80+20×8.5=250,从而回归直线方程为y ^=-20x +250.

(2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250)

=-20x 2

+330x -1 000 =-20?

????x -3342

+361.25. 当且仅当x =8.25时,

L 取得最大值.

故当单价定为8.25元时,工厂可获得最大利润.

[例2] 10名同学在高一和高二的数学成绩如下表:

6

其中x 为高一数学成绩,y 为高二数学成绩. (1)y 与x 是否具有相关关系?

(2)如果y 与x 具有线性相关关系,求回归直线方程.

[思路点拨] 可先计算线性相关系数r 的值,然后与r 0.05比较,进而对x 与y 的相关性做出判断.

[精解详析] (1)由已知表格中的数据,求得x -=71,y -=72.3,

r =∑i =110 x i -x

-y i -y

-∑i =110 x i -x

-2 ∑i =110 y i -y -2

≈0.78. 由检验水平0.05及n -2=8,在课本附录1中查得r 0.05=0.632,因为0.78>0.632,

所以y 与x 之间具有很强的线性相关关系.

(2)y 与x 具有线性相关关系,设回归直线方程为

y ^=a ^+b ^x ,则有b ^

=∑i =1

10 x i -x

-y i -y -∑i =110 x i -x

-2

≈1.22, a ^=y --b ^x -=72.3-1.22×71=-14.32.

所以y 关于x 的回归直线方程为y ^=1.22x -14.32.

[一点通] 判断x 与y 是否具有线性相关关系,还可以先作出散点图,从点的分布特征来判定是否线性相关.有些同学不对问题进行必要的相关性检验,直接求x 与y 的回归直线方程,它就没有任何实际价值,也就不能准确反映变量x 与y 间的变化规律.另外,要注意计算的正确性.

5.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则r 1与r 2的关系为________.

7

解析:对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.

答案:r 2<0<r 1

6.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =1

2x +1上,则这组样本数据的样本相

关系数为________.

解析:样本相关系数越接近1,相关性越强,现在所有的样本点都在直线y =1

2x +1上,样本

的相关系数应为1.

答案:1

7.为了了解某地母亲身高x 与女儿身高y 的相关关系,现随机测得10对母女的身高,所得数据如下表所示:

试对x 与y 进行线性回归分析,并预测当母亲身高为161 cm 时,女儿的身高为多少? 解:作线性相关性检验.

x -=1

10×(159+160+…+157)=158.8,

y -=1

10

×(158+159+…+156)=159.1,

∑i =1

10

x 2

i -10(x -

)2=(1592+1602+…+1572)-10×158.82

=47.6, ∑i =1

10

x i y i -10x -y -

=(159×158+160×159+…+157×156)-10×158.8×159.1=37.2,

∑i =1

10

y 2

i -10(y -

)2=(1582+1592+…+1562)-10×159.12

=56.9,

8 因此r =

∑i =110

x i y i -10x -y

-[∑i =110x 2i -x -2][∑i =1

10

y 2i -y -2]

=37.2

47.6×56.9≈0.71. 由检验水平0.05及n -2=8,在课本附录1中查得r 0.05=0.632,因为0.71>0.632,所以可以认为x 与y 有较强的相关关系,因而求回归直线方程有必要.

又b ^=∑i =110

x i y i -10x -y

-∑i =110

x 2

i -x -2

37.2

47.6≈0.78, a ^=159.1-0.78×158.8≈35.2,

由此得回归直线方程为y ^=35.2+0.78x ,回归系数b ^=0.78反映出当母亲身高每增加1 cm 时

女儿身高平均增加0.78 cm ,a ^=35.2可以理解为女儿身高中不受母亲身高影响的部分,当母亲身

高为161 cm 时女儿身高为y ^=0.78×161+35.2=160.78≈161(cm),这就是说当母亲身高为161 cm

时,女儿身高大致也为161 cm.

1.求线性回归方程的方法

确定线性回归方程的基本步骤为:

(1)先求b ^;(2)再求a ^;(3)写出方程y ^=b ^x +a ^.

2.分析两个变量的相关关系常用的方法

(1)散点图法.该法主要是用来直观地分析两变量间是否存在相关关系.

(2)相关系数法.该法主要是从量上分析两个变量间相互联系的密切程度,|r |越接近于1,相关程度越强,|r |越接近于0,相关程度越弱.

9

一、填空题

1.设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个样本点,直线l 是由这些样本点得到的线性回归直线(如图),以下结论正确的序号是________.

①直线l 过点(x ,y );

②x 和y 的相关系数为直线l 的斜率;

③x 和y 的相关系数在0到1之间;

④当n 为偶数时,分布在l 两侧的样本点的个数一定相同.

解析:因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近于1,两个变量的线性相关程度越强,所以②③错误;④中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以④错误;根据回归直线方程一定经过样本中心点可知①正确.

答案:①

2.(湖北高考改编)根据如下样本数据

得到的回归方程为y ^=bx +a ,则下列说法正确的是________.(填序号)

①a >0,b >0 ②a >0,b <0

③a <0,b >0 ④a <0,b <0

解析:由表中数据画出散点图,如图,

10

由散点图可知b <0,a >0,故②正确. 答案:②

3.设有一个回归方程为y ^

=2-2.5x ,则变量x 每增加一个单位时,y ________.

解析:由回归系数的意义可知当变量x 增加一个单位时,y ^的平均改变量为b ^

,由题目回归方程y ^

=2-2.5x ,

可得当变量x 增加一个单位时,y ^

平均减少2.5个单位. 答案:平均减少2.5个单位

4.某数学老师的身高是176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.

解析:设父亲身高为x cm ,儿子身高为y cm ,则

x =173,y =176,b ^

0×(-6)+(-3)×0+3×602

+9+9

=1,a ^=y -b ^x -

=176-1×173=3,∴y ^=x +3,当x =182时,y ^

=185.

答案:185

5.为了对学业水平测试成绩进行分析,在得分60分以上的全体同学中随机抽取8位.他们的物理、化学成绩如下:

若用变量x ,y 分别记作物理成绩和化学成绩,则x ,y 之间的线性相关系数r 为________. (参考数据:x -≈85,y -

=81,∑i =18

(x i -x -

)2

≈457,∑i =18

(y i -y -

)2

≈550,∑i =1

8

(x i -x -

)(y i -

y -

)≈501,457≈21.4,550≈23.5)

11 解析:r =

∑i =18

(x i -x -)(y i -y -

∑i =18 (x i -x -)2

∑i =18 (y i -y -

)2 ≈501

457×550≈50121.4×23.5≈0.996. 答案:0.996

二、解答题

6.某企业上半年产品产量与单位成本资料如下:

且已知产量x 与单位成本y 具有线性相关关系.

(1)求出线性回归方程;

(2)指出产量每增加1 000件时,单位成本平均变动多少?

(3)假定产量为6 000件时,单位成本为多少元?

解:(1)n =6,x -=3.5,y -=71,

=1 481-6×3.5×7179-6×3.5

2≈-1.82, a ^=y --b ^x -=71+1.82×3.5=77.37,

则线性回归方程为y ^=b ^x +a ^=-1.82x +77.37.

(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的

意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元.

12 (3)当产量为6 000件,

即x =6时,代入线性回归方程,

得y ^=77.37-1.82×6=66.45(元).

即当产量为6 000件时,单位成本大约为66.45元.

7.一台机器使用的时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转速度的变化而变化,下表为抽样试验的结果:

(1)利用散点图或相关系数r 的大小判断变量y 对x 是否线性相关?为什么?

(2)如果y 对x 有线性相关关系,求线性回归方程;

(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么机器的运转速度应控制在什么范围内?

(最后结果精确到0.001,参考数据:656.26≈25.617,16×11+14×9+12×8+8×5=438,162+142+122+82=660,112+92+82+52

=291)

解:(1)∵x -=12.5,y -=8.25,

∑i =1

4 (x i -x -)(y i -y -

)=25.5,

∑i =14

x i -x -2∑i =1

4 y i -y -2=656.25≈25.617, ∴r 0.05≈0.995,由检验水平0.05及n -2=2,在附录1中查得r 0.05=0.950,因为0.995>0.950,∴y 与x 有线性相关关系.

(2)∵∑i =14

(x i -x -)2=35,∴b ^≈0.729,a ^=y --b ^x -≈-0.863.

∴线性回归方程为y ^=0.729x -0.863.

(3)0.729x -0.863≤10,解得x ≤14.901.

故机器运转速度应在14转/秒之内.

8.(重庆高考)从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月

13 储蓄y i (单位:千元)的数据资料,算得∑i =110x i =80,∑i =110y i =20,∑i =110x i y i =184,∑i =1

10

x 2

i =720.

(1)求家庭的月储蓄y 对月收入x 的线性回归方程y ^=b ^x +a ^;

(2)判断变量x 与y 之间是正相关还是负相关;

(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.

解:(1)依题意得:

b ^=∑i =1

n

x i y i -n x - y

-∑i =1

n

x 2i -n x

-2

=184-10×8×2

720-10×82=0.3,

a ^=y --

b ^x -=2-0.3×8=-0.4,

故所求回归方程为y =0.3x -0.4.

(2)由于变量y 的值随x 的值增加而增加(b ^=0.3>0),故x 与y 之间是正相关.

(3)将x =7代入回归方程可以预测该家庭的月储蓄为y =0.3×7-0.4=1.7(千元).

本文来源:https://www.bwwdw.com/article/4kdi.html

Top