第三章 统计案例学案(学生版)

更新时间:2023-05-30 14:08:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

选修2-1 第一章 统计案例学案(学生版)

1.1 回归分析的基本思想及其初步应用(1)

学习目标:

(1)通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.

(2)了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法:相关指数和残差分析.

(3)了解评价回归效果的两个统计量:总偏差平方和、残差平方和.

学习重点:了解线性回归模型与函数模型的差异,了解判断刻画模型拟合效果的方法:相关指数和残差分析.

i的含义. 学习难点:解释随机误差e和残差e

学习过程: 一、课前准备

(一)、复习必修3的“变量间的相关关系”内容,注意以下内容:

1.相关关系:自变量取值一定时,因变量的取值带有一定 的两个变量之间的关系叫做相关关系;

2.函数关系中两个变量的关系是 ,相关关系中的两个变量的关系是 .

3.两个变量的线性相关:

(1)散点图:将样本中n个数据点(xi,yi)(i 1,2,3, n)描在坐标系中得到的图形.

(2)正相关与负相关:①正相关:散点图中的点散布在从 到 的区域;②负相关:散点图中的点散布在从 到 的区域.

4. 回归直线的方程:

(1)如果散点图中的分布从整体上看大致在 附近,就称这两个变量之间具有 关系,这条直线叫做回归直线.

(2)回归方程: 对应的方程叫做回归直线的方程. (3)回归方程的推导过程:

①假设已经得到两个具有线性相关关系的变量的一组数据 , , , .

②设所求回归方程为 ,其中a、b是待定参数.

③由最小二乘法得b

(x x)(y y)

i

i

i 1

n

(x x)

i

i 1

n

,a y bx.

2

其中b回归方程的 ,a是 . (二)研究相关关系和回归分析的意义: 1. 提问:“名师出高徒”这句彦语的意思是什么?有名气的老师就一定能教出厉害的学生吗?这两者之间是否有关?

2. 函数关系是一种确定性关系,而相关关系是一种非确定性关系. 回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤:收集数据 作散点图 求回归直线方程 利用方程进行预报. 二、新课导学:

1.几个需要了解的概念:

(1)总偏差平方和、残差平方和、回归平方和:

①总偏差平方和:所有单个样本值与样本均值差的平方和,即②残差平方和:回归值与样本值差的平方和,即

n

(yi )2; i 1

n

(yi yi)2; i 1

( yi )2. i 1

n

③回归平方和:相应回归值与样本均值差的平方和,即 (2)要注意的问题: ①注意yi、 yi、y的区别;

②预报变量的变化程度可以分解为由解释变量引起的变化程度与残差变量的变化程度之

yi)2 ( yi )2; 和,即 (yi ) (yi

2

i 1

i 1

i 1

nnn

③当总偏差平方和相对固定时,残差平方和越小,则回归平方和越大,此时模型的拟合效

果越好;

④对于多个不同的模型,我们还可以引入相关指数R2 1

(yi yi)2 i 1

(yi )2 i 1

n

来刻画回归的效

果,它表示解释变量对预报变量变化的贡献率. R2的值越大,说明残差平方和越小,也

就是说模型拟合的效果越好. 2. 典型例题:

172cm的女大学生的体重.

【解析】①求回归方程并预报体重:

② 提问:身高为172cm的女大学生的体重一定是60.316kg吗? 答:

③ 解释线性回归模型与一次函数的不同. 答:

因此,一次函数模型是线性回归模型的特殊形式,线性回归模型是一次函数模型的一般形式.

【例2 】关于x与y有如下数据:

为了对x、y两个变量进行统计分析,现有以下两种线性模型: y 6.5x 17.5,

y 7x 17,试比较哪一个模型拟合的效果更好.

【分析】既可分别求出两种模型下的总偏差平方和、残差平方和、回归平方和,也可分别

求出两种模型下的相关指数,然后再进行比较,从而得出结论. 【解析】

三、总结提升:

(1)求线性回归方程的步骤、线性回归模型与一次函数的不同.

(2)分清总偏差平方和、残差平方和、回归平方和,初步了解如何评价两个不同模型拟合效果的好坏. 四、反馈练习

1. 在画两个变量的散点图时,下面哪个叙述是正确的 ( )

A.预报变量在x轴上,解释变量在y轴上 B.解释变量在x轴上,预报变量在y轴上 C.可选择两个变量中任一个变量在x轴上 D.可选择两个变量中任一个变量在y轴上 2. 一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为

y 7.19x 73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是 ( )

A.身高一定是145.83cm B.身高在145.83cm以上 C.身高在145.83cm以下 D.身高在145.83cm左右

3. 两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R如下 ,其中拟合效果最好的模型是 ( )

A.模型1的相关指数R为0.98 B.模型2的相关指数R为0.80 C.模型3的相关指数R为0.50 D.模型4的相关指数R为0.25

4. 在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是 ( ) A.总偏差平方和 B.残差平方和 C.回归平方和 D.相关指数R

2

2

2

2

2

2

60 90x,下列判5.工人月工资(元)依劳动生产率(千元)变化的回归直线方程为y

断正确的是 ( ) A.生产率为1000元时,工资为50元 B.生产率提高1000元时,工资提高150元 C.生产率提高1000元时,工资提高90元 D.生产率为1000元时,工资为90元 6

(1)线性回归方程;(2)估计使用年限为10年时,维修费用是多少? 【解析】

五、学后反思:

1.1回归分析的基本思想及其初步应用(2)

学习目标:通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用. 学习重点:通过探究使学生体会有些非线性模型通过变换可以转化为线性回归模型,了解在解决实际问题的过程中寻找更好的模型的方法.

学习难点:了解常用函数的图象特点,选择不同的模型建模,并通过比较相关指数对不同的模型进行比较. 教学过程:

一、复习准备:

1. 给出问题:一只红铃虫的产卵数y和温度x有关,现收集了7组观测数据列于下表中,试建立y与x之间的回归方程.

2. 讨论:观察上面的散点图,发现样本点并没有分布在某个带状区域内,即两个变量不呈线性相关关系,所以不能直接用线性回归方程来建立两个变量之间的关系. 二、新课导学:

1. 探究非线性回归方程的确定: 方法一:

① 如果散点图中的点分布在一个直线状带形区域,可以选线性回归模型来建模;如果散点图中的点分布在一个曲线状带形区域,就需选择非线性回归模型来建模.

② 根据已有的函数知识,可以发现样本点分布在某一条指数函数曲线y=y C1e

C2x的周围(其中c1,c2是待定的参数),故可用指数函数模型来拟合这两个变量. ③ 在上式两边取对数,得

lny c2x lnc1,再令而z与x间的关系如下:

z lny,则z c2x lnc1,

归方程来拟合.

④ 利用计算器算得a 3.843,b 0.272,z与x间的线性回归方程为 z 0.272x 3.843,因此红铃虫的产卵数对温度的非线性回归方程为 y e0.272x 3.843. ⑤ 利用回归方程探究非线性回归问题,可按“作散点图 建模 确定方程”这三个步骤进行.

其关键在于如何通过适当的变换,将非线性回归问题转化成线性回归问题.

方法二:上面我们选择用指数函数模型来拟合红铃虫的产卵数y和温度x间的关系,还可用其它函数模型来拟合吗?

用二次函数模型y c3x2 c4来拟合上述两个变量间的关系吗(令t x2,则

y c3t c4,此时y与t间的关系如下:

观察y与t的散点图,可以发现样本点并不分布在一条直线的周围,因此不宜用线性回归

方程来拟合它,即不宜用二次曲线y c3x2 c4来拟合y与x之间的关系. ) 2.上例中的残差分析:

一般情况下,比较两个模型的残差比较困难(某些样本点上一个模型的残差的绝对值比另一个模型的小,而另一些样本点的情况则相反),故通过比较两个模型的残差的平方和的大小来判断模型的拟合效果. 残差平方和越小的模型,拟合的效果越好.

也就是说,我们可以通过观察变换后的散点图来判断能否用此种模型来拟合. 事实上,除了观察散点图以外,我们也可先求出函数模型,然后利用残差分析的方法来比较模型的好坏.

四、反馈练习:

1. 炼钢时钢水的含碳量与冶炼时间有 ( )

A.确定性关系 B.相关关系 C.函数关系 D.无任何关系 2.下列说法正确的有 ( )

①回归方程适用于一切样本和总体; ②回归方程一般都有适用范围;

③样本取值的范围会影响回归方程的适用范围; ④回归方程得到的预报值是预报变量的精确值.

A. ①② B. ②③ C. ③④ D. ①③ 3.下列结论正确的是 ( )

①函数关系是一种确定性关系; ②相关关系是一种非确定性关系 ③回归分析是对具有函数关系的两个变量进行统计分析的一种方法

④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法。 A. ①② B. ①②③ C. ①②④ D. ①②③④ 4.设有一个回归方程为y=2-2.5x,则变量x增加一个单位时( ) A.y平均增加2.5个单位 B.y平均增加2个单位 C.y平均减少2.5个单位 D.y平均减少2个单位

5.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的是( ) A. y 1.23x+4 B. y 1.23x 5 C. y 1.23x 0.08 D. y 0.08x 1.236. 已知x与y之间的一组数据:

则y与x的线性回归方程为y 必过( )

A.(2,2)点 B.(1.5,0)点 C.(1,2)点 D.(1.5,4)点

五、学后反思:

1.2独立性检验的基本思想及其初步应用

学习目标:通过探究“吸烟是否与患肺癌有关系”引出独立性检验的问题,并借助样本数据的列联表展示,让学生亲身体验独立性检验的实施步骤与必要性. 学习重点:理解独立性检验的基本思想及实施步骤.

学习难点:了解独立性检验的基本思想、了解随机变量K的含义. 学习过程:

一、课前准备:

某医疗机构为了解吸烟与患肺癌是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人,不吸烟者295人. 调查结果是:吸烟的220人中有37人患肺癌,183人未患肺癌;不吸烟的295人中有21人患肺癌,274人未患肺癌.

问题1:吸烟与不吸烟,患肺癌的可能性的大小是否有差异? 为了研究这个问题,我们将上述数据用下表表示:

问题2:差异大到什么程度才能作出“吸烟与患肺癌有关”的判断? 问题3:能否用数量刻画出“有关”的程度?

二、新课导学: (一)独立性检验:

1.独立性检验的含义:用K统计量研究吸烟与患肺癌是否有关、用药效果与用药方式是否有关、性别与数学成绩是否有关等这类问题的方法称为独立性检验. 2. 卡方统计量

2

2

n(ad bc)2

卡方统计量: K

(a b)(c d)(a c)(b d)

2

其中n a b c d为样本量.如果两个变量x1与x2无关系,则K的值应该很小. 3. 用独立性检验来考察“x1与x2是否有关系”的步骤: (1)提出假设H0:x1与x2没有关系;

2

(2)根据2×2列联表与公式计算K的值; (3)查对临界值表作出判断.

2

4. 临界值表:

2

例如:(1)K 10.828,则有 ______ 的把握认为“x1与x2”有关系;

(2)K 6.635,则有 ______ 的把握认为“x1与x2”有关系; (3)K 2.706,则有 ______ 的把握认为“x1与x2”有关系;

(4)K 2.706,则认为没有充分的证据显示“x1与x2”有关系,但也不能作出结论“H0成立”,即不能认为“x1与x2”没有关系.

(二)典型例题

【例1】在对人们饮食习惯的一次调查中,共调查了124人,其中六十岁以上的70人,六十岁以下的54人,六十岁以上的人中有43人的饮食以蔬菜为主,另外27人则以肉类为主;六十岁以下的人中有21人饮食以蔬菜为主,另外33人则以肉类为主.(1)根据以上数

2的列联表;据建立一个2×(2)判断人的饮食习惯是否与年龄有关. 【解析】

动动手:在一次恶劣气候的飞机航程中,调查了男女乘客在飞机上晕机的情况:男乘客晕机

的有24人,不晕机的有31人;女乘客晕机的有8人,不晕机的有26人.请你根据所给数据判断是否在恶劣气候飞行中,男人比女人更容易晕机. 【解析】

三、总结提升:独立性检验的方法、原理、步骤.

222

四、反馈练习:

1.独立性检验中的统计假设就是假设相关事件A、B ( )

A.互斥 B.不互斥 C.相互独立 D.不独立 2.下列说法中正确的是 ( )

①独立性检验的基本思想是带有概率性质的反证法;②独立性检验就是选取一个假设H0条件下的小概率事件,若在一次试验中该事件发生了,这是与实际推断相抵触的“不合理”现象,则作出拒绝H0的推断;③独立性检验一定能给出明确的结论.

A. ①② B.①③ C.②③ D.①②③

3.给出假设H0,下列结论中不能对H0成立与否作出明确判断的是 ( )

2222

A.K=2.535 B.K=7.723 C.K=10.321 D.K=20.125 4.某班主任对全班50名学生进行了作业量的

调查,数据如下表:

则学生的性别与作业量的大小有关系的把握

大约为( )

A.99% B.95% C.)90% D.无充分根据

5.

A.种子经过处理跟是否生病有关 B.种子经过处理跟是否生病无关 C.种子是否经过处理决定是否生病 D.以上都是错误的

6.某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表:

50 (13 20 10 7)2

K 4.844,因为K2 3.841,所以判定主修统计专业与性别

23 27 20 30

2

有关系,那么这种判断出错的可能性为____ .

7.在性别与吃零食这两个分类变量的计算中,下列说法正确的是

①若的观测值为K2=6.635,我们有99%的把握认为吃零食与性别有关系,那么在100个吃零食的人中必有99人是女性;

②从独立性检验可知有99%的把握认为吃零食与性别有关系时,我们说某人吃零食,那么

此人是女性的可能性为99%;

③若从统计量中求出有99%的把握认为吃零食与性别有关系,是指有1%的可能性使得出的判断出现错误.

8.下列关于K2的说法中,正确的是 .

①K在任何相互独立问题中都可以用于检验是否相关;②K越大,两个事件的相关性越大;③K是用来判断两个相互独立事件相关与否的一个统计量,它可以用来判断两个事件是否相关这一类问题.

9 .在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.

(1)根据以上数据建立一个2×2的列联表;(2)判断性别与休闲方式是否有关系. 【解析】

五、学后反思

2

2

2

统计案例习题课

学习目标:1. 通过典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用; 2. 通过练习和样本数据的列联表展示,让学生进一步体验独立性检验的实施步骤与必要性.

学习重点:解决线性回归问题的方法与步骤;理解独立性检验的基本思想及实施步骤. 学习难点:解决线性回归问题的方法与步骤;了解独立性检验的基本思想、了解随机变量

K2的含义.

教学过程: 一、课前准备:

阅读教材第一章的内容,并做如下练习:

1.长方形的面积一定时,长和宽具有 ( )

A.不确定性关系 B.相关关系 C.函数关系 D.无任何关系 2. 三点(3,10)、(7,20)、(11,24)的线性回归方程是 ( )

A.y 5 17x B.y 5.75 1.75x C.y 17 5x D.y 5.75 1.75x 3. 在吸烟与患肺病这两个分类变量的计算中,下列说法中正确的是( )

A. 若统计量K 6.635,我们有99%的把握说吸烟与患肺病有关,则某人吸烟,那么他有99%的可能患有肺病

B. 若从统计中求出,有99%的把握说吸烟与患肺病有关,则在100个吸烟者中必有99人患有肺病

C. 若从统计量中求出有95%把握说吸烟与患肺病有关,是指有5%的可能性使得推断错误 D. 以上说法均错误

4. 若由一个2 2列联表中的数据计算得K 4.013,那么有变量有关系. 二、典型例题:

【例1】一个车间为了规定工时定额,须要确定加工零件所花费的时间,为此进行了10次实验,测得的数据如下:

2

2

回归直线方程. (1)y与x具有线形相关关系,求

(2)并据此估计加工200个零件所用的时间为多少? 【解析】(1)x

10 20 30 40 50 60 70 80 90 100

55,

10

y

62 68 75 81 89 95 102 108 115 122

91.7,

10

2i

x

i 1

10

38500, y 87777, xiyi 55950.

2

ii 1

i 1

1010

设所求的回归直线方程为y bx a,同时,利用上表可得

b

xy 10xy 55950 10 55 91.7 0.668,

38500 10 55 x 10xii2

i

2

2

a y bx 91.7 0.668 55 54.96.

即所求的回归直线方程为y 0.668x 54.96.

(2)当x 200时,y的估计值y 0.668 200 54.96 188.56 189. 故加工200个零件时所用的工时约为189个.

【例2】为考察高中生的性别与是否喜欢数学课程之间的关系,在某城市的某校高中生中随机抽取300名学生,得到如下列联表:

【解析】提出假设H0:性别与是否喜欢数学课程之间没有关系 根据列联表中的数据,可以求得

2

300 (37 143 85 35)K 4.514, 72 228 122 1782

因为当H0成立时,K 3.841的概率约为0.05,所以有95%的把握认为:性别与是否喜欢数学课程之间有关系.

【例3】对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:

2

试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.

【解析】提出假设:

H0:两种手术对病人又发作心脏病的影响没有差别. 根据列联表中的数据,可以求得

2

392 (3 916 7 29)1 51.778 K .

68 32 41 96196

2

当H0成立时K 1.78,而K 2.072的概率为0.85. 所以,不能否定假设H0,也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论.

三、总结提升

1. 掌握建立回归模型的步骤:

(1)确定研究对象,明确解释变量和预报变量;

(2)画出散点图,观察它们之间的关系(如是否存在线性关系等); (3)由经验确定回归方程的类型;

(4)按一定规则(如最小二乘法)估计回归方程中的参数;

(5)得出结果后残差图是否有异常,入欧存在异常,则检查数据是否有误,或模型是否合适等.

2.用独立性检验来考察“x1与x2是否有关系”的步骤: (1)提出假设H0:x1与x2没有关系; (2)根据2×2列联表与公式计算K的值; (3)查对临界值表作出判断.

2

22

n(ad bc)22

3. 利用K ,求出K的值,再利用临界值的大小关系来判

2

断假设是否成立,解题时应注意准确代数与计算,不可错用公式;准确进行比较与判断. 四、反馈练习:

1. 下列说法正确的是 ( ) A. 任何两种变量都具有相关关系

B.球的体积与该球的半径具有相关关系 C. 农作物的产量与施肥之间是一种确定性关系

D.某商品的生产量与该商品的销售价格之间是一种非确定性关系

2. 为了考察两个变量x和y之间的线性相关性,甲、乙两位同学各自独立地作了100次和150次试验,并且利用线性回归的方法,求得回归直线分别为l1和l2,已知两个人在试验中发现对变量x的观测数据的平均值都是m,对变量y的观测数据的平均值都是t,那么下列说法正确的是 ( )

A.l1与l2有交点(m,t) B. l1与l2相交,但交点不一定是(m,t) C. l1与l2必定平行 D. l1与l2必定垂直

3. 设有一个回归方程为y 3 5x,变量x增加一个单位时 ( ) A.y平均增加3个单位 B.y平均增加5个单位 C.y平均减少5个单位 D.y平均减少3个单位

4. 在一个2 2列联表中,由其数据计算得K 13.097,则其两个变量间有关系的可能性为 ( )

A.99% B.95% C.90% D.无关系

5. 变量x与y具有线性相关关系,当x取值16,14,12,8时,通过观测得到y的值分别为11,9,8,5,若在实际问题中,y的预报最大取值是10,则x的最大取值不能超过( )

A.16 B.17 C.15 D.12

6. 独立性检验所采用的思路是:要研究A、B两个分类变量彼此相关,首先假设这两个分类变量彼此 ,在此假设下构造K统计量. 如果K的观测值较大,那么在一定程度上说明假设 .

7.某大学在研究性别与职称(分正教授、副教授)之间是否有关系,你认为应该搜集那些数据?答: . 8. 为了研究某种新药的副作用(如恶心等),给50位患者服用此新药,另外50名患者服用安慰剂,得到下列实验数据:

2

2

2

请问服用新药是否可产生副作用? 【解析】

五、学后反思

本文来源:https://www.bwwdw.com/article/nm64.html

Top