3.2独立性检验的基本思想及其初步应用(一)1
更新时间:2023-05-15 18:09:01 阅读量: 实用文档 文档下载
高中数学
3.2独立性检验的 独立性检验的 基本思想及其初 步应用( 步应用(一)高二数学 选修2-3
第三章
统计案例
高中数学
两种变量:定量变量:体重、身高、温度、考试成绩等等。 定量变量:体重、身高、温度、考试成绩等等。 分类变量:性别、是否吸烟、是否患肺癌、 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。 宗教信仰、国籍等等。 在日常生活中,我们常常关心分类变量之间是否有关系: 在日常生活中,我们常常关心分类变量之间是否有关系: 分类变量之间是否有关系 例如,吸烟是否与患肺癌有关系? 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。 性别是否对于喜欢数学课程有影响?等等。
研究两个变量的相关关系:定量变量——回归分析(画散点图、相关系数r ——回归分析 定量变量——回归分析(画散点图、相关系数r、 相关指数R 残差分析) 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验 分类变量——
本节研究的是两个分类变量的独立性检验问题。
高中数学
探究
列联表
为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)吸烟与肺癌列联表 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是
0.54% 2.28%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。 肺癌的可能性大。
高中数学
通过图形直观判断两个分类变量是否相关: 1、列联表 2、三维柱形图不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965
3、二维条形图8000 7000 6000 5000 4000 不患肺癌 患肺癌
不吸烟 吸烟 不患肺癌 患肺癌
3000 2000 1000
0 从三维柱形图能清晰看出 各个频数的相对大小。 各个频数的相对大小。
不吸烟
吸烟
从二维条形图能看出, 从二维条形图能看出,吸烟者中 患肺癌的比例高于不患肺癌的比例。 患肺癌的比例高于不患肺癌的比例。
高中数学
4、等高条形图1 0.9
0.8
患肺癌 比例
0.7
0.6
0.5
0.4
0.3
0.2
不患肺癌 比例不不不 不不
0.1
0
不吸烟
吸烟
等高条形图更清晰地表达了两种情况下患肺癌的比例。
高中数学
上面我们通过分析数据和图形, 上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢? 患肺癌有关 , 那么事实是否真的如此呢 ?
这需要用统计观点 来考察这个问题。 来考察这个问题。 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关” 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设
H0:吸烟与患肺癌没有关系 吸烟与患肺癌没有关系.表示不吸烟, 表示不患肺癌 表示不患肺癌, 吸烟与患肺癌没有关系” 用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系” 表示不吸烟 等价于“吸烟与患肺癌独立” 等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B). 把表中的数字用字母代替, 把表中的数字用字母代替,得到如下用字母表示的列联表 不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d
不吸烟 吸烟 总计
高中数学
不吸烟 吸烟 总计
不患肺癌 a c a+c
患肺癌 b d b+d
总计 a+b c+d a+b+c+d
在表中, 恰好为事件 发生的频数; 恰好为事件AB发生的频数 在表中,a恰好为事件 发生的频数;a+b和a+c恰好分别为事 和 恰好分别为事 发生的频数。 件A和B发生的频数。由于频率接近于概率,所以在 0成立的条 和 发生的频数 由于频率接近于概率,所以在H 件下应该有 P(A) ≈ a + b , P(B) ≈ a + c , P(AB) ≈ a . n n n
a a+b a+c ∴ ≈ × 其中n = a + b + c + d为样本容量,即 n n n
(a+b+c+d)a ≈(a+b) (a+c),
即ad ≈ bc因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; 越小,说明吸烟与患肺癌之间关系越弱; 因此 越小 |ad-bc|越大,说明吸烟与患肺癌之间关系越强。 越大,说明吸烟与患肺癌之间关系越强。 越大
高中数学
独立性检验为了使不同样本容量的数据有统一的评判标准, 为了使不同样本容量的数据有统一的评判标准,基于上述分 我们构造一个随机变量-----卡方统计量 析,我们构造一个随机变量
n(ad bc) , (1) K = ) (a + b)(c + d)(a + c)(b + d)2 2
其中n = a + b + c + d为样本容量。成立, 吸烟与患肺癌没有关系” 应很小。 若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。根据表3-7中的数据,利用公式( )计算得到K 的观测值为: 根据表 中的数据,利用公式(1)计算得到 2的观测值为: 中的数据
9965(7775×49 42× 2099) k= ≈ 56.632 7817× 2148×9874×912
(2) )
那么这个值到底能告诉我们什么呢? 那么这个值到底能告诉我们什么呢?
高中数学
成立的情况下, 在H0成立的情况下,统计学家估算出如下的概率 即在H 成立的情况下, 的值大于6.635的概率非常小, 近似 的概率非常小, 即在 0 成立的情况下 , K2 的值大于 的概率非常小 于0.01。 。 也就是说, 成立的情况下,对随机变量K 也就是说,在H0成立的情况下,对随机变量 2进行多次观 观测值超过6.635的频率约为 的频率约为0.
01。 测,观测值超过 的频率约为 。
P(K2 ≥ 6.635) ≈ 0.01.
(2)
思考如果K 2 ≥ 6.635,就断定H 0不成立,这种判断出错的可能性有多大 ?
答:判断出错的概率为0.01。9965(7775× 49 42× 2099)2 ≈ 56.632太大了, 太大了, 现在观测值k = 7817× 2148×9874×91 成立的情况下能够出现这样的观测值的概率不超过0 01, 在H0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99% 不成立,即有99 的把握认为“ 99% 因此我们有99%的把握认为H0不成立,即有99%的把握认为“吸烟 99 与患肺癌有关系” 与患肺癌有关系”。
高中数学
判断 H0是否成立的规则不成立, 如果 k ≥ 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则, 成立, 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。 与患肺癌有关系。
H0 在该规则下,把结论“ 成立”错判成“ 在该规则下,把结论“H 0 成立”错判成“ 2 P( 成立” 成立”的概率不会差过K ≥ 6.635) ≈ 0.01, 即有99%的把握认为 H 0不成立。 即有 的把握认为 不成立。
不
独立性检验的定义上面这种利用随机变量K 上面这种利用随机变量 2来确定在多大程度上 可以认为“两个分类变量有关系”的方法, 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验 独立性检验。 个分类变量的独立性检验。
高中数学
独立性检验的基本思想(类似反证法) 独立性检验的基本思想(类似反证法) 反证法(1)假设结论不成立, (1)假设结论不成立,即 H 0 : “两个分类变量没有关系”. 假设结论不成立 (2)在此假设下我们所构造的随机变量 应该很小, (2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 的观测值k很大, 观测数据计算得到K2的观测值k很大,则在一定可信程度上 不成立.即在一定可信程度上认为“ 说明 H 0 不成立.即在一定可信程度上认为“两个分类变量 有关系” 如果k的值很小, 有关系”;如果k的值很小,则说明由样本观测数据没有发现 反对 0 的充分证据。 H 的充分证据。 (3)根据随机变量K 的含义, (3)根据随机变量K2的含义,可以通过评价该假设不合理的 根据随机变量 程度,由实际计算出的,说明假设不合理的程度为1%, 1%,即 程度,由实际计算出的,说明假设不合理的程度为1%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%. 个分类变量有关系”这一结论成立的可信度为约为99%.
高中数学
的观测值k是大还是小呢 是大还是小呢? 怎样判断K2的观测值 是大还是小呢?这仅需要确定一个正数 k0 ,当 k ≥ k0 时就认为K2的观测 的判断规则为: 值 k大。此时相应于 k0 的判断规则为: 大0
就认为“两
个分类变量之间有关系” 如果 k ≥ k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系” ----临界值 就认为“两个分类变量之间没有关系”。 临界值 k
按照上述规则,把“两个分类变量之间没有关系”错误的判断 按照上述规则, 两个分类变量之间没有关系” 两个分类变量之间有关系”的概率为P( ). 为“两个分类变量之间有关系”的概率为 2 ≥ k K0
在实际应用中, 在实际应用中,我们把 k ≥ k0解释为有(1 P( K 2 ≥ k )) × 100% 的把握认为“两个分类变量之间有关系”;把 < k0 解释为 的把握认为“两个分类变量之间有关系” k 的把握认为“ 不能以 P( K 2 ≥ k )) ×100% 的把握认为“两个分类变量 (1 之间有关系” 或者样本观测数据没有提供“ 之间有关系”,或者样本观测数据没有提供“两个分类变量 之间有关系”的充分证据。 之间有关系”的充分证据。
高中数学
思考: 思考:利用上面的结论, 利用上面的结论,你能从列联表的三维柱形图中 看出两个分类变量是否相关呢? 看出两个分类变量是否相关呢? 一般地, 假设有两个分类变量X和 , 一般地 , 假设有两个分类变量 和 Y, 它们的值域 分别为{x 其样本频数列联表( 分别为 1,x2}和{y1,y2},其样本频数列联表 ( 称为 和 其样本频数列联表 称为2x2列 列 联表) 联表)为: 表1-11 2x2联表 联表x1 x2 总计 y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d
高中数学
若要判断的结论为:H1 :“X与Y有关系”,可以 按如下步骤判断H1成立的可能性: 1、 通过三维柱形图和二维条形图 , 可以粗略地判断两个变 通过三维柱形图和二维条形图,量是否有关系,但是这种判断无法精确地给出所得结论的可靠 量是否有关系 但是这种判断无法精确地给出所得结论的可靠 程度。 程度。 (1)在三维柱形图中, 主对角线上两个柱形高度的乘积 )在三维柱形图中, ad与副对角线上两个柱形高度的乘积 相差越大,H1成立的 与副对角线上两个柱形高度的乘积bc相差越大 与副对角线上两个柱形高度的乘积 相差越大, 可能性就越大。 可能性就越大。 a a+b c 可以估计满足条件X=x1的个体中具 (2)在二维条形图中 可以估计满足条件 )在二维条形图中,可以估计满足条件 a c+d 也可以估计满足条件X=x2 有Y=y1的个体所占的比例 a + b ,也可以估计满足条件 c 的个体中具有Y=y1的个体所占的比例c + d 。两个比例相差越 的个体中具有 成立的可能性就越大。 大,H1成立的可能性就越大。
2、可以利用独立性检验来考察两个分类变量是否有关系 ,并 可以利用独立性检验来考察两个分类变量是否有关系,且能较精确地给出这种判
断的可靠程度。 且能较精确地给出这种判断的可靠程度。
高中数学
具体作法是: 具体作法是: (1)根据实际问题需要的可信程度确定临界值 k0; 根据实际问题需要的可信程度确定临界值 (2)利用公式 ,由观测数据计算得到随机变量 K 2 的观测值; 利用公式(1), 的观测值; 利用公式 (3)如果 k > k0 ,就以 (1 P ( K ≥ k0 )) × 100%的把握认为“X 如果 的把握认为“ 有关系” 否则就说样本观测数据没有提供“ 与 有关系 有关系” 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 有关系 的充分证据。 的充分证据。2
在实际应用中,要在获取样本数据之前通过下表确定临界值: 在实际应用中,要在获取样本数据之前通过下表确定临界值:P(K 2 ≥ k0 )
k0P(K 2 ≥ k0 )
0.50 0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.05 0.025 0.010 0.005 3.841 5.024 6.636 7.879
0.10 2.706 0.001 10.828
k0
正在阅读:
成功人士的9大习惯11-11
电池英语及翻译 专业术语09-16
2006年国法司法考试大纲05-20
2015年高教社杯全国大学生数学建模竞赛获奖名单初稿 - 图文12-17
中国传统文化的作文300字05-09
北京合九千律师事务所网站建设05-17
实施乡村净化工程+构建文明和谐社会06-02
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 独立性
- 初步
- 检验
- 及其
- 思想
- 基本
- 应用
- 3.2
- LedshowTW图文编辑软件使用手册
- 中央电大“开放本科“《土木工程力学(本)》 试题及答案期末复习资料
- ZY32001434掩护式液压支架的设计
- 《健美操》课程标准
- 关于消毒供应室的整改措施
- 舆情信息工作资料
- 小学五年级下册数学期末考试卷
- 2015新版PEP人教版五年级下册英语全册教案
- 概率论课后习题答案_北京邮电大学版
- Thermo_3111型CO2培养箱操作方法
- 《财务管理学》全
- 家庭贫困学生证明要求(史上最全版)---助学金申请书
- 初一上学期个人总结(精选多篇)
- 第三章 井田开拓
- 高中政治答题模板
- 团代会领导讲话稿
- 浅谈儿童玩具书的发展与设计方法
- 断提高机关事务管理水平
- 智能车辆发展及其关键技术研究现状
- C综合设计报告电子元器件管理系统