3.2独立性检验的基本思想及其初步应用(一)1

更新时间:2023-05-15 18:09:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

高中数学

3.2独立性检验的 独立性检验的 基本思想及其初 步应用( 步应用(一)高二数学 选修2-3

第三章

统计案例

高中数学

两种变量:定量变量:体重、身高、温度、考试成绩等等。 定量变量:体重、身高、温度、考试成绩等等。 分类变量:性别、是否吸烟、是否患肺癌、 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。 宗教信仰、国籍等等。 在日常生活中,我们常常关心分类变量之间是否有关系: 在日常生活中,我们常常关心分类变量之间是否有关系: 分类变量之间是否有关系 例如,吸烟是否与患肺癌有关系? 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。 性别是否对于喜欢数学课程有影响?等等。

研究两个变量的相关关系:定量变量——回归分析(画散点图、相关系数r ——回归分析 定量变量——回归分析(画散点图、相关系数r、 相关指数R 残差分析) 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验 分类变量——

本节研究的是两个分类变量的独立性检验问题。

高中数学

探究

列联表

为了调查吸烟是否对肺癌有影响, 为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965 9965人 得到如下结果(单位: 地调查了9965人,得到如下结果(单位:人)吸烟与肺癌列联表 不患肺癌 不吸烟 吸烟 总计 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965

在不吸烟者中患肺癌的比重是 在吸烟者中患肺癌的比重是

0.54% 2.28%

说明:吸烟者和不吸烟者患肺癌的可能性存在差异, 说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。 肺癌的可能性大。

高中数学

通过图形直观判断两个分类变量是否相关: 1、列联表 2、三维柱形图不吸烟 吸烟 总计 不患肺癌 7775 2099 9874 患肺癌 42 49 91 总计 7817 2148 9965

3、二维条形图8000 7000 6000 5000 4000 不患肺癌 患肺癌

不吸烟 吸烟 不患肺癌 患肺癌

3000 2000 1000

0 从三维柱形图能清晰看出 各个频数的相对大小。 各个频数的相对大小。

不吸烟

吸烟

从二维条形图能看出, 从二维条形图能看出,吸烟者中 患肺癌的比例高于不患肺癌的比例。 患肺癌的比例高于不患肺癌的比例。

高中数学

4、等高条形图1 0.9

0.8

患肺癌 比例

0.7

0.6

0.5

0.4

0.3

0.2

不患肺癌 比例不不不 不不

0.1

0

不吸烟

吸烟

等高条形图更清晰地表达了两种情况下患肺癌的比例。

高中数学

上面我们通过分析数据和图形, 上面我们通过分析数据和图形,得到的直观印象是吸烟和 患肺癌有关,那么事实是否真的如此呢? 患肺癌有关 , 那么事实是否真的如此呢 ?

这需要用统计观点 来考察这个问题。 来考察这个问题。 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关” 现在想要知道能够以多大的把握认为“吸烟与患肺癌有关”, 为此先假设

H0:吸烟与患肺癌没有关系 吸烟与患肺癌没有关系.表示不吸烟, 表示不患肺癌 表示不患肺癌, 吸烟与患肺癌没有关系” 用A表示不吸烟,B表示不患肺癌,则“吸烟与患肺癌没有关系” 表示不吸烟 等价于“吸烟与患肺癌独立” 等价于“吸烟与患肺癌独立”,即假设H0等价于 P(AB)=P(A)P(B). 把表中的数字用字母代替, 把表中的数字用字母代替,得到如下用字母表示的列联表 不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d

不吸烟 吸烟 总计

高中数学

不吸烟 吸烟 总计

不患肺癌 a c a+c

患肺癌 b d b+d

总计 a+b c+d a+b+c+d

在表中, 恰好为事件 发生的频数; 恰好为事件AB发生的频数 在表中,a恰好为事件 发生的频数;a+b和a+c恰好分别为事 和 恰好分别为事 发生的频数。 件A和B发生的频数。由于频率接近于概率,所以在 0成立的条 和 发生的频数 由于频率接近于概率,所以在H 件下应该有 P(A) ≈ a + b , P(B) ≈ a + c , P(AB) ≈ a . n n n

a a+b a+c ∴ ≈ × 其中n = a + b + c + d为样本容量,即 n n n

(a+b+c+d)a ≈(a+b) (a+c),

即ad ≈ bc因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; 越小,说明吸烟与患肺癌之间关系越弱; 因此 越小 |ad-bc|越大,说明吸烟与患肺癌之间关系越强。 越大,说明吸烟与患肺癌之间关系越强。 越大

高中数学

独立性检验为了使不同样本容量的数据有统一的评判标准, 为了使不同样本容量的数据有统一的评判标准,基于上述分 我们构造一个随机变量-----卡方统计量 析,我们构造一个随机变量

n(ad bc) , (1) K = ) (a + b)(c + d)(a + c)(b + d)2 2

其中n = a + b + c + d为样本容量。成立, 吸烟与患肺癌没有关系” 应很小。 若 H0成立,即“吸烟与患肺癌没有关系”,则K2应很小。根据表3-7中的数据,利用公式( )计算得到K 的观测值为: 根据表 中的数据,利用公式(1)计算得到 2的观测值为: 中的数据

9965(7775×49 42× 2099) k= ≈ 56.632 7817× 2148×9874×912

(2) )

那么这个值到底能告诉我们什么呢? 那么这个值到底能告诉我们什么呢?

高中数学

成立的情况下, 在H0成立的情况下,统计学家估算出如下的概率 即在H 成立的情况下, 的值大于6.635的概率非常小, 近似 的概率非常小, 即在 0 成立的情况下 , K2 的值大于 的概率非常小 于0.01。 。 也就是说, 成立的情况下,对随机变量K 也就是说,在H0成立的情况下,对随机变量 2进行多次观 观测值超过6.635的频率约为 的频率约为0.

01。 测,观测值超过 的频率约为 。

P(K2 ≥ 6.635) ≈ 0.01.

(2)

思考如果K 2 ≥ 6.635,就断定H 0不成立,这种判断出错的可能性有多大 ?

答:判断出错的概率为0.01。9965(7775× 49 42× 2099)2 ≈ 56.632太大了, 太大了, 现在观测值k = 7817× 2148×9874×91 成立的情况下能够出现这样的观测值的概率不超过0 01, 在H0成立的情况下能够出现这样的观测值的概率不超过0.01, 因此我们有99% 不成立,即有99 的把握认为“ 99% 因此我们有99%的把握认为H0不成立,即有99%的把握认为“吸烟 99 与患肺癌有关系” 与患肺癌有关系”。

高中数学

判断 H0是否成立的规则不成立, 如果 k ≥ 6.635 ,就判断 H 0 不成立,即认为吸烟与 患肺癌有关系;否则, 成立, 患肺癌有关系;否则,就判断 H 0 成立,即认为吸烟 与患肺癌有关系。 与患肺癌有关系。

H0 在该规则下,把结论“ 成立”错判成“ 在该规则下,把结论“H 0 成立”错判成“ 2 P( 成立” 成立”的概率不会差过K ≥ 6.635) ≈ 0.01, 即有99%的把握认为 H 0不成立。 即有 的把握认为 不成立。

独立性检验的定义上面这种利用随机变量K 上面这种利用随机变量 2来确定在多大程度上 可以认为“两个分类变量有关系”的方法, 可以认为“两个分类变量有关系”的方法,称为两 个分类变量的独立性检验 独立性检验。 个分类变量的独立性检验。

高中数学

独立性检验的基本思想(类似反证法) 独立性检验的基本思想(类似反证法) 反证法(1)假设结论不成立, (1)假设结论不成立,即 H 0 : “两个分类变量没有关系”. 假设结论不成立 (2)在此假设下我们所构造的随机变量 应该很小, (2)在此假设下我们所构造的随机变量 K2 应该很小,如果由 的观测值k很大, 观测数据计算得到K2的观测值k很大,则在一定可信程度上 不成立.即在一定可信程度上认为“ 说明 H 0 不成立.即在一定可信程度上认为“两个分类变量 有关系” 如果k的值很小, 有关系”;如果k的值很小,则说明由样本观测数据没有发现 反对 0 的充分证据。 H 的充分证据。 (3)根据随机变量K 的含义, (3)根据随机变量K2的含义,可以通过评价该假设不合理的 根据随机变量 程度,由实际计算出的,说明假设不合理的程度为1%, 1%,即 程度,由实际计算出的,说明假设不合理的程度为1%,即“两 个分类变量有关系”这一结论成立的可信度为约为99%. 个分类变量有关系”这一结论成立的可信度为约为99%.

高中数学

的观测值k是大还是小呢 是大还是小呢? 怎样判断K2的观测值 是大还是小呢?这仅需要确定一个正数 k0 ,当 k ≥ k0 时就认为K2的观测 的判断规则为: 值 k大。此时相应于 k0 的判断规则为: 大0

就认为“两

个分类变量之间有关系” 如果 k ≥ k0 ,就认为“两个分类变量之间有关系”;否则 就认为“两个分类变量之间没有关系” ----临界值 就认为“两个分类变量之间没有关系”。 临界值 k

按照上述规则,把“两个分类变量之间没有关系”错误的判断 按照上述规则, 两个分类变量之间没有关系” 两个分类变量之间有关系”的概率为P( ). 为“两个分类变量之间有关系”的概率为 2 ≥ k K0

在实际应用中, 在实际应用中,我们把 k ≥ k0解释为有(1 P( K 2 ≥ k )) × 100% 的把握认为“两个分类变量之间有关系”;把 < k0 解释为 的把握认为“两个分类变量之间有关系” k 的把握认为“ 不能以 P( K 2 ≥ k )) ×100% 的把握认为“两个分类变量 (1 之间有关系” 或者样本观测数据没有提供“ 之间有关系”,或者样本观测数据没有提供“两个分类变量 之间有关系”的充分证据。 之间有关系”的充分证据。

高中数学

思考: 思考:利用上面的结论, 利用上面的结论,你能从列联表的三维柱形图中 看出两个分类变量是否相关呢? 看出两个分类变量是否相关呢? 一般地, 假设有两个分类变量X和 , 一般地 , 假设有两个分类变量 和 Y, 它们的值域 分别为{x 其样本频数列联表( 分别为 1,x2}和{y1,y2},其样本频数列联表 ( 称为 和 其样本频数列联表 称为2x2列 列 联表) 联表)为: 表1-11 2x2联表 联表x1 x2 总计 y1 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d

高中数学

若要判断的结论为:H1 :“X与Y有关系”,可以 按如下步骤判断H1成立的可能性: 1、 通过三维柱形图和二维条形图 , 可以粗略地判断两个变 通过三维柱形图和二维条形图,量是否有关系,但是这种判断无法精确地给出所得结论的可靠 量是否有关系 但是这种判断无法精确地给出所得结论的可靠 程度。 程度。 (1)在三维柱形图中, 主对角线上两个柱形高度的乘积 )在三维柱形图中, ad与副对角线上两个柱形高度的乘积 相差越大,H1成立的 与副对角线上两个柱形高度的乘积bc相差越大 与副对角线上两个柱形高度的乘积 相差越大, 可能性就越大。 可能性就越大。 a a+b c 可以估计满足条件X=x1的个体中具 (2)在二维条形图中 可以估计满足条件 )在二维条形图中,可以估计满足条件 a c+d 也可以估计满足条件X=x2 有Y=y1的个体所占的比例 a + b ,也可以估计满足条件 c 的个体中具有Y=y1的个体所占的比例c + d 。两个比例相差越 的个体中具有 成立的可能性就越大。 大,H1成立的可能性就越大。

2、可以利用独立性检验来考察两个分类变量是否有关系 ,并 可以利用独立性检验来考察两个分类变量是否有关系,且能较精确地给出这种判

断的可靠程度。 且能较精确地给出这种判断的可靠程度。

高中数学

具体作法是: 具体作法是: (1)根据实际问题需要的可信程度确定临界值 k0; 根据实际问题需要的可信程度确定临界值 (2)利用公式 ,由观测数据计算得到随机变量 K 2 的观测值; 利用公式(1), 的观测值; 利用公式 (3)如果 k > k0 ,就以 (1 P ( K ≥ k0 )) × 100%的把握认为“X 如果 的把握认为“ 有关系” 否则就说样本观测数据没有提供“ 与 有关系 有关系” 与Y有关系”;否则就说样本观测数据没有提供“X与Y有关系” 有关系 的充分证据。 的充分证据。2

在实际应用中,要在获取样本数据之前通过下表确定临界值: 在实际应用中,要在获取样本数据之前通过下表确定临界值:P(K 2 ≥ k0 )

k0P(K 2 ≥ k0 )

0.50 0.40 0.25 0.15 0.455 0.708 1.323 2.072 0.05 0.025 0.010 0.005 3.841 5.024 6.636 7.879

0.10 2.706 0.001 10.828

k0

本文来源:https://www.bwwdw.com/article/rky4.html

Top