定型数据分析习题答案
更新时间:2024-01-13 02:10:01 阅读量: 教育文库 文档下载
- 定性数据分析方法推荐度:
- 相关推荐
作业中的一些错误情况
1:解题过程不完整,没有明确指出所检验的假设和检验统计量。 2:算错检验统计量的值,或算错检验的p值。
(P27Ex2)
解法一:总体总共分3类,要检验顾客是否对这三种肉食的喜好程度相同,这是一个分布的拟合优度检验问题。
(1)要检验的原假设为 H0:顾客对这三种肉食的喜好程度相同,
?猪肉牛肉羊肉???即要检验H0:顾客对这三种肉食的喜好程度的分布为?111?,
??33??3(ni?npi0)2(2)取检验统计量???npi0i?123,检验分布为?(3?1);
2(3)题中n?200,npi0?200,i?1,2,3,则检验统计量的值为(计算过程略) 3200220022002(85?)(41?)(74?)2333?????15.73
2002002003332?0.05, (4)计算P值为: p值?P(?(2)?15.73)?0.000384
故在水平??0.05下拒绝H0,即调查数据不符合该均匀分布.
解法二(采用似然比检验+p值形式)
(1)要检验的原假设为 H0:顾客对这三种肉食的喜好程度相同,
?猪肉牛肉羊肉???即要检验H0:顾客对这三种肉食的喜好程度的分布为?111?,
??33??3(2)选取似然比检验统计量
rpi0npi02G??2ln???2?niln??2?niln?(r?1); ,检验分布为ninii?1i?1n2r(3)题中n?200,npi0?200,i?1,2,3,则检验统计量的值为(计算过程略) 3G??2?niln2i?13npi0???16.88 ni2(4)计算P值为: p值?P(?故在水平??0.05下拒绝H0,即
(2)?16.88)?0.00022?0.05,
顾客对这三种肉食的喜好程度的分布不是均匀分布.
注:若显著性水平取??0.05,则临界值为?1?0.05(3?1)?
22?0 .95(2)?5.99。
(P27Ex3)
解法一:总体总共分10类,这是一个分布的拟合优度检验问题。
(1)要检验的原假设为:学生对这十门课的选择没有倾向性,
?课程1课程2?课程10???即要检验H0:学生选择这十门课的人数分布为?1, 11????1010??102(n?np)2ii0???(2)取检验统计量
npi0i?110,检验分布为?(10?1);
2(3)题中n?800,npi0?略)
800?80,i?1,?,10,则检验统计量的值为(计算过程10(74?80)2(91?80)2??????5.125
80802)?0.823?0.05, (4)计算P值为: p值?P(?(9)?5.125故在水平??0.05下不能拒绝H0,即认为学生对这十门课的选择没有倾向性.
解法二(采用似然比检验+ p值形式)
(1)要检验的原假设为:学生对这十门课的选择没有倾向性,
2?课程1课程2?课程10???即要检验H0:学生选择这十门课的人数分布为?111?。
???1010??10(2)选取似然比检验统计量
10pi0npi02G??2ln???2?niln??2?niln?(10?1); ,检验分布为ninii?1i?1n210(3)题中n?800,npi0?略)
10800?80,i?1,?,10,则检验统计量的值为(计算过程10G??2?niln2i?1npi0???5.017 ni2(4)计算P值为: p值?P(?(9)?5.017)?0.833?0.05,
故在水平??0.05下不能拒绝H0,即认为学生对这十门课的选择没有倾向性.
注:若采用拒绝域法,临界值为?1?0.05(10?1)?
22?0.95(9)?16.92。
(P27Ex4)
解法一:(采用卡方拟合优度检验法+拒绝域形式)
(一)
总体总共分3类,这是一个不含未知参数的分布检验问题。 (1)要检验的原假设为
H0:股票投资的盈亏分布为???盈持平亏??, ??0.10.20.7?统计得到的频数分别为1697,1780,2129。
2?(n?np)2ii???(2)取检验统计量,拒绝域为{?2??12??(3?1)}, ?npi?1i2(3)对显著性水平??0.05,临界值为?0.95(2)?5.99,
3(4)题中n?5606,则检验统计量的值为
(1697?560.6)2(1780?1121.2)2(2129?3924.2)22?????3511.96?5.99
560.61121.23924.2故在水平??0.05下拒绝H0,即调查数据不符合该偏好分布.
(二)
总体总共分3类,这是一个不含未知参数的分布检验问题。 (1)要检验的原假设仍为
?盈持平亏?H0:股票投资的盈亏分布为??0.10.20.7??,
??统计得到的频数分别为151+122,240,517+240。
?i)2(ni?np(2)取检验统计量???,拒绝域为{?2??12??(3?1)}, ?npi?1i2(3)对显著性水平??0.05,临界值为?0.95(2)?5.991,
23(4)题中n?5606,则检验统计量的值为
(273?127)2(240?254)2(757?889)22?????188.2?5.991
127254889故在水平??0.05下拒绝H0,即调查数据不符合该偏好分布.
解法二:(采用似然比检验法+拒绝域形式) (一)
总体总共分3类,这是一个不含未知参数的分布检验问题。 (1)要检验的原假设为
H0:股票投资的盈亏分布为???盈持平亏??, ??0.10.20.7?统计得到的频数分别为1697,1780,2129。
3pi0npi0(2)选取似然比检验统计量G??2ln???2?nilnn??2?niln,
niii?1i?1n23检验分布为?2(3?1),拒绝域为{G??1??(2)}
(3)对显著性水平??0.05,临界值为?0.95(2)?5.991, (4)题中n?5606,则检验统计量的值为
560.61121.23924.2G2??(21697ln?1780ln?2129ln)?2800.9?5.991
169717802129故在水平??0.05下拒绝H0,即调查数据不符合该偏好分布.
(二)
总体总共分3类,这是一个不含未知参数的分布检验问题。 (1)要检验的原假设仍为
H0:股票投资的盈亏分布为??222?盈持平亏??, ??0.10.20.7?统计得到的频数分别为273,240,757。
3pi0npi0(2)选取似然比检验统计量G??2ln???2?nilnn??2?niln,
niii?1i?1n23检验分布为?2(3?1),拒绝域为{G??1??(2)}
(3)对显著性水平??0.05,临界值为?0.95(2)?5.991, (4)题中n?5606,则检验统计量的值为
127254889G2??(2273ln?240ln?757ln)?147.3?5.991
273240757222故在水平??0.05下拒绝H0,即调查数据不符合该偏好分布.
注1:有同学混淆了两种解法(卡方拟合优度检验法与似然比检验法)的记号与称呼。
注2:本题中两种方法得到的检验统计量的值相差很大。
(P28Ex5)
解法一:(卡方拟合优度检验)
总体总共分3类,分布中有1个未知参数,这是一个含参数的分布检验问题。 (1)要检验的原假设为
?红白粉红?H0:红、白、粉红色花的分布为??p2q22pq??,其中p?q?1。
??(2)先在H0为真时,似然函数为
L(p)?p2n1q2n2(2pq)n3?2n3p2n1?n3(1?p)2n2?n3?260p108(1?p)132,0?p?1取对数得
lnL(p)?60ln2?108ln(p)?132ln(1?p)
求关于p的导数,并令之为0得对数似然方程为:
108132??0?108(1?p)?132p?0p1?p??解得p的极大似然估计值为p
1089? 24020(3)算出H0的分布列中
p1,p2,p3的极大似然估计值
?1?p?2?p81; 400?2?(1?p?)2?(p112121)?; 2040091199?。
20202003?3?2p?(1?p?)?2p2?(n?np)2ii???(4)取检验统计量,拒绝域为{?2??12)}, ??(3?1?1?npi?1i2(5)对显著性水平??0.05,临界值为?0.95(1)?3.84146,
?1?120?(6)题中n?120,np8112199?2?120??3?120??24.3,np?36.3,np?59.4,,
400400200则检验统计量的值为
50(3?16?22?9) ??1.986798525?25?12?38因为|U|?1.9867985?1.96,故在水平??0.05下拒绝H0,即两比例不相等.
U?
解法二:(本题是双边检验,采用四格表的卡方检验法) (1)建立四格表 合计 有自杀情绪 无自杀情绪 25 精神病患者 3 22 神经病患者 9 16 25 12 38 50 合计 (2)记p1?精神病患者有自杀情绪的比例,p2?神经病患者有自杀情绪的比例, 本题要检验两比例是否相等,即要检验假设
p1?p2 ?? H1:p1?p2, H0:n(n11n22?n12n21)2(3)取检验统计量??,拒绝域为{?2??12??(1)},
n1?n2?n?1n?22(4)对显著性水平??0.05,临界值?1??(1)??0.975(1)?3.84, (5)由题中数据算得检验统计量的值为
n(n11n22?n12n21)250(3?16?22?9)2????3.947368421?3.84
n1?n2?n?1n?225?25?12?38故在水平??0.05下拒绝H0,即两比例不相等.
222
解法三:(本题是双边检验,采用四格表的似然比检验法) (1)建立四格表 合计 有自杀情绪 无自杀情绪 25 精神病患者 3 22 神经病患者 9 16 25 12 38 50 合计 (2)记p1?精神病患者有自杀情绪的比例,p2?神经病患者有自杀情绪的比例, 本题要检验两比例是否相等,即要检验假设
p1?p2 ?? H1:p1?p2, H0:(3)取检验统计量G??2ln???2??nijln(2i?1j?122ni?n?jnnij2 ),拒绝域为{G2??12??(1)},
(4)对显著性水平??0.05,临界值?1??(1)??0.975(1)?3.84,
(5)由题中数据算得检验统计量的值为
22nn2G??2??nijln(i??j)?.........?4.091?3.84
nniji?1j?1故在水平??0.05下拒绝H0,即两比例不相等.
2注1:拒绝域要与假设配套,主要看备择假设!本题是双边检验,U检验的拒绝域也应是双边形式的,不能再象P68ex1那样用单边形式的拒绝域!具体场合下要能正确区分 “双边检验”与“单边检验”。
注2:考虑到本题中的样本量比较小,特别有的格子里的值为3(都小于5了!),故使用连续性修正似乎更好些。采用四格表的修正的卡方检验法(解法四),则
nn(|n11n22?n12n21|?)22,拒绝域为{?2??2(1)}, (3)取检验统计量?2?1??n1?n2?n?1n?2(4)对显著性水平??0.05,临界值?1??(1)??0.975(1)?3.84, (5)由题中数据算得检验统计量的值为
50(|3?16?22?9|?25)2???2.74122807?3.84
25?25?12?38故在水平??0.05下不能拒绝H0,即两比例相等.有意思的是,这时候得出了相
222反的结论!
注3:SPSS软件能很方便地计算四格表独立性双边检验的几种检验统计量和p值,下列为本题的SPSS卡方检验的程序输出。 卡方检验 Pearson 卡方 连续校正 似然比 Fisher 的精确检验 有效案例中的 N b值 3.947 2.741 4.091 adf 渐进 Sig. (双侧) 精确 Sig.(双侧) 精确 Sig.(单侧) 1 1 1 .047 .098 .043 .095 .048 50 a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为 6.00。 b. 仅对 2x2 表计算
(P71Ex12)本题是一个著名的心理学实验。
解:(本题不妨取单边检验,采用四格表的U检验法)分两方面进行分析:24种口味是否比6种口味更能吸引顾客试吃?24种口味是否比6种口味更能吸引顾客购买?另外,数据计算上注意到:
242?60%?145,242?60%?3%?4, 260?40%?104,260?40%?30%?31。
(一)24种口味是否比6种口味更能吸引顾客试吃? (1)建立四格表 顾客试吃 顾客未试吃 合计 145 97 242 24种口味 104 156 260 6种口味 249 253 502 合计 (2)记概率p1?P(顾客试吃|24种口味),p2?P(顾客试吃|6种口味),
现在要检验假设
p1?p2 ?? H1:p1?p2, H0:(3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U?u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值u1???u0.95?1.645, (5)由题中数据算得检验统计量的值为
U?n(n11n22?n12n21)502(145?156?97?104)??4.46?1.645
n1?n2?n?1n?2242?260?249?253故在水平??0.05下拒绝H0,即24种口味比6种口味更能吸引顾客试吃.
(二)24种口味是否比6种口味更能吸引顾客购买? (1)建立四格表 顾客购买 顾客未购买 合计 4 238 242 24种口味 31 229 260 6种口味 35 467 502 合计 (2)记概率p1?P(顾客购买|24种口味),p2?P(顾客购买|6种口味),
现在要检验假设
p1?p2 ?? H1:p1?p2, H0:(3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U?u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值u1???u0.95?1.645, (5)由题中数据算得检验统计量的值为
U?n(n11n22?n12n21)?n1?n2?n?1n?2502(4?229?238?31)??4.515?1.645
242?260?35?467故在水平??0.05下接受H0,即24种口味没能比6种口味更能吸引顾客购买.
(三)进一步考察24种口味是否比6种口味更能吸引顾客购买? 考虑改成要检验假设
p1?p2 ?? H1:p1?p2, H0:(3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U??u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值?u1????u0.95??1.645, (5)由题中数据算得检验统计量的值为
U?n(n11n22?n12n21)502(4?229?238?31)???4.515??1.645
n1?n2?n?1n?2242?260?35?467故在水平??0.05下拒绝H0,即24种口味吸引顾客购买的比例竟然显著低于6种口味吸引顾客购买的比例.这似乎有点奇怪,不过仔细想来,符合生活中的实际情况。
注1:关于本题的背景:果酱实验选择不是越多越好?
有选择比没选择好,选择多比选择少好,这几乎成了人们生活中的常识。但实际情况并非如此。
纽约哥伦比亚大学的研究人员希娜·延加开展自己的实验,研究发现,如果让消费者选择在6种还是24种果酱中挑选一种时,人们都愿意有更多的选择。可是真正决定购买的时候,在6种果酱中选择的人们作出的购买决定,是在24种果酱中选择的人作出购买决定的10倍。实验是在加州斯坦福大学附近的一个以食品种类繁多而闻名的超市中进行的。工作人员在超市里设置了两个试吃摊位,一个有6种口味的果酱,另一个有24种口味的果酱。结果显示有24种口味的摊位吸引的顾客较多:242位经过的客人中,60%会停下来试吃,而260个经过6种口味的摊位的客人中,停下来试吃的只有40%。不过最终的结果却出乎人们的意料:在有6种口味的摊位前停下的顾客中有30%的人都至少买了一瓶果酱,而在有24种口味的摊位前停下试吃者中只有3%的人购买了果酱。看来过多选项也不见得是一件好事,它会使人们陷入游移不定的状态。
注2:考察24种口味是否比6种口味更能吸引顾客购买时,有同学采用的假设检验如下:
记概率p1?P(顾客购买|试吃24种口味),p2?P(顾客购买|试吃6种口味), 现在要检验假设
H0:p1?p2??H1:p1?p2
(P69Ex5)
分析:记p1?左半球中有良性肿瘤的比例,
p2?右半球中有良性肿瘤的比例,
本题要检验假设
H0:p1?p2??H1:p1?p2
注意到四个格子中有三个格子的频数小于5,显然这是一个小样本的场合,所以题目要求采用Fisher精确检验法进行检验。 解:(Fisher精确检验法)
(1)记p1?左半球中有良性肿瘤的比例,p2本题要检验假设
?右半球中有良性肿瘤的比例,
H0:p1?p2??H1:p1?p2
(2)采用Fisher精确检验法,即取超几何分布HG(16,12,10)为检验分布,检验的p值为P(HG(16,12,10)?n11),
n1?,n?1}?min{12,10}?10, (3)题中n11?9,并注意到题中min{故检验的p值为
P(HG(16,12,10)?9)?P(HG(16,12,10)?9)?P(HG(16,12,10)?10) 12!4!1!3!12!4!1!3!???0.109890?0.008242?0.11813216!9!3!1!1!16!10!2!0!4!因为0.118132?0.05,故在水平??0.05下不能拒绝H0,即认为两比例相等.
注1:有同学未按照题目要求解题,题目要求采用Fisher精确检验法,但仍有同学采用单边的U检验法甚至采用双边的卡方检验。
注2:在计算出p值后,有不少同学给出的检验结论是错误的。P值是要和检验水平α比较的:当P值>α小时,不能拒绝原假设,即认为两比例相等. 注3:计算P(HG(N,M,n)=k),可调用Excel中的函数
HYPGEOMDIST(sample_s,number_sample,population_s,number_population) =HYPGEOMDIST(k;n,M,N)
注4:下表中有其他几种方法的检验结果,由于是小样本,可以看到,连续性校正的效果与精确检验一致。又问为何下表中精确检验的双侧p值与单侧p值差不多? 卡方检验 Pearson 卡方 连续校正 似然比 Fisher 的精确检验 有效案例中的 N b值 3.200 1.422 3.175 adf 渐进 Sig. (双侧) 精确 Sig.(双侧) 精确 Sig.(单侧) 1 1 1 .074 .233 .075 .118 .118 16 a. 3 单元格(75.0%) 的期望计数少于 5。最小期望计数为 1.50。 b. 仅对 2x2 表计算 (P69Ex7) 解法一:(Fisher精确检验法)
(1)将这个人随机猜测作为原假设H0,将有品酒能力作为备择假设。即
|实际为黄酒),p1?P(猜测为黄酒|实际为白酒), 记p1?P(猜测为黄酒本题要检验假设
H0:p1?p2??H1:p1?p2
(2)采用Fisher精确检验法,即取超几何分布HG(30,15,15)为检验分布,检验的p值为P(HG(30,15,15)?n11),
n1?,n?1}?min{15,15}?15, (3)题中n11?11,并注意到题中min{故检验的p值为
P(HG(30,15,15)?11)?15
15!15!15!15!???0.0134!k!(15?k)!(15?k)!k!k?1130因为0.0134?0.05,故在水平??0.05下拒绝H0,即认为这个人不是随机猜测,而是有品酒能力的.
注1:不少同学在如何建立原假设时有问题,首先应该选择“没有品酒能力”为原假设。
注2:如何具体表示“没有品酒能力为原假设”,将其数学化,也存在不同的想法,这个问题的确值得进一步探讨。联系Ex8,大家可以讨论下如何建立假设的问题,这应该是一个没有绝对正确答案的问题,应该有一定主观性。 注3:下表中有其他几种方法的检验结果,由于是小样本,可以看到,连续性校正的效果与精确检验一致。 卡方检验 k?11?15P(HG(30,15,15)?k) Pearson 卡方 连续校正 似然比 Fisher 的精确检验 有效案例中的 N b值 6.533 4.800 6.794 adf 渐进 Sig. (双侧) 精确 Sig.(双侧) 精确 Sig.(单侧) 1 1 1 .011 .028 .009 .027 .013 30 a. 0 单元格(.0%) 的期望计数少于 5。最小期望计数为 7.50。 b. 仅对 2x2 表计算
(P70Ex9)
解:(本题应该仿照例3.9进行统计分析)
方法一:采用McNemar检验
1检验为阳性},B?{检测方法2检验为阳性}, 记A?{检测方法(1)要进行边缘齐性检验,即检验假设
p1?H0:?p?1 ??H1:p1??p?1
?p21 ??H1:p12?p21,
2p12也就是要进行对称性检验H0:(n12?n21)2(2)采用McNemar卡方检验统计量??,拒绝域为{?2??12??(1)}。
n12?n21(3)题中n12?18,n21?9,则检验统计量的值为
(18?9)22???3?3.84??0.95(1),
18?9故在水平??0.05下不能拒绝H0,即认为检测方法1检验为阳性的比例与检测
2方法2检验为阳性的比例相等.
方法二:采用似然比检验
(1)要进行边缘齐性检验,即检验假设
p1?H0:?p?1 ??H1:p1??p?1
?p21 ??H1:p12?p21,
n12?n21n?n21?n21ln12),拒绝域为2n122n21p12也就是要进行对称性检验H0:{?2??12??(1)}。
(2)采用似然比检验统计量G2??2(n12ln(3)题中n12?18,n21?9,则检验统计量的值为
G2??2(18?ln27272, ?9?ln)?3.06?3.84??0.95(1)2?182?9故在水平??0.05下不能拒绝H0,即认为检测方法1检验为阳性的比例与检测方法2检验为阳性的比例相等.
(P71Ex11)
分析:很多同学对本题也仿照例3.9进行统计分析,但也有少数同学注意到本题处于Ex10之后,似乎按照Ex10进行统计分析更为合理。
关键是对文字“竞选初期支持民主党的选民后来支持共和党的比例”的解读产生的歧义,究竟是理解成:“选民在竞选初期支持民主党且后来支持共和党的比例”,还是“在竞选初期支持民主党的选民中后来支持共和党的比例”。即究竟是积事件的概率,还是条件概率? 以下我把两种分析结果都罗列出来:
理解一:理解为积事件的概率相等:采用McNemar检验
(1)要进行对称性检验,即检验假设
p12?p21 ??H1:p12?p21 H0:2(n?n)21221(2)采用McNemar卡方检验统计量??,拒绝域为{?2??12??(1)}。
n12?n21(3)题中n12?52,n21?38,则检验统计量的值为
(52?38)22???2.718?3.84??0.95(1),
52?38故在水平??0.05下不能拒绝H0,即认为竞选初期支持民主党且后来支持共和
2党的比例与竞选初期支持共和党且后来支持民主党的比例相等.
理解二:理解为两条件概率的相等:采用Ex10的检验方法
党},B?{选民选举时支持民主党} 记A?{选民竞选初期支持民主(1)要检验假设
H0:P(B|A)?P(B|A) P(B|A)?P(B|A) ??H1:(考虑交换频数n11与n12的位置,形成新的四格表,再用U检验) (2)采用检验统计量U?n(n12n22?n11n21),拒绝域为{u??u1??}。
n1?n2?(n12?n21)(n11?n22)(3)算得检验统计量的值为
u?n(n12n22?n11n21)????8.8758??1.645??u0.95,
n1?n2?(n12?n21)(n11?n22)故在水平??0.05下拒绝H0,即认为“在竞选初期支持民主党的选民中后来支持共和党的比例”显著“小于竞选初期支持共和党的选民中后来支持民主党的比例”.
(P71Ex13)
n11n121111??P(A|B)??P(A|B)?????解:由题意知:,。 n?1500n?225001000则相对危险度为:
1?(A|B)P?500?2?1。
?(A|B)1P10001499??P(A|B)?1?P(A|B)?1??又因为, 5005001999??P(A|B)?1?P(A|B)?1??, 10001000所以优比为:
1?(A|B)/P?(A|B)P????500?(A|B)/P?(A|B)1P1000499500?2?999?2.002004?2。 9999981000
注1:有些同学在解题时,设法还原出概率四格表,甚至还原出频率四格表。但这些表格都是错的。因为仅根据题中的已知条件是无法还原出四格表的!由题意可知条件概率P(A|B),P(A|B),但不知道P(B)或P(B)的值,所以无法率四格表,更无法知道频率四格表。 注2:本题未要求进行显著性检验。
?知道积事件的概率:P(AB),P(AB),P(AB),P(AB),所以无法还原出概
(P108Ex1)
解:(本题是关于分布齐性的检验,也可以看作是独立性检验,应该采用二维列联表的卡方检验或似然比检验,具体可以写成如下四种不同的解法) (1)要检验假设
H0:供应商与零件质量独立??H1:供应商与零件质量不相互独立。 (也就是要进行齐性检验
各供应商的零件质量分布相同??H1:供应商的零件质量分布不全相同) H0:
方法一:卡方检验+临界值检验法
(2)采用卡方检验统计量??2??i?1j?1rc(nij?ni?n?j22)rcnn?n??ij?n,
ni?n?ji?1j?1ni?n?jn拒绝域为{?2??12)(c?1))}。 ??((r?122(3)题中??0.05,临界值为?12??((r?1)(c?1))??0.95(2?2)??0.95(4)?9.488,
(4)检验统计量的值为
902922??445?(???)?445?7.712?9.488,
395?10023?150故在水平??0.05下不能拒绝H0,即认为供应商与零件质量独立,即各供应商的零件的质量分布都相同.
方法二:似然比检验+临界值检验法
(2)采用似然比检验统计量G??2ln???2拒绝域为{G2??12)(c?1))}。 ??((r?122(3)题中??0.05,临界值为?12??((r?1)(c?1))??0.95(2?2)??0.95(4)?9.488,
2??ni?1j?1rcijln(ni?n?jnnij),
(4)检验统计量的值为
395?10023?150G2??2(90?ln???9?ln)?7.807?9.488,
445?90445?9故在水平??0.05下不能拒绝H0,即认为供应商与零件质量独立,即各供应商的零件的质量分布都相同.
方法三:卡方检验+p值检验法
(2)采用卡方检验统计量??2??i?1j?1rc(nij?ni?n?j22)rcnn?n??ij?n,
ni?n?ji?1j?1ni?n?jn检验分布为?2((r?1)(c?1)),且拒绝域形式为{?2?C}。
395?10023?150???9?ln)?7.807, (3)检验统计量的值为G2??2(90?ln445?90445?9(4)检验的p值为
P{?2((r?1)(c?1))?G2的观测值}?P{?2(4)?7.807}?0.099?0.05, 故在水平??0.05下不能拒绝H0,即认为供应商与零件质量独立,即各供应商的零件的质量分布都相同.
方法四:似然比检验+p值检验法
(2)采用似然比检验统计量G??2ln???22??ni?1j?1rcijln(ni?n?jnnij),
检验分布为?2((r?1)(c?1)),且拒绝域形式为{?2?C}。
90292???)?445?7.712, (3)检验统计量的值为??445?(395?10023?150(4)检验的p值为
P{?2((r?1)(c?1))??2的观测值}?P{?2(4)?7.712}?0.103?0.05, 故在水平??0.05下不能拒绝H0,即认为供应商与零件质量独立,即各供应商的
2零件的质量分布都相同.
(P109Ex7)(方表的一致性问题)
两个中医对一批病人的诊断结果如下:
医生A 阳虚 阴虚 阴阳两虚 医生B 阳虚 25 1 1 阴虚 3 9 2 阴阳两虚 1 0 15 试计算一致性度量?的估计值。 (一)一致性度量?的计算
rrrniirni?n?i??2n?nii??ni?n?iq1?q2?ni?1ni?1???i?1?i?1?0.776 rrnn1?q21??i?2?in2??ni?n?ini?1i?1
要检验医生A与医生B的诊断是否真的一致. (1)要检验假设 H0:医生A与B的诊断偶然一致??H1:医生A与B的诊断不是偶然一致。 (2)采用检验统计量U??,拒绝域为{U?u1??}。 se(?)(3)取??0.05,临界值为u1???u0.95?1.645,拒绝域为{U?1.645} (4)检验统计量的值为
0.776U???8.142?1.645,
?((b?)?b?)故在水平??0.05下拒绝H0,即认为医生A与B的诊断不是偶然一致。
对称度量 ? 一致性度量 Kappa 值 .776 57 渐进标准误差 .072 a近似值 T 近似值 Sig. 8.142 .000 b有效案例中的 N a. 不假定零假设。 b. 使用渐进标准误差假定零假设。 (P110Ex8)(联系附录7)
解法一:边际和都给定时,我们按如下方式理解需要解决的问题。 n个单元中有ni?个单元属于Ai,记非随机示性变量
Ai,?1,第k个单元具有属性 (k?1,2,?,n) yk???0,其它。n个单元的属性B看成等可能的随机分配,属于Bj的有n?j个单元,
(j?1,2,?,c)。记随机变量
Bj,??1,第k个单元具有属性?k?? (k?1,2,?,n)
??0,其它。则nij???kyk,ni???yk,n?j???k,且
k?1k?1k?1nnn
?k的分布列为
?k 0 1?n?jn1 n?jn
P k1?k2时,(?k1,?k2)的联合分布列
?k 0 ?k 211
0 1 * n?j(n?n?j)n(n?1)n?j(n?n?j) n(n?1)n?j(n?j?1)n(n?1) 从而有E(nij)??E(?k)yk??k?1k?1nnn?jnyk?n?jn?yk?1nk?n?jn?ni??ni?n?jn,
n?jn?n?jn?j(n?n?j)D(?k)???,
nnn2Cov(?k1,?k2)?E(?k1?k2)?E(?k1)E(?k2)?n?j(n?j?1)n(n?1)nn?n?jn?jn(n?n?j)????j2,(k1?k2)nnn(n?1)则
D(nij)?D(??kyk)?Cov(??k1yk1,??k2yk2)???yk1yk2Cov(?k1,?k2)
k?1k1?1k2?1k1?1k2?1nnn??yD(?k)???yk1yk2Cov(?k1,?k2)??y?2k2kk?1k1?1k2?1k2?k1k?1nnnnn?j(n?n?j)n2???yk1yk2?k1?1k2?1k2?k1nn?n?j(n?n?j)n2(n?1)2((?yk)??yk)2k?1k?1nn?n?j(n?n?j)n2?yk?1nk?n?j(n?n?j)n2(n?1)??yk1?1k2?1k2?k1nnk1yk2?n?j(n?n?j)n2?ni??n?j(n?n?j)n2(n?1)
?ni?n?j(n?n?j)n2?n?j(n?n?j)n2(n?1)(n?ni?)?2i?ni?(n?ni?)n?j(n?n?j)n2(n?1)
所以
ni?n?j2?ni?n?j2??rc(nij?)?rcE(nij?)rcD(nij)2nn??E(?)?E????????ni?n?jni?n?jni?n?j?i?1j?1?i?1j?1i?1j?1??nnn??ni?(n?ni?)n?j(n?n?j)rcrc(n?ni?)(n?n?j)n2(n?1)??????
nnn(n?1)i??ji?1j?1i?1j?1nrc1(rn?n)(cn?n)n?(n?ni?)?(n?n?j)??(r?1)(c?1)?n(n?1)i?1n(n?1)n?1j?1
解法二:给定i和j,将表格压缩为四格表,;利用超几何分布处理。
B A Bj 非Bj 合计
Ai 非Ai 合计 nij * *** n?n?j ni? n?ni? ** n?j n
则随机变量nij~HG(n,ni?,n?j),由课本62页公式
E(nij)?ni??n?jn
D(nij)?因此
ni??n?j?(n?ni?)?(n?n?j)n2(n?1)
nnnn???rc(nij?i??j)2?rcE(nij?i??j)2rcD(nij)2nn??E(?)?E????????ni?n?jni?n?jni?n?j?i?1j?1?i?1j?1i?1j?1??nnn??ni?(n?ni?)n?j(n?n?j)rcrc(n?ni?)(n?n?j)n2(n?1)??????
nnn(n?1)i??ji?1j?1i?1j?1nrc1(rn?n)(cn?n)n?(n?n)(n?n)??(r?1)(c?1)?i???jn(n?1)i?1n(n?1)n?1j?1
(P159Ex1)
分析:要确定别嘌呤醇会不会引起皮疹,数据是2?2?2的三维列联表的分析,还涉及性别,一个基本思路是如何降维成二维列联表的卡方检验或似然比检验。
解:记条件概率p1?P(皮疹|使用别嘌呤醇),p2?P(皮疹|不使用别嘌呤醇),“别嘌呤醇会引起皮疹”是指p1?p2。 (一)将三维列联表压缩成四格表的分析 (1)压缩后得四格表 引起皮疹 未引起皮疹 合计 15 52 67 使用别嘌呤醇 94 1163 1257 未使用别嘌呤醇 109 1215 1324 合计 (2)要检验假设 H0:别嘌呤醇与皮疹无关??H1:别嘌呤醇会引起皮疹。 即要检验假设
p1H0:?p2 ??
p1H1:?p2,(右侧检验)
(3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U?u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值u1???u0.95?1.645, (5)由题中数据算得检验统计量的值为
U?n(n11n22?n12n21)1324(15?1163?52?94)??4.326?1.645
n1?n2?n?1n?2109?1215?67?1257故在水平??0.05下拒绝H0,即别嘌呤醇会引起皮疹.
(二)将三维列联表按照性别变量分层,分别对两个四格表分析 (1)分层后得
“是否使用别嘌呤醇×是否引起皮疹”(男性)四格表 引起皮疹 未引起皮疹 合计 使用别嘌呤醇 5 33 38 未使用别嘌呤醇 36 645 681 合计 41 678 719 “是否使用别嘌呤醇×是否引起皮疹”(女性)四格表 引起皮疹 未引起皮疹 合计 使用别嘌呤醇 10 19 29 未使用别嘌呤醇 58 518 576 合计 68 537 605
(2)要分别检验假设:(对于男性)
H0:别嘌呤醇与皮疹无关??H1:别嘌呤醇会引起皮疹。 (对于女性) H0:别嘌呤醇与皮疹无关??H1:别嘌呤醇会引起皮疹。 (3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U?u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值u1???u0.95?1.645, (5)由题中数据分别算得检验统计量的值为
U男?719(5?645?33?36)?2.036?1.645
41?678?38?681605(10?518?19?58)U女??4.061?1.645
68?537?29?576故在水平??0.05下都拒绝H0,
即对于男性和女性,别嘌呤醇都会引起皮疹.
(三)上述压缩和分层两方面的分析结果是一致的,综合来看,可以认为别嘌呤醇会引起皮疹。 (四)(补充:条件独立性检验) (1)要检验假设:
H0:性别给定后别嘌呤醇与皮疹条件独立, ??H1:性别给定后别嘌呤醇与皮疹不条件独立。 (2)取检验统计量?????2k?1i?1j?1trc(nijk?ni?kn?jkn??kni?kn?jkn??k)2,
2拒绝域为{?2??1(t(r?1)(c?1))}。 ??(3)对显著性水平??0.05,临界值
2?12??(t(r?1)(c?1))??0.95(2)?5.9915,
(4)由题中数据分别算得检验统计量的值为
ni?kn?jk2(nijk?)222n??k?2???????20.64?5.9915
nni?k?jkk?1i?1j?1n??k故在水平??0.05下都拒绝H0,
即性别给定时,别嘌呤醇与皮疹不条件独立,是有关系的.
注1:由于涉及小样本,特别要注意对于男性的分层检验,连续性校正应该更为合理。
注2:可以发现,男性与女性的P值有差异。原因是什么?
(P159Ex2)
解:(解题思路同Ex1)
记条件概率p1?P(死亡|护理较少),p2?P(死亡|护理较多),题中关注的是p1?p2是否成立。
(一)将三维列联表压缩成四格表的分析 (1)压缩后得四格表 死亡 存活 合计 较少 20 373 393 较多 6 316 322 合计 26 689 715 (2)要检验假设 H0:护理多少与婴儿死亡无关??H1:护理少会引起婴儿死亡多。 即要检验假设
p1H0:?p2 ??
p1H1:?p2,(右侧检验)
(3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U?u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值u1???u0.95?1.645, (5)由题中数据算得检验统计量的值为
U?n(n11n22?n12n21)715(20?316?373?6)??2.29?1.645
n1?n2?n?1n?226?689?393?322故在水平??0.05下拒绝H0,即护理少会引起婴儿死亡多.
(二)将三维列联表分层为两个四格表的分析 (1)分层后得
“护理×婴儿生存情况”(A医院)四格表 死亡 存活 合计 较少 3 176 179 较多 4 293 297 合计 7 469 476 “护理×婴儿生存情况”(B医院)四格表 死亡 存活 合计 较少 17 197 214 较多 2 23 25 合计 19 220 239
(2)要分别检验假设:(对于A医院)
H0:护理多少与婴儿死亡无关??H1:护理少会引起婴儿死亡多。 (对于B医院) H0:护理多少与婴儿死亡无关??H1:护理少会引起婴儿死亡多。 (3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U?u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值u1???u0.95?1.645, (5)由题中数据分别算得检验统计量的值为
476(3?293?176?4)?0.289?1.645
7?469?179?297239(17?23?197?2)UB???0.01?1.645
19?220?214?25故在水平??0.05下都不能拒绝H0, UA?即对于A医院和B医院,护理多少与婴儿死亡无关.
(三)上述压缩和分层两方面的分析结果不一致,由于压缩会受到混杂因素的干扰,分层分析的结论是可靠的,所以认为护理多少与婴儿死亡无显著关系。
注:本题类似例5.2,和“Simpson悖论”的例子相似。医院是混杂因素,两医院中的护理多与护理少的婴儿比例差异很大。
“护理×婴儿生存情况”(A医院)条件分布列
死亡 存活 0.01676 0.98324 较少 死亡 存活 0.013468 0.986532 较多 “护理×婴儿生存情况”(B医院)条件分布列
死亡 存活 0.079439 0.920561 较少 死亡 存活 0.08 0.92 较多 B医院的死亡率高于A医院,两个死亡率的差异主要是医院因素造成的。 压缩后的四格表中
20179321417179214317p1??????(,)(?,)'
393393197393214393393197214629742522972542p2??????(,)(?,)'
322322297322253223222972531742(,)?(0.0168,0.0578)?(0.0135,0.08)?(,)其中, 1972142972517921429725(,)?(0.4555,0.5445)?(0.9224,0.0776)?(,) 但
393393322322
(P160Ex3)
分析:先将属性B和C合并成一个属性变量,再采用二维列联表的卡方检验或似然比检验(见教材129-130页)。 解:(1)合并数据得
城市* 文化程度和看法 交叉表 1(小学不同意) 2(小学不表态) 3(小学同意) 4(初中不同意) 文化程度和看法 5(初中不表态) 6(初中同意) 7(高中不同意) 8(高中不表态) 9(高中同意) 10(大学不同意) 11(大学不表态) 城市 1 23 7 2 10 23 5 5 20 13 6 10 2 18 6 1 6 18 2 2 13 13 2 9 3 8 6 3 12 4 4 2 11 6 4 7 4 12 9 1 2 15 3 3 8 14 6 4 12(大学同意) 24 15 7 13
(2)要检验假设 H0:城市间文化程度与看法没有差别 ??H1:城市间文化程度与看法有差别。
即要检验假设
属性A与(B,C)独立 ?? H1:属性A与(B,C)不独立。 H0:ni??n?jk2)rct(nijk?2n?????(3)取检验统计量, ni??n?jki?1j?1k?1n拒绝域为{?2??12)(ct?1))}, ??((r?122(4)显著性水平??0.05,临界值?12??((r?1)(ct?1))??0.95 (3?11)??0.95(33)?47.4,(5)由题中数据算得检验统计量的值为
ni??n?jk2)443(nijk?2n??????36.947?47.4
nni???jki?1j?1k?1n故在水平??0.05下不能拒绝H0,即认为城市间文化程度与看法没有差别.
(P160Ex4)
分析:参考教材例5.3的解法,建立表格,汇总各独立性检验的结果。
解:
用A表示年龄,B表示治疗效果,C表示治疗方法,独立性检验结果如下:
?2 自由度 临界值 P值 原假设 G2 (A,B,C) 36.457 38.372 (A,BC) 34.291 35.575 (B,AC) 36.457 38.372 (C, AB) 3.808 3.782 (AB,AC) 3.808 3.781 (BA,BC) 1.643 1.646 (CA, CB) 34.291 35.575 7 5 6 5 4 3 4 14.067 0.000 11.07 0.000 12.592 0.000 11.07 0.577 9.488 0.433 7.815 0.650 9.488 0.000 综上,治疗方法与(年龄,治疗效果)相互独立,即治疗方法之间没有显著差异。年龄与治疗效果之间不独立,有显著关系。接下来可以合并数据分析年龄与治疗效果之间的关系。
注:相互独立意味着数据合起来看与分开来是一致的,因此合并各层数据,同一层的两个变量间的关系可以看得更为清楚稳定。
(P160Ex6)(分开看与合起来看)
分析:综合分层分析与压缩合并数据分析,得出合理的结论。 解:
记条件概率p1?P(偏好饮料A|男性),p2?P(偏好饮料B|女性), (一)将三维列联表压缩成四格表的分析 (1)压缩后得四格表 偏好饮料A 偏好饮料B 合计 67 69 136 男性 42 34 76 女性 109 103 212 合计 (2)要检验假设 H0:性别与饮料偏好没有关系??H1:性别与饮料偏好有关系。
即要检验假设
p1H0:2?p2 ??
p1H1:?p2,(双侧检验)
n(n11n22?n12n21)22(3)取检验统计量??,拒绝域为{?2??1(1)}, ??n1?n2?n?1n?2(1)??0.95(1)?3.84, (4)对显著性水平??0.05,临界值?1??(5)由题中数据算得检验统计量的值为
n(n11n22?n12n21)2?????0.702?3.84
n1?n2?n?1n?2222故在水平??0.05下不能拒绝H0,即性别与饮料偏好没有关系.
(二)将三维列联表按照年龄变量分层,分别对两个四格表分析 分层后得
“性别×饮料偏好”(年轻人)四格表 偏好饮料A 偏好饮料B 合计 37 26 63 男性 11 23 34 女性 48 49 97 合计 “性别×饮料偏好”(老年人)四格表 偏好饮料A 偏好饮料B 合计 30 43 73 男性 31 11 42 女性 61 54 115 合计
对于年轻人,检验性别与饮料偏好是否有关系: (1)H0:性别与饮料偏好没有关系??H1:性别与饮料偏好有关系。
即要检验假设
p1H0:2?p2 ??
H1:p1?p2,(双侧检验)
n1??(n111n122?n112n121)22(2)取检验统计量??,拒绝域为{?2??1(1)}, ??n11?n12?n1?1n1?2(1)??0.95(1)?3.84, (3)对显著性水平??0.05,临界值?1??(4)由题中数据算得检验统计量的值为
n1??(n111n122?n112n121)2?????6.146?3.84
n11?n12?n1?1n1?2222故在水平??0.05下拒绝H0,
即对于年轻人,性别与饮料偏好是有关系的. 对于老年人,检验性别与饮料偏好是否有关系: (1)H0:性别与饮料偏好没有关系??H1:性别与饮料偏好有关系。
即要检验假设
p1H0:2?p2 ??
H1:p1?p2,(双侧检验)
n2??(n211n222?n212n221)22(2)取检验统计量??,拒绝域为{?2??1(1)}, ??n21?n22?n2?1n2?2(1)??0.95(1)?3.84, (3)对显著性水平??0.05,临界值?1??(4)由题中数据算得检验统计量的值为
n2??(n211n222?n212n221)2?????11.455?3.84
n21?n22?n2?1n2?2222故在水平??0.05下拒绝H0,
即对于老年人,性别与饮料偏好是有关系的.
(三)上述压缩和分层两方面的分析结果是不一致的,应该采信分层的结论。以下分层进行相合性检验。
对于年轻人,计算?相合系数,并检验性别与饮料偏好是否有相合关系。 (1)要检验假设:
H0:性别与饮料偏好不相合??H1:性别与饮料偏有相合关系。
?(2)采用检验统计量U?,拒绝域为{|U|?u1??/2}。
?b(?)(3)取??0.05,拒绝域为{|U|?u0.975?1.96}
(4)根据SPSS软件的计算输出可知,检验统计量的值为
0.252U???2.566?1.96,
?b(?)?b(?)故在水平??0.05下拒绝H0,即对于年轻人,性别与饮料偏好有相合关系。
对于老年人,计算?相合系数,并检验性别与饮料偏好是否有相合关系。 (1)要检验假设:
H0:性别与饮料偏好不相合??H1:性别与饮料偏有相合关系。 (2)采用检验统计量U???,拒绝域为{|U|?u1??/2}。 ?b(?)(3)取??0.05,拒绝域为{|U|?u0.975?1.96}
(4)根据SPSS软件的计算输出可知,检验统计量的值为
|U|?|??b(?)|?|?0.316|?|?3.610|?3.610?1.96,
?b(?)故在水平??0.05下拒绝H0,即对于老年人,性别与饮料偏好有相合关系。
注1:由于对于年轻人,性别与饮料偏好有正相合关系,即年轻女性比年轻男性更喜欢饮料B。而对于老年人,性别与饮料偏好有负相合关系,即老年女性比老年男性更喜欢饮料A。一正一负,数据合并后没有显著相合性了。 注2:记号与称呼上,要能区分U检验统计量与?2检验统计量:
U~N(0,1)??2??U2~?2(1)
注3:p值的概念要清楚,要能正确地表示与计算p值: 首先要明确检验分布与拒绝域的形式; 然后计算出检验统计量的观察值;
最后,以检验统计量的值为临界值定出拒绝域,计算检验分布在此区域的概率。
2??()例如本题中,采用检验统计量,则
?b(?)2检验分布为?2(1),拒绝域形式为{??c};
?222??()?(?3.610)?13.0321; 算出检验统计量的观察值
?b(?)2?}?{?考虑拒绝域形式为:{???统计量的观察值基于检验分布?2(1),计算p值:
222?13.0321};
p值?P{?2(1)?13.0321}?0.000004?0.05
2注4:记号上注意区分卡方分布?2(1)与分卡方分布的分位数?0.95(1)。
(P161Ex7)
分析:联系教材例5.6,例5.7。比较“分开来看”与“合起来看”的结果是否一致。倘若不一致,则是有偏比较。
解:
将外销与内销产品合起来看不合格品率: 车间主任 产品总数 不合格品总数 不合格品率 王 0.078431 2703 212 张 0.143493 1798 258 李 0.115538 753 87 王的车间的产品不合格品率最低,其次是李的车间,最高的是张的车间。 再分内销产品与外销产品分别看不合格品率。 从内销产品看不合格品率: 车间主任 产品总数 不合格品总数 不合格品率 王 0.055321 2368 131 张 0.010239 293 3 李 0.039088 307 12 王的车间的产品不合格品率最高,其次是李的车间,最低的是张的车间。 从外销产品看不合格品率: 车间主任 产品总数 不合格品总数 不合格品率 王 0.658537 123 81 张 0.204491 1247 255 李 0.208914 359 75 王的车间的产品不合格品率最高,其次是李的车间,最低的是张的车间。
综上,“分开来看”与“合起来看”的结果不一致,因此是有偏比较。
有偏的原因是各车间的内销与外销的比重不一致,而且总体上内销产品的不合格品率低于外销产品的不合格品率。无论内销产品还是外销产品,王的车间产品不合格品率都是最高的,但由于产品大多是内销产品,所以总的不合格品率却是最低的。因此产品类型(内销还是外销)是产生偏差的原因,是混杂因素。
(P183Ex1)
分析:将年龄与体质指数都作为定量变量,用SPSS建立Logistic线性回归模型。
解:要建立Logistic线性回归模型
lnp??0??1AGE??2BMI 1?p(1)将原来的三维列联表拉直,建立含四个变量的数据集,四个变量分别为年龄,体质指数,是否患心血管病,人数。 (2)将数据集导入SPSS;
(3)数据==》加权个案==》将人数设置为频数;
(4)分析==》回归==》二元Logistic,用二元Logistic过程建立Logistic线性回归模型,将是否患心血管病设置为因变量,将年龄和体质指数设置为协变量,其他采用默认方式,点选确定,输出模型拟合结果: 方程中的变量 步骤 1 a 年龄 体质指数 常量 B .054 .238 -8.293 S.E, .010 .082 2.234 Wals 26.420 8.470 13.777 df 1 1 1 Sig. .000 .004 .000 Exp (B) 1.055 1.269 .000 a. 在步骤 1 中输入的变量: 年龄, 体质指数. 即拟合的Logistic线性回归方程为
lnp??8.293?0.054AGE?0.238BMI 1?p由系数都为正可知:年龄越大越容易患心血管病,体质指数越大也越容易患心
血管病。
(P184Ex2)
分析:将年龄(A)作为定量变量,婚姻状况作为定性名义变量,包含3个哑变量(M1, M2, M3),以及3个与年龄的交互作用变量(AM1, AM2, AM3),用SPSS建立Logistic线性回归模型。
解:要建立Logistic线性回归模型
lnp??0??A??1M1??2M2??3M3??1AM1??2AM2??3AM3 1?p
SPSS输出模型拟合结果为: 方程中的变量 年龄 婚姻状况 婚姻状况(1) 婚姻状况(2) 婚姻状况(3) 婚姻状况 * 年龄 婚姻状况(1) by 年龄 婚姻状况(2) by 年龄 婚姻状况(3) by 年龄 常量 B .098 1.195 -1.615 -5.630 -.009 .023 .085 -10.267 S.E, .003 .223 .215 .256 .004 .003 .004 Wals 897.960 2450.346 28.790 56.445 485.038 1642.167 7.141 48.374 495.590 df 1 3 1 1 1 3 1 1 1 1 Sig. .000 .000 .000 .000 .000 .000 .008 .000 .000 .000 Exp (B) 1.103 3.305 .199 .004 .991 1.023 1.089 .000 .213 2334.341 a. 在步骤 1 中输入的变量: 年龄, 婚姻状况, 婚姻状况 * 年龄 . 即拟合的Logistic线性回归方程为
lnp??10.267?0.98A?1.195M1?1.615M2?5.63M3?0.009AM1?0.023AM2?0.085AM31?p并且方程是显著的。由此可以得到婚姻状况下死亡率和年龄的Logistic线性回归方程为 未婚状况:lnp??10.267?0.98A?1.195?0.009A??9.072?0.971A 1?pp??10.267?0.98A?1.615?0.023A??11.882?1.003A 1?p有配偶状况:ln丧偶状况:lnp??10.267?0.98A?5.63?0.085A??15.897?1.065A 1?pp??10.267?0.98A 1?p离婚状况:ln由系数的正负和大小可知:年龄越大死亡率越高;相同年龄下,丧偶状况的死亡率最低,其次是有配偶状况,然后是离婚状况,死亡率最高的是未婚状况。
注:这分析结果有点很奇怪。进一步观察拟合检验与残差,可以发现上述模型拟合得并不好。应该考虑设法构造更合适的模型。
(P184Ex3)
分析:将年龄(A)作为定量变量,文化程度(E)作为定性有序变量,包含文化程度与年龄的交互作用变量(AE),用SPSS建立Logistic线性回归模型。
解:要建立Logistic线性回归模型
lnp??0??A??E??AE 1?p方程中的变量 SPSS输出模型拟合结果为: 步骤 1 a 年龄 文化程度 年龄 by 文化程度 常量 B .136 .457 -.010 -12.478 S.E, .001 .023 .000 .050 Wals 35343.708 383.494 711.334 63383.169 df 1 1 1 1 Sig. .000 .000 .000 .000 Exp (B) 1.145 1.579 .991 .000 a. 在步骤 1 中输入的变量: 年龄, 文化程度, 年龄 * 文化程度 . 即拟合的Logistic线性回归方程为
lnp??12.478?0.136A?0.457E?0.010AE 1?p并且方程是显著的。由系数的正负和大小可知:年龄越大死亡率越高;文化程度越高死亡率越高;相同年龄下,文化程度越高死亡率越低。
注:这分析结果有点很奇怪。进一步观察拟合检验与残差,可以发现上述模型拟合得并不好。应该考虑构造更合适的拟合模型。
(P184Ex4)
分析:企业作为定性名义变量,包含1个哑变量(F),胆固醇(C, cholesterol)和收缩压 (P,Systolic pressure)作为定量变量,用SPSS建立Logistic线性回归模型。
解:要建立Logistic线性回归模型
lnp??0??1F??2C??3P 1?p方程中的变量 SPSS输出模型拟合结果为: 步骤 1 a 胆固醇 收缩压 企业 常量 B .502 .430 -.178 -4.718 S.E, .073 .080 .242 .536 Wals 47.645 28.660 .539 77.435 df 1 1 1 1 Sig. .000 .000 .463 .000 Exp (B) 1.652 1.538 .837 .009 a. 在步骤 1 中输入的变量: 胆固醇, 收缩压, 企业. 即拟合的Logistic线性回归方程为
lnp??4.718?0.178F?0.502C?0.430P 1?p???0.178但标准误是0.242 若?1?0则说明工厂不同对职工患冠心病没有影响。而现在?1p值=0.463,比较大,说明不能拒绝假设H0:?1?0,因此认为工厂不同对职工患冠
心病没有影响。企业A1的抱怨没有道理。
注:观察拟合检验与残差,可以发现模型的总体拟合效果还可以,但在胆固醇的低水平上上述模型拟合得并不好。可以考虑构造更合适的拟合模型。
正在阅读:
定型数据分析习题答案01-13
优秀散文摘抄02-11
江汉第一口自主设计的中半径水平井钻井实践12-02
二年级抒情作文450字:快乐的旅行08-11
水墨西塘作文600字07-03
年产180万吨转炉炼钢车间设计04-27
银行员工2022年个人述职报告范文03-25
浅谈社会交换理论视角下的婚俗02-03
乡村旅游产品促销方案03-16
在职残疾职工花名册09-03
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 数据分析
- 定型
- 习题
- 答案
- 加强与创新社会管理题目及完整答案
- STK中的姿态设置与应用 - 图文
- 三年级学雷锋主题班会
- 安徽某地土地整治可研文本 - 图文
- 选修三1.1DNA重组技术的基本工具的教案 - 图文
- 人教版2019五年级下册语文期末测试卷及答案
- 发展心理学课程教学大纲
- 日常使用电脑小知识 - 图文
- 第六届小学“希望杯”全国数学邀请赛五年级第一试及答案
- 军事理论课后习题答案
- 汕头市金园实验中学2004 - 2005学年下学期期中考试卷
- 2015会计在线培训全部题目word版(12421题,考试必备)
- 新编2012年会计从业资格考试应试模拟试卷-会计电算化理论(2012电理10卷)
- 证券法第十六条 公开发行公司债券
- 吉林大学网络资源一览
- 室内靶场方案 - 图文
- 南京城市总体规划(1991- 2010)实施回顾与评价
- 2013年年会计从业资格考试法规考点:国库集中收付制度每日一练(9月22日)
- 双向文化导入在高中英语教学中的运用
- 大学生工程地质实习报告