6上机课第5讲 属性数据分析
更新时间:2023-05-13 07:21:01 阅读量: 实用文档 文档下载
- 上机课如何上推荐度:
- 相关推荐
属性数据分析一、列联表分析—得到概括性信息二、属性变量的无关联性检验 三、有序变量的关联性分析
四、FREQ过程
案例5.1 性别与主修专业是否相关— P116 案例5.2 是否判死刑与种族是否相关— —P119 案例5.3 工艺与产品质量是否有关系— —P125 案例5.4 患病程度和牛群大小是否相 关——P1302
变量的类型:1. 名义变量 2. 有序变量(两个值的差没有意义) 3. 区间变量(间隔变量,比如温度) 4. 比率变量(比例变量)
名 义 变 量 属性变量 (定 性 变 量 、 离 散 变 量 ) 有 序 变 量
区 间 变 量 定量变量 (连 续 变 量 ) 比 率 变 量
属性数据 由属性变量得到的数据都是属性数据. 当我们研究的指标是一个属性变量, 并希望用其他变量来说明或预测这个属性 变量的取值时,不管用以说明的变量是属 性的或连续的,使用的统计方法统称为属 性数据分析.
对属性数据进行分析的目的:1. 2. 3. 4. 产生汇总分类数据----列联表; 检验属性变量间的独立性(无关联性); 计算度量属性变量间的关联性统计量; 对高维数据进行分层分析和建模.
注:(1)本章仅研究1-3. (2)使用SAS中FREQ过程
一、 列联表分析几个概念: 1. 交叉表(两个或两个以上变量的列联表)
2. 双向表(两个变量的列联表)3. 单元
4. 单元频数
两个属性变量的列联表1 1 2n11n 21
2n12n 22
… … …
cn1c n2c
sumn1 j n1 jn2 j n2 j
r
nr 1
nr 2 n 2
… …
nrc
nr j nrj
sum n 1
n c
n
由原始数据生成列联表1. 使用FREQ过程来生成列联表;
2. 使用SAS菜单系统“分析员应用”生成 列联表(table analysis).
案例5.1 性别与主修专业是否相关. 书P116—原始数据表:属性变量:性别、
主修专业(统计专业和非统计专业).
程序:见属性数据分析中案例5.1
student 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
sex m m f m f f m m m f m f m m m f m m f m
major yes no yes no yes yes no no yes yes no yes yes yes no yes yes no no yes
输出结果sex major
统计课程中学生的专业和性别
Frequency|Percent Row Pct Col Pct | | |no |yes | Total
---------|--------|--------| f | | | | 1 | 5.00 | 14.29 | 12.50 | 6 | 30.00 | 85.71 | 50.00 | 7 35.00
---------|--------|--------| m | | | 7 | 35.00 | 53.85 | 6 | 30.00 | 46.15 | 13 65.00
|
87.50 |
50.00 |
---------|--------|--------| Total 8 40.00 12 60.00 20 100.00
由现成的汇总表生成列联表 1. 使用FREQ过程来生成列联表; 注意:在FREQ过程中必须使用 WEIGHT语句. 2. 使用SAS菜单系统“分析员应用”生成 列联表. 注意:要给出频数变量cell Counts.
案例5.2 是否判死刑与种族是否相关 看书P119. 数据如下表:种族
是否 判死刑
白人19 141
黑人17 149
是 否
程序:见属性数据分析中案例5.2
生成多个变量的交叉表使用FREQ过程来生成列联表;
proc freq data=welfare page;tables city*employ*politic*opinion; …… run;
二、属性变量的无关联性检验 1、属性变量无关联性的卡方检验 假设:H 0 : 行变量与列变量独立, H1 : 它们不独立
统计量:
2 i 1 j 1
r
c
( n ij m ij ) m ij
2
其中:
nij 表示观测频数 mij 表示期望频数 mij ni n j n
两个属性变量的列联表1 1 2n11n 21
2n12n 22
…… …… ……
cn1c n2c
sumn1 j n1 jn2 j n2 j
r sum
nr 1 n 1
nr 2 n 2
…… ……
nrc
nr j nrj
n c
n
(1)在H 0 成立时,当观测数据较大时, 2 统计 量 的分布近似服从自由度为(r 1) (c 1)的
2分布.( a)没有空单元(所有单元频数都不为0) (b)所有单元的期望频数均大于等于5 (2)在H 0 成立时,观测频数nij与期望频数mij 应该 比较接近,所以,当 2 统计量的值太大时拒绝H 0 .
案例5.2 看书P123. 数据如下表:种族 是否 判死刑
白人
黑人
是 否
19 141
17 149
正在阅读:
6上机课第5讲 属性数据分析05-13
实习心得体会及收获600字五篇04-07
2022年党委书记与班子成员政治谈话记录摘要附政治谈话十个方面个03-27
中国移动通信集团公司营销战略分析06-01
(第九册)建设工程施工安全标准化管理资料06-27
人教版,八下全册音乐教案06-11
交大学位授予通告04-06
ARDS诊断和治疗指南.ppt(2)04-23
卵巢囊肿蒂扭转原因有哪些?11-11
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 数据分析
- 上机
- 属性
- I1012、大曲酒小曲酒酿制方法)
- 现行国家建筑标准设计图集总目录
- 阅读教程4_passage7
- 人教版高中政治必修一知识点归纳总结2013秋期
- 容易读错、写错的字锦集
- 《勾股定理》说课教案
- 广东省梅州梅县区地区生产总值和指数、农业总产值3年数据洞察报告2020版
- 抹灰工程施工工艺及节点做法
- 农产品溯源系统简介
- 苏教版二年级下册品德与社会教案
- 《数据结构》教学中存在的问题及解决措施
- 同步训练011——6.1.1算术平方根
- 《难忘的二十年》学习心得
- 扩展你的WebCenter_Spaces应用程序
- 深圳广播电台收听报告2010年
- 基于ANSYS和实验的悬臂薄板模态分析
- 金福菇特性及袋栽技术要点
- 《货币银行学》第九章_货币需求与货币供给
- 2016美国游学团汇报 文字
- 2015-2020年中国果葡糖浆行业前景研究与投资潜力研究报告