应用统计学对应分析等

更新时间:2023-09-02 07:41:02 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

重庆交通大学精品课程课件

对应分析-问题背景描述属性变量(定类或定序尺度变量)的各种状态或 是相关关系。例:研讨患肺癌与吸烟是否有关?是否吸烟 是否 患肺癌 患肺癌 未患肺癌 合计 60 32 92 3 11 14 63 43 106 吸烟 不吸烟 合计

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

当属性变量A和B的状态较多时,很难透过列联表作 出判断。 怎样简化列联表的结构? 利用降维的思想。如因子分析和主成分分析。但因 子分析的缺陷是在于无法同时进行R型因子分析和Q 型因子分析。 怎么办? 精细建模:对数线性模型 直观展示:对应分析

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

***

对应分析的基本理论

1、什么是对应分析?对应分析是利用“降维”的方法,以两变量的交叉 列联表为研究对象,通过图形的方式,直接揭示变量之 间以及变量的不同类别之间的联系,特别适合于多分类 属性变量研究的一种多元统计分析方法。

2、对应分析的基本思想:首先,编制两品质型变量的交叉列联表,将交叉列联表中的每个 数据单元看成两变量在相应类别上的对应点; 然后,对应分析将变量及变量之间的联系同时反映在一张二维或 三维的散点图上,并使联系密切的类别点较集中,联系疏远的类别点 较分散; 最后,通过观察对应分布图就能直观地把握变量类别之间的联系

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

方法特点 是多维图示分析技术之一,结果直观、简单 与因子分析有关 分类资料的典型相关分析 用于展示两个/多个分类变量各类间的关系 高收入、黑人、男性倾向于反对开战 研究较多分类变量间关系时较佳 各个变量的类别较多时较佳 均为四类以上 局限性 不能进行变量间相关关系的检验 仍然只是一种统计描述方法

解决方案的所需维度需要研究者决定 对极端值敏感 对于小样本不推荐使用2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

3、方法优点: 可以在一张二维图上同时表示出两类属性变量的各种 状态,以直观描述原始数据结构。 4、关键问题: 如何将多个类别点表示在低维空间中,以便于直接观察

如何确定各类别点的坐标,以易于鉴别类别间联系的强弱

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

原理① 以列联表为分析基础,计算基于H0假设的单 元格残差 ② 将每行看成是一条记录,基于列变量相关系 数阵进行因子分析,计算出列变量各类别的 负荷值 ③ 将每列看成是一条记录,基于行变量相关系 数阵进

步骤① 编制交叉列联

表并计算概率矩阵P ② 根据P矩阵确定数据点坐标 ③ 行变量和列变量的分类降维处理重庆交通大学管理学院

2013年11月30日星期六

22:22:28

重庆交通大学精品课程课件

对应分析图的阅读 每个维度可能代表了一种特征

实际上就是一个提取出的主成分,但由于分类变量的信息 较少,可能找不到合理的解释 1.考察同一变量的区分度: 如果同一变量不同类别在某个方向上靠得较近,则说明这 些类别在该维度上区别不大。 2.考察不同变量的类别联系: 一般而言,落在从图形原点(0,0)处出发相同方位上大致 相同区域内的不同变量的分类点彼此有联系。散点间距离 越近,说明关联倾向越明显;散点离原点越远,也说明关 联倾向越明显。

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

典型相关分析canonical correlation analysis 现实中: 如鸡蛋、猪肉的价格(作为第一组变量)和相 应产品的销量(第二组变量)有相关关系。如投资性变量 (劳力投入、财力投入、固定资产投资等)与国民收入( 工农业收入、建筑业收入、等)具有相关关系。 如何研究两组变量之间的相关关系? 设两组变量用X1,X2….,XP以及Y1,Y2…YP表示。 (1)分别研究Xi和Yj之间的相关关系,列出相关系数表。其 缺陷:当两组变量较多时,处理较烦琐,不易抓住问题的 实质。(2)采用主成分分析的方法,每组变量分别提取 主成分,再通过主成分之间的关系反映两组变量之间的关 系。

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

例:鸡蛋、猪肉的价格用X1和X2表示;鸡蛋、猪肉的销量用 Y1和Y2表示。

构造第一组和第二组变量的线性组合: F1=a11X1+ a12X2 Z1=a11Y1+ a12Y2 满足F1和Z1的相关性 最大化。

典型相关分析

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

1、什么是典型相关分析? 典型相关分析是研究两组变量之间相关关系 的多元统计分析方法.它借用主成分分析降维的 思想,分别对两组变量提取主成分,且使两组变 量提取的主成分之间的相关程度达到最大,而从 同一组内部提取的各主成分之间互不相关,用从 两组之间分别提取的主成分的相关性来描述两组 变量整体的线性相关关系.

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

典型相关关系研究两组变量之间整体的线性相关关系,它是将每一组变量作为一个整体 来进行研究而不是分析每一组变量内部的各 个变量.所研究的两组变量可以是一组为自 变量,而另一组变量为因变量;两组变量也

可以是同等的地位,但典型相关关系要求两组变量都至少是间隔尺度.MANOVA led hed net WITH arti com man /DISCRIM AL

L ALPHA(1) /PRINT=SIG(EIGEN DIM).

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

信度分析 信度分析用于探索研究事物间的相似性 用于评价问卷这种测量工具的稳定性或可靠性,具体 来说就是用问卷对同一事物进行重复测量时,所得结 果的一致性程度。

信度分类内在信度:调查表中的一组问题(或整个调查表)是否测 量的是同一个概念,也就是这些问题之间的内在一致性 如何。 最常用的内在信度系数为克朗巴哈α系数和折半信度。 外在信度:在不同时间进行测量时调查表结果的一致性程 度。最常用的外在信度指标是重测信度,即用同一问卷 在不同时间对同一对象进行重复测量,然后计算一致程 度。

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

信度的判断标准 没有统一的标准,通常: ① 信度系数如果在0.9以上,则该测验或量 表的信度甚佳; ② 信度系数在0.8以上都是可接受的; ③ 如果在0.7以上,则该量表应进行较大修 订,但仍不失其价值; ④ 如果低于0.7,问卷的测量效果非常差! 注意:在大型量表中,往往一组问题用来集中测量某 一方面的信息。此时信度分析应当按问题组来进行, 即测量同一信息的一组问题间信度如何,而不是直接 测量整个量表的信度。

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

重测信度 特别适用于事实性量表。相关分析得到的相关系 数也就是重测信度系数,一般要求达到0.7以上。

缺点① ② ③ ④ 对同一样本进行重复测定不一定可行; 其被调查者的情况可能随时间发生变化; 重复测定可能会受前一次测定的影响。 多数学者认为重测间隔一般以2~4周为宜。

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

折半信度 在不可能进行重复调查的情况下,将题目分为两 半,然后计算两部分各自的信度,以及之间的相 关性,以此为标准来衡量整个量表的信度,相关 性高则意味着信度好,而相应的信度指标就是折 半信度。 题目的分半方法有很多种,SPSS采取的是前后分半的方 式,如果项目个数为奇数的,则前一半多一个。

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

评分者信度 考察不同评分人之间对实际得分的影响。所以在 数据格式上我们分析的就是每一行,即每一位评 分者对得分的影响,而不是每一列的影响。 F test:适用于题目分值为连续性测量尺度。 Friedman chi-square:适用于分值不呈正态或为有序分类时。 Cochran chi-square:适用于题目分值为二分类/无序分类时。

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

定性

数据的分析对定性变量间关系的描述可用交叉列联表。但交叉列联 表存在以下缺陷: (1)不能充分分析多变量交互效应,不能有效分析多 变量之间的关联。 (2)在进行两个变量之间的关联分析时缺乏对其他 变量影响的有效控制。 (3)不能准确定量描述一个变量对另一个变量的作 用幅度。 如何避免以上缺陷,充分揭示出定性变量之间的复杂关系?

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

(1)对数线性模型概率表:B A 患肺癌 未患肺癌 合计 吸烟 P11 P21 P.1 不吸烟 P12 P22 P.2 合计 P1. P2. 1

将概率取对数后分解处理: pij pi. p. j ln pij ln pi p j p ln pi. ln p. j ln ij pi p j

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

重庆交通大学精品课程课件

其优点是可以把方差分析和线性模型方法相结合,估 计模型中各个参数,而这些参数值使各个变量的效应和变 量间的交互作用效应得以数量化。(2)Logistic 模型 是将概率比取对数后,再进行参数化而获得。设因变 量y为二值定性变量,用0和1表示两个不同状态,y=1的概 率p=P(y=1)是研究对象。若有多个因素影响y的取值,这 些因素就是自变量,记为:x1,x2…xk(既可以是定性变量 也可以是定量变量)。 Logistic 线性回归模型:ln p a0 a1 x1 .... ak xk 1 p

2013年11月30日星期六

重庆交通大学管理学院

22:22:28

本文来源:https://www.bwwdw.com/article/xlai.html

Top