社会研究的统计应用 例题举要

更新时间:2024-04-05 20:38:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

社会研究的统计应用 李沛良

第一篇 导论 第一章 科学方法与社会研究历程 筹划——执行——总结 第二篇 统计叙述:单变项与双变项 第三篇 统计推论:单变项与双变项 第四篇 多变项分析 第五篇 社会变迁分析

第二篇 统计叙述:单变项与双变项 2~3 简化一个、两个变项之分布

表1 简化一个变项之分布 定类层次 定序层次 定距层次 基本技术 次数分布(f) 比例(P=f/N) 比率(百/千/万分比率) 对比值 图示法(长条图、圆饼图) 累加次数 向上累加分布cf↑ 向下累加分布cf↓ 分组 组限:每组的范围,包括上限和下限。 真实下限=标示下限—0.5 真实上限=标示上限+0.5 组距:真实上下限之差。 累加百分率 向上累加百分率分布c%↑ 向下累加百分率分布c%↓ 集中趋势 众值 离散趋势 离异比率、质异指数 中位值 四分位差 组中点:真实上下限的平均值。 图示法(矩形图、多角线图) 均值 标准差 注: 1.关于数值中小数的取舍问题。“四舍五入”之“四舍”没有问题,同时结合“前单五入”,即“五”前面是单数就进位,若是双数则舍掉(0算双数)。

2.所谓集中趋势测量法,就是找出一个数值来代表变项的分布,以反映资料的集结情况。此法的意义在于,可以根据这个代表值(或称典型值)来估计或预测每个研究对象(即个案)的数值。这样的估计或预测,当然会有错误,但由于所根据的数值最有代表性,故所发生之错误的总和理应是最小的。 众值 (Mo):次数最多的值。 中位值(Md):在一个序列的中央位置之值。 均值 ():变项的各个数值之和,求取一个平均数。

3.离散趋势测量法,是要求出一个值来表示个案与个案之间的差异情况。该法与集中趋势测量法具有互相补充的作用。集中趋势测量法所求出的是一个最能代表变项所有资料的值,但其代表性的高度却要视乎各个个案之间的差异情况。如果个案之间的差异很大,则众值、中位值、均值的代表性就会甚低;此时以这三个值作估计或预测,所犯的错误就会很大。 离异比率(V):非众值的次数与全部个案数目的比率。 质异指数(IQV):其作用是求出各个类别之间在理论上最多的可能差异中实际上出现了多少差异。

(k=变项的类别数目,f=每个类别的实际次数)

四分位差(Q):将个案由低至高排列后分为四个等分,第一个四分位置的值Q1与第三

个四分位置的值Q3的差异。

标准差(S):将各数值(x)与其均值()之差的平方和除以全部个案数目,然后取

其平方根。公式中x与相差,就是表示以均值作为代表值时会引起的偏差或错误。

总之,集中趋势测量法与离散趋势测量法并用,可以一方面知道资料的代表值,有助于估计或预测的工作,另一方面可以知道资料的差异情况,反映估计或预测时会犯的错误。

1

正态分布与标准值? 简化两个变项之分布 统计相关

交互分类与百分表 简化相关与消减误差

相关测量与假设检定

相关测量法,目的是要理解两个变项在“样本”(随机与非随机样本均可)中的相关“强弱”程度及方向。

检定假设方法,则是根据“随机”样本的资料来推论两个变项在“总体”中“是否”相关。

体中是否相关。

2

第四章 相关测量法与测量层次 第一节 两个定类变项:Lambda ,tau-y

一、Lambda相关测量法 (以众值作为预测的准则)

例4-1 研究100名青年人的最大志愿是否男女有别,获得表4-1的次数资料。

由于我们认为性别(X)是自变项,志愿(Y)是依变项,且两个都是定类变项,故此要应用系数来简化相关的情况。 根据系数的公式和表4-1的次数资料,可知My=50,∑

=40+30=70,n=100,所以:

这个统计值表示以X预测Y,可以消减40%的误差。

例4-2 研究青年人的志愿与他们的知心朋友的志愿是否相关,表4-2是得到的次数资料。

由于青年人的志愿(Y)与知心朋友的志愿(X)可能是互相影响的,难以区分何者是自变项或是依变项,故要应用Lambda相关测量法的对称形式,即λ系数。

根据λ系数的公式和表4-2中的次数资料,可知My=50,Mx=54,∑=28+41+7=76, ∑=28+42+4=73,n=100,所以:

这个统计值表示,如果以两个变项互相预测,可以消减47%的误差。

3

二、tau-y相关测量法

例4-3 以表4-1的青年人研究资料为例。

全部个案数目n=100。性别(X),边缘次数Fx分别是60,40。志愿(Y),边缘次数Fy分别是40、50、10。表内有6个条件次数,每者都代表同属于某项Y值与某项X值的个案数目(f)。将这些数值带入tau-y公式,结果如下:

这个数值不但表示性别与志愿的相关程度,且可以解释为:以性别来预测或估计志愿的话,能够消减22.4%的误差。

注:由于Lambda测量法是以众值作为预测的准则,不理会众值以外的次数分布;而tau-y测量法是考虑全部的次数,故其敏感度高于Lambda测量法。比较: 例 抽样调查某市镇的劳动人口的职业背景与其工作价值观之间的关系,有表4-3所得的资料。

(全部Mo集中在条件次数表的同一行或同一列中,Lambda系数为0)

这个统计值表示职业与工作价值取向是毫无关系的。

但tau-y=0.007,表示职业背景对工作价值观是有若干影响的。

也可以通过将次数表变为百分率表,发现有72.4%的制造业工人注重物质报酬,64.3%的服务业从业员注重物质报酬。虽然分别不大,但相对上从事制造业的人比从事服务业的人较多注重物质报酬;换言之,职业背景(X)对工作价值取向(Y)是略有影响的。

4

第二节 两个定序变项:Gamma,dy

可用Gamma系数和dy系数来简化两个定序变项的关系。其中,Gamma适用于分析对称的关系,dy适用于不对称的关系,两者的系数值都是由-1至+1,既表示相关的程度,也表示相关的方向,且都具有消减误差比例的意义。Gamma,dy可统称为级序相关法,以每对个案之间的相对等级作为预测的准则。

一、 Gamma相关测量法 二、dy相关测量法

例4-4 假定有四名学生(ABCD),他们的数学成绩与英文成绩的等级分别如表4-4所示。

由Ns=2,Nd=4得:

这个统计值表示四名学生的数学等级与英文等级成反比,相关程度是0.33。G的绝对值是0.33,可以解释为:以一个变项的相对等级来预测另一变项的相对等级,可以减少33%的误差。

例4-5 有表4-5的五所工厂的资料。Ns=4,Nd=3,Ty=2。

可见工人积极性与产量成正比。然而,二者的相关程度颇弱,以其中的一个变项来预测另一个变项,只可以消减14%的误差。

我们假定:工人积极性(X),工厂产量(Y),用dy来简化相关的情况:

这个系数值除了显示正相关外,也表示以工人积极性的高低来预测或估计工厂产量的高低,可以减除11%的误差。

5

例4-6 我们在某城市调查200户人家,目的时要知道住户的人口密度与婆媳冲突是否有关系。交互分类之后的次数分别如表4-7所示。

由于两个变项都属于定序层次,要用Gamma或dy来简化其相关情况。 若假定:住户人口密度(X),婆媳冲突(Y),选用dy相关测量法。 根据表4-7的次数资料,可求出:

6

第三节 两个定距变项:简单线性回归与积矩相关

两个定距变项,可用简单线性回归分析法来以自变项的数值预测或估计依变项的数值,用积矩相关系数来测量两个变项相关程度和方向。 一、简单线性回归分析

回归分析法的目的,是要找出一个错误最小的方法来预测依变项的数值。

简单线性回归分析法,是根据一个直线方程式,以一个自变项(X)的数值来预测一个依变项(Y)的数值。这个方程式是:

其中,b称为回归系数,表示回归线的斜率。b值是表示自变项对依变项的影响的大小和方向;a是截距,即回归线与Y轴的交点;是根据回归方程式所预测的Y变项值。

例4-7 我们希望以女青年的学校教育年期(X)来预测或估计她们每天参与家务劳动几多小时(Y)。调查了9名女青年后,获得表4-9的资料。采用简单线性回归法分析。

从表中的计算,可知∑X=36,∑Y=18,∑XY=47,

,而n=9,所以:

这里b=-0.83,表示两变项有负向效果,即上学年期愈多,参与家务劳动就愈少。同时,每增加一年的教育,可能减少0.83小时家务劳动。 将这两个数值代入简单线性回归方程式,得:

这个方程式简化了九名女青年在两个变项上的众多资料,而且可以用来预测或估计女青年们的家务劳动数量。如,有两名女青年,她们曾经分别上学三年、六年。将X=3,X=6分别代入回归方程式中:

根据这些数值,我们可作如下预测或估计:上学三年的女青年每天参与家务劳动约2.8小时,上学六年的约0.3小时。同样,此方程式可应用于预测或估计样本以外之个案的数值。

7

二、积矩相关测量法

测量两个定距变项间的相关强弱,可用皮尔逊的积矩相关系数(r)。值,称为决定系数。基本上,r系数所要表示的,就是以线性回归方程式作为预测的工具时所能减少的误差比例。因此,r系数越大,就表示线性回归方程式的预测能力越强。

例4-8 以表4-9资料为例。

根据上表资料可求得:

积矩相关系数(r)显示,家务劳动数量与教育水平之间具有很强的负相关,即教育水平愈低,参与家务劳动愈多。决定系数(),则显示以一个变项来预测另一个变项,能够消减65.6%的误差。

8

第四节 定类变项与定距变项:相关比率与非线性相关

相关比率又称为eta平方系数( ),是根据自变项(X)的每一个值来预测或估计依变项(Y)的均值。eta系数值(E)是由0到1,其平方值具有消减误差比例的意义。

例4-9 表4-10是研究20名学生的家庭职业背景(分为干部、工人、农民)对其语文能力(0-100分)的影响。

由于家庭职业背景(X)属于定类层次,语文水平(Y)属于定距层次,用E系数来测量两者的相关情况。

从上表的下端,可知属于干部、工人、农民三类家庭的学生数目(),每类学生的语文成绩的平均得分()。根据每名学生的成绩,可以计算出全部学生(n=20)的得分之平方总和是:

把全部学生成绩相加,然后除以人数,可得平均成绩=74.1。 将上述数值带入相关比率测量法的公式:

=0.70

从E值,可见家庭职业背景对学生的语文水平有强大的影响。从值可见以家庭背景预测或估计语文成绩,可以消减70%的误差。另外,从表的下端,可见这三类家庭背景的学生的平均语文成绩颇有分别。相对之下,以干部家庭的学生表现最好(平均是84.92分),次为农民家庭(平均79.60分),最不好的是工人家庭的学生(平均61.75分)。表最下层是标准差,可见来自工人家庭的学生在语文水平上的相互差异最大(S=9.64),其次是干部家庭学生的相互差异(S=4.40),以农民家庭学生之间的语文差异最小(S=2.87)。

9

第五节 定类变项与定序变项:Lambda, tau-y

例4-10 表3-1是研究100名青年人的教育水平(定序)对其最大志愿(定类)的影响。 我们将教育水平看做是定类变项,可用或tau-y系数来分析它(X)与志愿(Y)之间的不对称关系。假定用tau-y,结果如下:

可见教育水平对青年人的志愿之影响颇弱,以教育水平来预测志愿,只能减除13.8%的误差。我们曾经从表4-1中计算出这100名青年人的性别对其志愿的影响是tau-y=0.224。相对之下,可见青年人的志愿受性别的影响大于受教育水平的影响。可见相关系数值在相互比较时,更显出其意义。

第六节 定序变项与定距变项:相关比率

例4-11 下表是研究20名学生的家庭收入(分高、低两级)对其英文成绩(0-100分)的影响。

由表中资料,计算得:

可见以家庭收入预测或估计学生的英文成绩,只能消减2%的误差。相对之下,家庭收入较高的学生的平均语文成绩(75.8分)只是略高于家庭收入较低者(72.4分)。

另外,

(见第八章第三节),本例中

10

第三篇 统计推论:单变项与双变项

第五章 抽样与统计推论 第六章 参数值的估计

第七章 假设检定:均值与百分率 第八章 假设的检定:两个变项之相关

第七章 假设检定:均值与百分率

假设检定的若干基本知识: 一、研究假设与虚无假设

假设检定的基本原则是直接检定,因而间接地检定 ,目的时排除抽样误差的可能性。 二、否定域与显著度

所谓否定域(简写CR),就是抽样分布内一端或两端的小区域,如果样本的统计值在此区域范围内,则否定虚无假设。 显著度(简写P),表示否定域在整个抽样分布中所占的比例,也即表示样本的统计值落在否定域内的机会。

在进行研究时,通常是先决定显著度的大小,在算出样本的统计值后,才看此统计值是否属于显著度所代表的否定域的范围内。显著度愈小,便愈难否定虚无假设(),也即愈难证明研究假设()是对的。 三、一端与二端检定

如果否定域只在一端(右端,或左端),称为一端检定; 如果否定域在两端的位置,称为二端检定。 四、甲种误差与乙种误差

甲种误差:否定,但实际上是对的错误可能性。这个可能性即所选定的显著度。 乙种误差:不否定,但实际上是不对的错误可能性。 两种误差成反比。

五、检定力:参数与非参数

检定力=1-乙种误差之机会

参数检定法的特点,是要求总体具备某些条件。(如Z检定,t检定,F检定) 非参数检定法(也称分布自由检定法),其特点是不要求总体数值具备特殊的条件。

11

第二节 单均值与均值差异

一、单均值

Z检定法和t检定法属于参数检定法,要求:定距变项;随机抽样;总体呈正态分布。

1、Z检定法(大样本)

例7-1 调查某地区农民的政治水平,所用的测量方法是询问100个政治性的问题,答对每

题得1分,否则为0分。

研究假设是:全区农民的平均分(M)不等于60。 虚无假设是:全区农民的平均分是等于60分。 即:

用随机方法从全区工人(总体)中抽取120名工人(即n=120)来研究,发现样本均值=57,标准差S=18.5。由于是一个随机样本,且n>100,符合Z检定法的要求,故可用之来检定虚无假设。检定前,我们要求显著度p≤0.05,而且由于研究假设不能定出方向,故要作二端检定。有附录三可查得否定域是,即Z≥+1.96和Z≤-1.96。 把样本的数值代入前述的Z检定的公式中,得出:

此检定值不在否定域的范围内,所以不能否定虚无假设(为显著度,我们不能接受研究假设(60的。

)。其意义是说,若以0.05

),即不能说全部农民的政治水平平均分数是不等于

倘若将上例中的研究假设()改为:M<60,由于定出方向,就可用一端检定法,且应用

左端。从附录三可查得p≤0.05的一端(左)检定所要求的否定域是Z≤-1.65。在样本中算出检定值是Z=-1.78,应在否定域范围内,因此可以否定,即接受。

再者,如果将显著度提高为p≤0.01,并仍用左端检定。否定域是Z≤-2.33,样本统计值的检定值(Z=-1.78)便不能否定虚无假设。可见,所选定的显著度愈高,愈难否定,也即愈难接受

2、t检定法(小样本)

例7-2 调查某校学生的平均数学成绩(M)时,研究假设和虚无假设分别是:

从全校抽取一个随机样本,得出如下数值:n=26, =65,S=10。由于是小样本,用t检定法。我们要求p≤0.05和一端检定,由于t分布的自由度是df=n-1=26-1=25,从附录五可查得否定域是

≥1.708。根据t检定的公式,得到如下结果:

这个检定值在否定域内,故此否定

,也即证明可能是对的。

12

二、两个均值的差异

1、Z检定法(大样本) 2、t检定法

例7-3 调查甲、乙两地的农民家庭请客送礼的平均支出是否有差别,我们的研究假设是两地的户均()不相同,则虚无假设是两地是相同的。 即:

要求的显著度为p≤0.05,由于未定方向,因此要用二端检定法。由附录三中可知否定域是。现在,从两地中分别抽取一个随机样本,数值如下:

代入Z检定值公式,可得:

由于检定值不在否定域范围内,故此不能否定虚无假设,也即表示两地农户的平均支出可能没有分别。

例7-4 研究某项戒烟运动对抽烟数的影响,可用随机方法从某地的全部成年男人中抽取两个样本,一个作为实验组(=11),一个作为控制组(=11),然后使前者参加戒烟运动,但后者不参见。经过一段期间之后,我们发现每组人均每周抽烟盒数(即差(即)分别如下:

)和标准

这两组的差异,可能是由抽样误差所导致,故要加以检定。我们的研究假设是:戒烟运动是可以减少成年男人的抽样数量;换言之,在全区中,参加戒烟运动的人的评价每周抽烟盒数()应该是少于不参加的人(),可表示如下:

所要求的显著度是p≤0.01,可用一端检定法,由于自由度是:。从附录五的t分布中可查得否定域是≥2.528。将这两个数值代入t检定的公式中,可得:

这个检定值的绝对值是略大于2.528,故可以否定虚无假设。换言之,若以0.01为显著度,则研究假设可能是对的,即戒烟运动可以减少成年男人的抽烟数量。

13

倘若所研究的是两个相关的样本,需用如下公式检定两个相关样本的均值差异:

例7-5 研究某项计划生育宣传是否能减少男青年的理想儿女数目。从某农村中抽取六名男青年来研究,是他们参加该项计划生育宣传的活动,这六名青年(分别是ABCDEF)在参加前的理想儿女数目(

)和参加后的理想儿女数目(

)如表7-2:

由于和代表的是同一个样本在不同时期的数值,故要用相关样本的检定法。由于两个时期的样本构成六对个案数值,即m=6,而d值是每对个案数值的差异,可以算出全部d值的均值和标准差如下:

代入检定值的公式中,可得:

假定所要求的显著度是p≤0.05,而且用一端检定法。由于自由度是df=m-1=6-1=5,从附录五的t分布中可查得否定域是≥2.015。我们从样本中求得的检定值(t=1.667)显然不在否定域的范围内。因此,研究结论是:若以0.05为显著度,则所研究的计划生育宣传不能减少男青年的理想儿女数目。 三、多个均值的差异 F检定

第三节 单百分率与百分率差异

14

第八章 假设的假定:两个变项之相关

本章的目的,是介绍怎样运用样本的资料来检定在总体中X与Y是否相关。

(两个定类变项;或者一个定类,一个定序,通常用此检定)

例8-1 研究不同性别(X)的学生对父母的敬重情况(Y)。从一个随机样本中得到表8-1的

次数分布,可见男生叫多敬佩父亲,女生较多敬佩母亲。如以Lambda系数简化这两个变项的相关情况,可得:=0.244。但是,在样本中男、女的差异(即性别与敬佩父母相关),可能是有抽样误差引起的,不一定是代表总体的真实情况。由于两个变项都是定类变项,可用

检定。

表8-1中的条件次数就是实际次数,分别是:

与这些实际次数相应的预期次数,分别是:

代入

检定公式中,可得:

这个数值愈大,就表示样本的资料距离“在总体中X与Y不相关”的可能性愈大,也即表示愈能否定虚无假设。df=(2-1)(2-1)=1。倘若所决定的显著度是p ≥0.05,则由附录六可查得否定域是≥3.841。由于我们根据样本资料所算得的检定值(=30.389)大于3.841,即属于否定域的范围,故可以否定虚无假设。换言之,如以0.05为显著度,则可以否定改而接受,即两变项在总体中可能是相关的。更常见的写法是:两变项的相关大于0.05显著度,或:男、女两组学生对父母的评价有显著差异。

特别注意2ⅹ2表(即df=1),尤其是含有某格的预期次数等于或小于5的2ⅹ2表,需用修正的公式计算检定值:本例中利用修正的

=29.356,以这个数值来检定,较为准确。

15

值作计算,

例8-2 前面第三章第二节的表3-1是研究100名青年人的教育水平(X)与其最大志愿(Y)的关系。根据第四章第五节的计算,tau-y=0.138。tau-y值只是表示样本内X与Y的相关情况,不是说总体的情况。如果该样本是以随机方法抽取的,可用

检定。

首先计算预期次数,表3-1第一行的预期次数是(其边缘次数是:5+30+5=40):

同理可得其余两行的预期次数。我们可将表中的每个实际次数(f)及其相应的预期次数综合如下表(每格的括号内的数值是e):

代入

检定公式中,可得:

倘若所要求的显著度是0.001,从附录六的分布中可查得df=4的否定域是≥18.465。由于样本中算得的检定值(=35.833)显然是在否定域的范围内,故可否定虚无假设。研究结论是:青年人的教育水平与其最大志愿是相关的,其显著度大于0.001。

与有关的相关测量法(以下系数值愈大,表示两个变项的相关程度愈强,但三种系数都没有消减误差比例的意义): Phi相关系数:克拉默的V相关系数:

列群相关系数:

(其中,m=min(r,c))

以表8-1为例:

16

(两个变项都是定序变项)

随机样本中,两个变项都是定序变项,用Gamma系数来求出样本中X与Y的相关,然后以Z检定法或t检定法来推论在总体中Gamma是否等于0。

(大样本) (小样本)

例8-3 以第四章第二节的表4-7的200户人家资料为例,G=+0.463,显示住户密度与婆媳冲突的程度成正比。倘若这是一个随机样本,我们要设法推论在全地区中这两个定序变项是否相关,即是否在总体中Gamma=0?

研究假设()是:住户人口密度愈高,婆媳冲突愈大; 虚无假设()是:住户密度与婆媳冲突没有关系。 可以表示如下:

从表中算出Ns=6003,Nd=2204,G=+0.463,n=200是大样本,可计算检定值如下:

要求的显著度p≤0.001,从附录三中可查得一端检定的否定域是∣Z∣≥3.09。 上面的检定值(Z=3.346)是在否定域的范围内,故可否定,即可能是对的。 研究结论是:住户的人口密度与婆媳冲突的大小成正比,其显著度大于0.001。

17

注意:如果所算得的检定值非常接近所要求的否定域数值,要用较为精确的公式,即直接检定S因子的数值(Ns – Nd)。检定S的方法如下: 首先,把S的数值修正为S’: 其次,计算修正值S’标准误差:然后,计算检定值Z:

例8-4 以表8-2的资料,可作如下的运算:

因而

用Z检定法来检定样本的G值。由于n=44, r=2, c=4,所以:

所以S’的标准误差是:

检定值为:

倘若所要求的显著度是0.001,且要用二端检定,从附录三中可查得否定域是∣Z∣≥3.30。 由于检定值(Z=4.31)是在否定域范围内,故可否定虚无假设,即表示总体中的S不等于0.

18

(定类-定距;定序-定距)

用单因方差分析中的F检定推算在各组总体中的均值是否相等。

方差分析的基本道理,是将全部方差(以TSS估计,自由度是:n-1)分解为两部分:消减方差(以BSS估计,)和剩余方差(以WSS估计,),然后从相互比较中推论X与Y在总体中是否相关。F比率就是消减方差与剩余方差的对比,如果F值愈大,就表示X与Y在总体中愈可能是相关。

例8-5 以第四章第四节的表4-10的学生语文水平研究为例。其中,研究假设是:干部、工人、农民这三类家庭的学生的平均语文成绩不是全部相同(即至少有一个均值与其他不同); 虚无假设是:这三类家庭的学生的语文成绩的均值是相同的。如以M代表全部学生(即总体)的平均语文成绩,则:

从样本中,我们知道这三组学生的语文成绩均值分别是:=84.29,在样本中的差异可能是由抽样误差所引起,故要予以检定。

由于E=0.84,n=20,k=3(即三类家庭职业背景),代入F检定公式可得:

若我们所要求的显著度是p≤0.01,从附录七的F分布中可查得的否定域是F≥6.11。上面算得的F比率(检定值)显然是在否定域的范围内,故可否定虚无假设。 研究结论是:这三类家庭背景的学生在语文的平均成绩上是有分别的;这两个变项的相关之显著度大于0.01。

例8-6 第四章第六节的表4-11是研究学生的家庭收入的高低(定序变项)对英文水平(定距变项)的影响,E=0.14,然则在总体中这两组学生的平均英文成绩是否不相同? 根据表4-11的资料,可得:

根据这些数值,可求得:

若所要求的显著度是0.05,从附录七中可查得的否定域是F≥4.41。检定值F=0.35不在否定域范围内,因而不能否定虚无假设。研究结论是:这两组家庭收入的学生的平均英文成绩没有显著分别。即家庭收入与英文水平是没有关系的,显著度未能达到0.05。

19

分析两个定距变项的关系时,可用积矩相关系数(r)来测量相关的程度和方向,可用简单线性回归方程式来估计或预测数值。回归方程式中的b表示X对Y所产生的效应。 假定X与Y成直线关系,

可用F比率来检定r和b, 也可用t检定:

例8-7 以第四章第三节的表4-9为例,九名女青年是一个随机样本,则在全部女青年(即总体)中这两个定距变项是否相关呢?把n=9和r=-0.81代入F检定公式中,可得:

若所要求的显著度是0.01,从附录七的F分布中可知的否定域是:F≥12.25。 由于样本中算得的检定值(F=13.36)是在否定域的范围内,故可否定虚无假设。 研究结论是:女青年的教育水平与家务劳动数量是相关的,其统计显著度大于0.01。

本例也可以用t检定。将有关数值代入t检定公式,可得:

若用一端检定和以0.01为显著度,则从附录五的t分布表中可查得否定域是∣t∣≥2.998。 样本的检定值(t=-3.654)是在否定域的范围内,因此可否定。

研究结论是:女青年的教育水平与家务劳动数量的相关达到0.01显著水平。

可用相关比率()测量法来简化两个定距变项的非直线关系. 如要检定两变项在总体中的关系是否非直线,可以成立以下假设:

然后用如下的F比率公式来检定:

可用U检定、走动检定、K-S检定等非参数检定法来推论一个二分变项与一个定序变项的关系,即检定两组个案在等级排序上是否有分别;用H检定法(单因级序方差分析)来检定三个或以上的组在级序上的差异。也可用随机检定法来分析一个二分变项和一个定距变项的关系。

20

例8-8 我们随机选取15个大城市和14个小城镇,然后依据空气素质把这29个城市由最好(第1名)到最差(第29名)统一排列起来,再分两组并按前述统一排序的名次分别排序,得到表8-3。

表中是15个大城市所得等级的总和,是14个小城镇等级之和。

如果虚无假设(即大城市和小城镇在空气素质等级上无差别)是对的话,则与理应相差甚小。我们用U值来检定两个样本的级序差异,公式如下:

U=min(,)。

U值抽样分布的均值和标准误差分别是:

检定值是:

根据表8-3的数值,代入公式可得:

若要求O.O1显著度和用二端检定,从附录三中的Z分布表中可查出否定域是∣Z∣≥2.58。 由于从两个随机样本算出的检定值(Z=-2.60)在否定域内,故可以否定虚无假设。

研究结论是:大城市和小城镇的空气素质是有差异的,其显著度大于0.01。从表中可以看出,一般来说小城镇的空气素质比较好。

21

例8-9 我们根据社会控制的理论,提出一个研究假设:老师的奖罚会影响学生参与讨论的积极性。研究方法采用实验设计,将21名学生随机分配于三个讨论组(即样本)中,老师在第一组之责罚少发言的学生,在第二组之奖励多发言的学生,在第三组则不理会发言的情况,得到表8-4的资料。

以H检定的公式:

可算出:

若要求p≤0.05,从附录六可查得否定式是≥5.991。

检定值H是在否定域内,故可否定,即支持研究假设。从表中可知奖励最有效,处罚适得其反。

第四篇 多变项分析

第九章 祥析模式与统计控制 第十章 多因分析 第十一章 因径分析

第十二章 定类或定序依变项回归分析 第十三章 多项互关分析

22

第九章 祥析模式与统计控制 第一节 因果分析

因果分析(又称为辨明模式)是要鉴定X与Y之间是否确实有因果的关系。

例9-1 在某城镇抽样调查一千户人家,目的是要研究住房的拥挤情况会否引致夫妇之间的冲突。表9-2是所得的资料。

上表显示,两个变项成正比(G=+0.423,p<0.05)。

要辨明住户拥挤与夫妇冲突的因果关系是否虚假,引入家庭经济水平作为前置变项。 假定经济水平可分为高、中、低三类,则可建立三个分表来分析住户拥挤与夫妇冲突的关系。三个分表分表代表经济水平的高、中、低三个类别。因为每个分表的经济水平都是相同的,因而使经济水平这一变项得到了控制,在分表中变成了常数。 为求简化资料的报导方式,可将这三个分表合并为表9-3.

从表9-3中可见,在所有三个经济水平不同的组内,住户拥挤与夫妻冲突的关系都非常微弱,均未能达到0.05显著度,因此我们说二者可能没有关系。在控制家庭经济水平以后,住户拥挤与夫妻冲突的关系既然消失,我们的研究结论便应该是:住户拥挤与夫妻冲突的因果关系是虚假的,这两个变项的相关可能是由家庭经济水平所导致。

例9-2 研究300名学生的学业成绩(X)与最大志愿(Y)的关系,发现=0.28。

这两者的关系可能是由性别(W)所导致,即学业成绩是男、女有别,而志愿也是男、女有别,故要控制性别。假定在300名学生中有190名男生和110名女生,则我们可分男女两组学生分别研究学业成绩与志愿的关系。结果表明在男生中=0.27,在女生中=0.30。由于这两个分别的与原表的(=0.28)很接近,我们的研究结论是:学业成绩与最大志愿的因果关系可能是真实的。

例9-3 调查某地群众的职业背景(X)对其思想现代化(Y)的影响,发现tau-y=0.65。 由于这两个变项的关系可能是由教育变项(W)所导致,即不同教育水平的人会从事不同种类的行业,而不同教育水平的人也会有不同程度的思想现代化,故要控制教育水平。 结果发现,在较低教育水平的人中tau-y=0.45,而在较高教育水平的人中tau-y=0.31,显示在分表中X与Y仍有关系,但其相关程度显然都低于原表的相关(tau-y=0.65)。因此,研究结论应是:职业背景与思想现代化的因果关系部分是由教育水平所导致。

23

第二节 阐明分析

阐明分析(又称为因果环节),关注:为什么X会影响Y?

阐明分析的作用,就是要以事实来验证:X是通过某些因素(如 T)而对Y产生影响的。 例9-4 调查300名年纪相近的妇女(35-40岁),发现教育水平(X)越高,子女数目(Y)越少(G=-0.70),这是为什么呢?

我们以晚婚理论来解释:教育水平越高的妇女越晚结婚,因而生的孩子就越少。要证明这种说法,就要引进“结婚年龄”作为介入变项(T),加以控制。采用分表法的结果,发现在晚婚的妇女中教育水平与子女数目的相关是G=-0.71,而在早婚的妇女中G=-0.68。由于分表的相关与原相关(G=-0.70)很接近,研究结论是:晚婚的说法,不能阐明教育水平与子女数目的反比关系。换言之,教育水平较高的妇女所生的孩子比较少,不是由于她们结婚较晚。

改用重男轻女的说法来解释,认为教育水平越低的妇女,愈是重男轻女,结果会生较多的孩子。控制“重男轻女”这个介入变项以后,发现在重男轻女的妇女中G=-045,而在不重男轻女的妇女中G=-0.50。在各个分表中教育水平与子女数目这两个变项显然维持反比关系,但在程度上弱于原相关(G=-0.70),因而研究结论是:教育水平较低的妇女所生的子女比较多,部分是由于她们具有重男轻女这种观念。 我们再举一个可能的原因,即社会意识。所谓社会意识是指关心社会的政策和前途的程度。我们认为教育水平越高的妇女,社会意识越强,因而所生的孩子越少。社会意识(介入变项)分为高、中、低三个水平,它们的教育水平与子女数目的相关(Gamma)分别是-0.18,-0.20和-0.23。显然,在控制社会意识这个变项以后,教育水平与子女数目虽然仍有反比关系,但与原相关(G=-0.70)相比却是较弱了很多。研究结论是:教育水平较高的妇女所生的孩子比较少,在很大程度上是由于她们的社会意识较强。

综合上述,我们可以看到“晚婚”这一说法是不对的,事实证明它不能阐明教育与生育的关系。至于“重男轻女”和“社会意识”这两种说法皆符合事实,但以后者的解释力更强。

第三节 条件互动与互动效果

条件分析(也称为标明模式),关注:在不同情况下X与Y的关系会不同吗? 条件分析的作用,就是以第三类变项(如C)(也称为条件变项)作为基础来了解X与Y在不同情况下的关系。

例9-5 在某城镇中研究400户人家的住户拥挤(X)对家庭冲突(Y)的影响,发现G=+0.55。

在得出这一结果后,我们还可以进一步发问,这两个变项的关系会否取决于家庭的规模(C)?我们的理论是,家庭有大有小,在大家庭中人多事多,拥挤地住在一起就会出问题;相反地,在小家庭中通常只有一定夫妇及其儿女,是非不多,即使拥挤地住在一起,问题也不大。因此,引进“家庭规模”作为条件变项,即将所研究的400户人家分为两组,一组是小家庭,一组是大家庭,然后在每组中分析住户拥挤与家庭冲突的关系。结果发现,在大家庭组中G=+0.81,小家庭组中G=+0.12,现实无论是大家庭还是小家庭,拥挤地住在一起都会增加成员之间的矛盾,但这个问题在大家庭中特别严重。换句话说,X与Y的关系是随着C的条件而变化,具有互动性,不能一概而论。

例9-6 我们调查200个社区的人口密度与精神病率,发现其积矩相关系数值是r=+0.06,反映人口密度对精神病率的影响非常微弱。但在进一步观察和思考后,我们感觉到人口压力所发生的影响要取决于社区内的人际关系。引进“文化异同”作为条件变项来分析人口密度与精神病率的关系。假定所研究的200个社区可以分为两组,一组是文化同质的,另一组是文化异质的。研究结果,发现在文化同质的社区组中r=-0.30,即人口密度愈高,则精神病率愈低;而在文化异质的社区组中r=+0.42,即人口密度愈高,精神病率也愈高。显然,在不同文化类型的社区中,人口密度与精神病率的关系是不同的。

24

第四节 净相关系数

所谓净相关分析,就是以一个系数值来表示在控制第三类变项(W或T)以后X与Y的相关。

净相关系数是以积矩相关系数(r)为基础,属于对称相关测量法的一种,它要求变项间是直线关系,且所有变项都必须是定距变项。

25

例9-7 调查29个村的工业化程度(以工业人口所占的比例来测量),发现有些村较高但有些村比较低,为什么呢?我们认为这可能是与每个村之耕地与人口的比例相关;如果村中平均每人的耕地面积颇大,就没有急切的需要也没有剩余的人力来发展工业,相反,如果地少人多,就有需要且有剩余人力来发展工业。研究结果(表9-6),发现耕地人口比例(X)和工业化程度(Y)成反比(=-0.64),即耕地人口比例愈大的村,其工业化的程度愈低,证明我们的想法是对的。 然而,上述的因果关系可能是虚假的,因为人口的分布与工业的发展都会受到邻近城镇的影响,而各个村与城镇的距离却有不同。离城越近的村,人口可能越多,因而使耕地与人口的比例越小;且离城越近的村,由于得到城镇的支援,就可能越容易发展工业。因此,我们引进离城远近()作为前置变项,需要加以控制才能确定耕地人口比例(X)与工业化(Y)是否有因果关系。由于三个变项都是定距变项,可用净相关系数来分析,但先要计算三个变项之间的零阶矩相关,结果如下:

显然,离城越远的村,其耕地与人口的比例越大(),而其工业化的程度愈低()。将这些零阶相关系数值代入净相关系数(第一阶相关)的公式中,可得: 这个净相关值与原相关值()相对之下,显然是减弱了,但仍然维持反比关系,故研究结论是:耕地人口比例与工业化的反比关系,只有部分是由离城远近所导致。 由于,我们在研究报告中也可以指出:以耕地人口比例来解释工业化程度,本来是可以消减41%的误差,在控制离城远近以后仍然可以消减22%的误差,可见耕地人口比例是对工业化有影响的。

假定上例的29个村是一个随机样本,可作统计推论如下: 研究假设():总体中 虚无假设():总体中 由于从样本中算得,而n=29,k=1,所以:

如果要求的显著度是0.05,则从附录七的F分布中可查的

的否定域是F

≥4.22。由于样本的F比率(F=7.37)在否定域范围内,可以否定,所以结论是:在总体中控制了离城远近()以后,耕地人口比例(X)与工业化程度(Y)仍然有显著的关系,其显著度大于0.05。

26

第五节 其他的净相关测量法

X与Y是定序变项时,用净Gamma系数。净Gamma系数,是以各个分组的Ns和Nd为基础来计算X与Y的相关的加权平均。

例9-8 表9-2显示住户拥挤与夫妻冲突的关系是G=+0.423,而表9-3显示这两个定序变项的关系(Gamma)在高、中、低三种家庭经济水平中分别是:-0.018.+0.008,和+0.052。采用净Gamma公式。由于第一个分表中Ns=4590和Nd=4760,在第二个分表中Ns=5236,和Nd=5152,而在第三个分表中Ns=1602和Nd=1444,所以:

在控制家庭经济水平以后,住户拥挤与夫妻冲突的关系差不多是0,可见两者的关系是虚假的。

例9-9 调查308名中年男人,研究他们的教育水平(分高、中、低三组)和自我形象(分优、中、劣三类)的关系,由于两者都是定序变项,可用Gamma来测量其相关。发现G=+0.26,表示教育水平越高的中年男人,其自我形象也越好,

为什么呢?我们认为教育水平会影响个人从事哪一种职业,而职业地位才是决定自我形象的好坏的直接因素。为了以事实证明我们的想法,阐明教育与自我形象的关系,就需要控制职业地位(分为干部、工人和农民三种)。分分组计算的结果是,在干部中Ns=1695和Nd=833,在工人中Ns=714和Nd=412,在农民中Ns=526和Nd=754。把这些数值带入净相关的公式,求得Gp=+0.19。因此研究结论是:在中年男人中,教育水平对自我形象的影响,只是部分通过职业地位。

注意,在这个例子中,所控制的变项也可以是定类变项(如职业)。另外,Gp综合了三个分表的资料,但不能显示三个分表的一统。最好的做法,是先计算各个分表的G值,相互比较之后才以Gp来综合。在此例中三个分表中G值分别是+0.34(干部),+0.27(工人)和-0.18(农民),可见教育对自我形象的影响,在不同职业的人中使颇不相同的。

27

X与Y都是定类变项(或一个是定类变项而另一个是定序变项),可用Lambda或tau-y来测量两者的关系,而净Lambda(或净tau-y)就是依据控制变项的值把样本分组,然后计算各个分组的系数值的加权平均。

例9-10 以本章第一节中例9-3所讲的思想现代化研究为例,说明定类变项的净相关测量方法。

在这个例子中,X=职业种类(干部、工人、农民),Y=个人思想现代化(高、中、低 ),=教育水平(高、低),=城乡背景(小城、小镇、农村)。在样本(n=500)中算得X与Y的关系是tau-y=0.65,为证明二者的关系是否虚假我们引进了和作为前置变项。将样本依分组,发现在高教育组(=306)中tau-y=0.45,在低教育组(=194)中tau-y=0.31,因此在控制以后X与Y的净相关是:

又将样本依分组,发现在大城市组(=200)tau-y=0.50,在小镇组(=160)中tau-y=0.28,在农村组(=140)中tau-y=0.10,因此在控制以后X与Y的净相关是:

显然,在分别控制和以后X与Y的关系减弱了,但仍然是有关系。相对之下,的解释力(tau-y.2=0.32)略为大于(tau-y.1=0.40),但皆未能完全否定X与Y的因果关系。

现在,我们要同时控制和,看能否消除X与Y的关系。同时以和来分组,发现在六个分组中tau-y值分别是:0.01(大城市高教育,

28

推论总体的情况。

例9-11 研究不同教育水平(高、中、低)的人是否对同性恋有不同看法(接受、反对),从一个随机样本中算出

=16.092。倘若所要求的显著度是0.05,从附录六中可查得df=

29

第十章 多因分析

多因统计分析,目的是要理解多个自变项(,,等)对某个依变项(Y)的共同影响力有多少,且进而求出相比较而言哪些自变项的影响力较强。多个自变项的共同效果和相对效果是社会学研究中常关心的问题。

第一节 复相关 (可测量多个自变项与一个依变项的相关程度)

30

例10-1 以第九章第四节的表9-6的资料为例,我们要研究耕地人口比例(远近()这两个自变项对村工业化程度(Y)这个依变项的共同影响。 由于三者都是定距变项,可用复相关系数来测量。已知:

)与离城

代入公式,可得:

因此,就是

对Y的共同影响是颇强的(R=0.65),能够消减42%的误差。至于疏离系数,1-0.42=0.58,表示尚有58%的误差是需要引进其他变项来解释。

注:在小样本和多变项两种情况下,最好用修正复相关值:在本例中,由于R=0.65,n=29,k=2,修正复相关值就是:

修正后的R值略小,但较为准确。

如是随机抽样,可用F检定法作统计推论。 研究假设()是:R≠0, 虚无假设()是:R=0。 计算F比率的方法是:

假定本例中的29个村是从某县用随机方法抽取的,由于n=29,k=2,

=0.42,所以:

如果要求的显著度是0.001,则从附录七的F分布中可查得的否定域是F≥9.12。由于样本的检定值(F=9.41)的否定域的范围内,故否定(即否定总体中R=0)。研究结论是:村的工业化程度是同时受耕地人口比例和离城远近影响的,显著度大小0.001。

31

第二节 多因回归

多因线性回归分析,可以两个或两个以上的自变项来预测一个依变项的数值,同时通

过使各个X变项互相控制,比较各个自变项的影响力的大小。

例10-2 我们再以第九章第四节的表9-6的资料为例,对多因回归问题作进一步介绍。 假如已知-0.51,,代入公式可得:

从表9-6的数值中,可算出

的均值和标准差分别是:

代入公式可得:

综合起来,就是:

根据第二个方程式(标准化),可知

对Y皆有负向效果,但相对上

=-0.15)。注意:这是在互相控制以后所作的比较。再者,我们可以计算分别决定系数如下:

32

例10-3 要研究某省各县的失业率()、都市化程度(即城镇人口比例,)和平均教育水平(即平均上学年数,)对犯罪率(Y)的影响。发现复相关是:R=0.815,表示这三个自变项可以共同解释66.4%的误差()。然三者的相对效果是怎样的呢? 据各县的资料算得:

运用推算B值的通用公式:

可分别求得对应于、

和的公式如下:

用代数方法解这三个方程,就可求得:

标准化线性回归方程式就是:

比较各个B权数(只看绝对值),可见在相互控制以后,(失业率)的影响力最强,次为(都市化),而以(教育)的效果最弱。再者,和对Y都有正向效果,但的效果是负向的。

如果进行估计或预测的工作,可将B权数化为b值。当然,先要计算每个变项的标准差和均值,结果是:

则可以算出:

因此:

运用这个线性回归方程式,就可以估计或预测任何一个县的Y值(犯罪率)。

33

统计推论的方法。如果是随机样本,可用F分布来检定每个B权数或每个b值在总体中的情况。

若只有两个自变项(k=2)的话,则:

计算部分净相关系数和复相关系数,就可求得F比率的数值。

在有关农村耕地人口比例和离城远近对工业化的影响的例子中,如要

所以:

34

第三节 逐步回归

不同于多因回归分析将所有自变项一起放进方程式内,逐步回归分析(俗称“钓鱼技术”)是使各个自变项依先后次序进入回归方程式。;谁先谁后,既可以取决于相对的统计重要性,也可取决于理论的要求。逐步回归分析的目的是从众多的自变项中找出一些最重要的自变项,使研究结果得以简化。 1.统计重要性 如有四个自变项(),可以按照下列次序作回归分析:

2、理论要求

第四节 交互分类与虚构变项

对于定类或定序变项,可用交互分类的方式来研究多个自变项对一个依变项的共同影响。也可通过将每个定类或定序变项变为一组虚构变项,当做定距变项而进行统计分析。

例10-4 研究性别()与城乡背景()对封建思想(Y)的影响。 如果三者都是二分变项,只要分别变为虚构变项:性别(女=1,男=0),城乡背景(城=1,乡=0),和封建思想(是=1,否=0),就可以采用积矩相关系数来计算 与Y的关系()或与Y的关系(),也可计算复相关系数()来表示共同效果,而且可以回归分析(或)来预测Y值或分析两个自变项、的相对效果。

35

本文来源:https://www.bwwdw.com/article/r4or.html

Top