社会统计学期末复习题与答案整理

更新时间:2023-03-18 01:45:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

社会统计学期末复习训练

一、单项选择题 (20=2×10) 1.为了解IT行业从业者收入水平,某研究机构从全市IT行业从业者随机抽取800人作为样本进行调查,其中44%回答他们的月收入在6000元以上,30%回答他们每月用于娱乐消费在1000元以上。此处800人是.样本

2.某地区政府想了解全市332.1万户家庭年均收入水平,从中抽取3000户家庭进行调查,以推断所有家庭的年均收入水平。这项研究的总体是 332.1户家庭的年均收入

3.学校后勤集团想了解学校22000学生的每月生活费用,从中抽取2200名学生进行调查,以推断所有学生的每月生活费用水平。这项研究的总体是 22000名学生的每月生活费用 4.为了解地区的消费,从该地区随机抽取5000户进行调查,其中30%回答他们的月消费在5000元以上,40%回答他们每月用于通讯、网络的费用在300元以上。此处5000户是 样本5.从变量分类看,下列变量属于定序变量的是 产品等级 6.下列变量属于数值型变量的是工资收入 7.从含有N个元素的总体中,抽取n个元素作为样本,同时保证总体中每个元素都有相同的机会入选样本,这样的抽样方式称为.简单随机抽样

8.某班级有60名男生,40名女生,为了了解学生购书支出,从男生中抽取12名学生,从女生中抽取8名学生进行调查。这种调查方法属于分层抽样 9.先将总体按某标志分为不同的类别或层次,然后在各个类别中采用简单随机抽样或系统抽样的方式抽取子样本,这样的抽样方式称为分层抽样

10.某班级有100名学生,为了了解学生消费水平,将所有学生按照学习成绩排序后,在前十名学生中随机抽出成绩为第3名的学生,后面依次选出第13、23、33、43、53、63、73、83、93九名同学进行调查。这种调查方法属于 系统抽样

11.在频数分布表中,某一小组中数据个数占总数据个数的比例称为频率

12.在频数分布表中,将各个有序类别或组的百分比逐级累加起来称为累积频率 13.在频数分布表中,频率是指各组频数与总频数之比 14.在频数分布表中,比率是指不同小组的频数之比

15.如果用一个图形描述比较两个或多个样本或总体的结构性问题时,适合选用环形图 16.某地区2001-2010年人口总量(单位:万人)分别为98,102,103,106,108,109,110,111,114,115,下列哪种图形最适合描述这些数据 线图

17.当我们用图形描述甲乙两地区的人口年龄结构时,适合选用哪种图形环形图

18.在某市随机抽取10家企业,7月份利润额(单位:万元)分别为72.0、63.1、20.0、

23.0、54.7、54.3、23.9、25.0、26.9、29.0,那么这10家企业7月份利润额均值为 39.19 19.某班级10名同学期末统计课考试分数分别为76、93、95、80、92、83、88、90、92、72,那么该班考试成绩的中位数是 89

20.某企业职工的月收入水平分为五组:1)1500元及以下;2)1500-2000元;3)2000-2500元;4)2500-3000元;5)3000元及以上,则3000元及以上这一组的组中值为 3250元 21.为了解某行业12月份利润状况,随机抽取5家企业,12月份利润额(单位:万元)分别为65、23、54、45、39,那么这5家企业12月份利润额均值为 45.2

22.某专业共8名同学,他们的统计课成绩分别为86、77、97、94、82、90、83、92,那么该班考试成绩的中位数是 88

23.某班级学生平均每天上网时间可以分为以下六组:1)1小时及以下;2)1-2小时;3)2-3小时;4)3-4小时;5)4-5小时;6)5小时及以上,则5小时及以上这一组的组中值近似为5.5小时

1

24.对于左偏分布,平均数、中位数和众数之间的关系是众数>中位数>平均数 25.对于右偏分布,平均数、中位数和众数之间的关系是平均数>中位数>众数 26.离散系数的主要目的是比较多组数据的离散程度

27.两组数据的平均数不相等,但是标准差相等。那么 平均数大的,离散程度小

28.已知某单位平均月收入为3500元,离散系数为0.2,那么他们月收入的标准差为700 29.一班学生的平均体重均为55千克,二班学生的平均体重为52千克,两个班级学生体重的标准差均为5千克。那么 二班学生体重的离散程度大 30.已知某单位平均月收入标准差为700元,离散系数为0.2,那么他们月收入的均值为3500 31. 正态分布中,?值越小,则 离散趋势越小

32.已知某单位职工平均每月工资为3000元,标准差为500元。如果职工的月收入是正态分布,可以判断月收入在2500元—3500元之间的职工人数大约占总体的68% 33.如果一组数据中某一个数值的标准分值为-1.5,这表明该数值比平均数低1.5个标准差 34.某班级学生期末英语考试平均成绩为75分,标准差为10分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在65-85之间的学生大约占全班学生的68%

35.经验法则表明,当一组数据正太分布时,在平均数加减2个标准差的范围之内大约有 95%的数据

36.期中考试中,某班级学生统计学平均成绩为80分,标准差为4分。如果学生的成绩是正太分布,可以判断成绩在72分-88分之间的学生大约占总体的95%

37.如果一组数据中某个数值的标准分值为1.8,这表明该数值比平均数高出1.8个标准差 38.某班级学生期末统计学考试平均成绩为82分,标准差为5分。如果已知这个班学生的考试分数服从正态分布,可以判断成绩在77-87之间的学生大约占全班学生的68%

39.经验法则表明,当一组数据正态分布时,在平均数加减1个标准差的范围之内大约有 68%的数据

40.用样本统计量的值直接作为总体参数的估计值,这种方法称为点估计

41.用样本统计量的值构造一个置信区间,作为总体参数的估计,这种方法称为区间估计 42.某单位对该厂第一加工车间残品率的估计高达10%,而该车间主任认为该比例(?)偏高。如果要检验该说法是否正确,则假设形式应该是

H0:?≥0.1;错误!未找到引用源。

?<0.1

43.某单位对该厂第一加工车间残品率估计高达13%,而该车间主任认为该比例(?)偏高。如果要检验该说法是否正确,则假设形式应该为

H0:?≥0.13;错误!未找到引用源。

?<0.13

44.在假设检验中,不拒绝虚无假设意味着没有证据证明虚无假设是错误的 45.在假设检验中,虚无假设和备择假设有且只有一个成立

46.在假设检验中,如果所计算出的P值越大,那么检验的结果 越不显著 47.在假设检验中,如果所计算出的P值越小,那么检验的结果 越显著

48.根据一个具体的样本求出的总体均值90%的置信区间以90%的概率包含总体均值

49.根据一个样本均值求出的90%的置信区间表明总体均值有90%的概率会落入该区间内 50.根据一个具体的样本求出的总体均值95%的置信区间以95%的概率包含总体均值 51.用于说明回归方程中拟合优度的统计量主要是判定系数 52.两个定类变量之间的相关分析可以使用?系数 53.判断下列哪一个不可能是相关系数1.2

2

54.判断下列哪一个不可能是相关系数1.32

55.如果收入与支出之间的线性相关系数为0.92,那么二者之间存在着高度相关

56.如果物价与销售量之间的线性相关系数为-0.87,而且二者之间具有统计显著性,那么二者之间存在着高度相关

57. 某项研究中欲分析受教育年限每增长一年,收入如何变化,下列哪种方法最合适 回归 58.在回归方程中,若回归系数等于0,这表明自变量x对因变量y的影响是不显著的 59.对消费的回归分析中,学历、年龄、户口、性别、收入都是因变量,其中收入的回归系数为0.8,这表明 消费每增加1元,收入增加0.8元

60.在因变量的总离差平方和中,如果回归和所占的比例越大,则两变量之间相关程度越高 61.回归平方和(SSR)反映y的总变差中由于x与y之间的线性关系引起的y的变化部分 62.对于线性回归,在因变量的总离差平方和中,如果残差平方和所占比例越大,那么两个变量之间相关程度越小

63.对于线性回归,在因变量的总离差平方和中,如果回归平方和所占比例越大,那么两个变量之间相关程度越大

64.在因变量的总离差平方和中,如果回归平方和所占的比例越小,则自变量和因变量之间相关程度越低

65.方差分析的目的是研究各分类自变量对数值型因变量的影响是否显著 66.下面哪一项不是方差分析中的假定各总体的方差等于0 67.下列哪种情况不适合用方差分析年龄对收入的影响

68.从两个总体中各选取了6个观察值,得到组间平方和为234,组内平方和为484,则组间方差和组内方差分别为234,48.4

69.从两个总体中共选取了8个观察值,得到组间平方和为432,组内平方和为426,则组间均方和组内均方分别为432,71

70.在方差分析中,某一水平下样本数据之间的误差称为组内误差

3

二、名词解释

1.离散变量与连续变量 P10

(1)离散变量 如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1,2,3?。离散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。

(2)连续变量

如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量

可以取无数多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。

2.总体与样本 P11

总体是构成它的所有个体的集合,个体则是构成总体的最基本的单位。样本就是从总体中按照一定方式抽取的一部分个体的集合。 例如,要从某省所有育龄妇女

中抽取1000人进行调查进行调查,那么,该省所有育龄妇女就是研究总体,其中每一位育龄妇女就是个体,而抽取出的1000名育龄妇女就构成为了该总体的一个样本。

3.抽样单位与抽样框 P11

抽样单位就是一次直接的抽样所使用的基本单位。抽样单位有时与构成总体的个体是相同的,有时是不同的。例如对育龄妇女的调查,当直接抽取育龄妇女时,两

者是相同的;当我们从总体中一次直接抽取户时,以抽中的户中的育龄妇女作为样本时,抽样单位(户)与个体(育龄妇女)就不相同了。

抽样框是指一次直接抽样时样本中所有抽样单位的名单。例如,从某校中抽取

200名学生进行就业观的调查,那么这所学校的所有学生的名单就是这次抽样的抽样框。但是,当我们先抽取班级,以抽中班级中的所有学生作为样本时,这所学校所有班级的名单就是这次抽样的抽样框。

4.普查与抽样调查 P12

(1)普查

4

普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。 (2)抽样调查

抽样调查是从总体中选取部分个体组成样本进行调查的一种方式,其目的在于根据样本的调查结果推断总体特征。根据抽取样本的方法不同,抽样调查可以分为:概率抽样和非概率抽样。

5.普查 P12

普查是一种专门的调查,它是为了某种特定的目的而对总体中所有的个体进行的一次全面调查。例如,我们历年进行的人口普查、工业普查、农业普查、第三产业普查、经济普查、统计基本单位普查等。

6.概率抽样 P13

概率抽样就是按照随机原则进行的抽样,总体中每个个体都有一定的、非零的概率入选样本,并且入选样本的概率都是已知的或可以计算的。包括:简单随机抽样、系统抽样、分层抽样、整群抽样、多阶段抽样。

7.众数 P68

1、众数

众数是一组数据中出现频数最多的数值,用Mo表示。例如,一个城市有多种产业,但如果以旅游业为最多,那么旅游业就是众数,这个城市也被称为旅游城市。

8.中位数 P73

2、中位数

中位数是中心趋势的一种测量,是将一组数据排序后,处于中间位置的变量值,用Me表示。中位数处于中间位置,前后每部分均包括50%的数据,而且前面部分小于中位数、后面部分大于中位数。例如,在职工收入水平差异比较大的单位,

要了解职工收入的一般水平,用职工收入分布的中位数作为收入水平的代表值要比用算术平均数更恰当,因为它排除了极端数据的影响。

9.均值 P78

4、均值

均值是集中趋势最主要的测量值,它是将全部数据进行加总然后除以数据总

5

个数,也称为算数平均数。均值包含一组数据中所有数值,它是先将所有数值进行加总,然后进行平均,在均值中所有数值都有所体现。因而,我们说均值是集中趋势最主要的测量值。

10.方差与标准差 P95

6、方差

方差是各数值与均值离差平方的平均数,它是数值型数据离散趋势最主要的测量值。与平均差不同的是,方差采用平方的方式避免避免正、负抵消带来的问题,但是采用平方的方式给方差的解释带来一定的困难。 7、标准差

标准差是方差的平方根,用于测量数值型数据离散趋势。标准差克服了方差面临的夸大离散程度、不容易解释的问题。与方差相比,标准差是有量纲的,它与变量值的单位相同,容易解释。在实际中,标准差使用更为普遍。

11.离散系数 P100

8、离散系数

离散系数是一组数据的标准差与该组数据均值之比,也称为变异系数。离散系数是测量数据离散程

度的相对指标,通常用Vs适用于数值型数据离散程度的测量。

12.正态分布 P103 1、正态分布

连续性随机变量中重要的分布是钟型概率分布,就是正态分布(normal distribution),也称为常态分布,是一种连续型随机变量的概率分布。学生的身高、

体重、成绩等都是正态分布常见的例子,很高、很矮的都比较少,多数处于正常身高;很胖、很瘦的也较少,多数是正常体重;成绩很高和很低的是少数,多数同学属于中等成绩。

13.参数与统计量 P127,P128 4、参数与统计量

6

参数是研究者想要了解的总体的某种特征值。通常情况下,我们关心的总体的参数主

要有总体平均数(μ)、标准差(σ)、比例(π)等。

统计量是根据样本数据计算出来的一个量。样本统计量主要有样本平均数(X)、样本

标准差(S)、样本比例(P)等。与参数不同,统计量是根据样本数据计算出来的、有关样本的特征值,因而统计量是知道的、可以计算的,是估计总体参数的依据。

14.抽样分布 P129 5、抽样分布

抽样分布是指样本统计量的概率分布,它是在重复选取容量为n的样本时,由每个样本计算出来的统计量数值的相对频数分布。例如样本均值的分布、样本比例分

布等。

15. 中心极限定理 P130 1、中心极限定理

中心极限定理具体内容为:不论总体分布是否服从正态分布,从均值为μ、方差为σ

2

的总体中,抽取容量为n的随机样本,当n充分大时(通常要求n≥30),样本均值X的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

16.区间估计 P134

区间估计是在估计总体参数时给出的不是一个数值,而是一个区间,是根据统计量的抽样分布的特点进行估计,同时给出总体参数落入这一区间的可能

?????1性大小。也就是要在给定值的前提下,去寻找两个统计量和2,使其满足????上述不等式。从而知道?落在区间(?1,?2)内的概率为1??,故也称(?1,?2)为?的区间估计。

17.置信水平 P135

置信水平就是将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例。

18. 假设检验 P140

假设检验是首先对总体参数建立一个假设,然后根据样本信息区检验这一假设是否正确。假设检验和参数估计都是建立在抽样分布的基础上。例如,某品牌

灯泡的寿命X服从正态分布(μ,125),厂方说它的平均工作寿命是1800小时。随机测试16次,得到的平均工作温度是1750度。样本结果与厂方所说的是否有显著差异?厂方的说法是否可以接受?这就是假设检

7

验要解决的问题。

19. 虚无假设与替换假设 P140 P141

将需要通过样本信息来推断其正确与否的命题称为虚无假设,也成为原假设或者零假设,通常用H0表示。如果虚无假设不成立,我们就拒绝虚无假设,需要在另个一假设中进行选择,这就是替换假设,替换假设通常用H1表示。

上面例子中,虚无假设为:

H0:μ=1800替换假设为:H1:μ≠1800a

20.二维表 P152 二维表

二维表就是行列交叉的表格,将两个变量一个分行排放,一个分列排放,行列交叉处就是同属于两个变量的不同类的数据,也称为列联表。例如,对某单位

职工学历进行分析,随机抽取262名进行调查,性别、学历二维表如下所示:

对某项政策态度的调查结果

初中及以下 高中 专科 本科及以上 合计 男 24 35 34 54 147 女 32 40 21 22 115 合计 56 75 55 76 262

21.误差减少比例 P158 1、误差减少比例

在预测变量Y的值时,知道变量X的值时所减少的误差(E1-E2)与总误差E1的比值称为误差减少比例(proportional reduction of error),简称PRE。取值范围为0~1,PRE值越大,说明用变量X去预测变量Y是能够减少的误差所占的比例越大,即变量X与变量Y之间的相关性越大。

E1?E2公式为:PRE=E1

例如,PRE=0.7,说明以变量X预测变量Y时能减少70%的误差,说明二者之间关系较强。

8

22.散点图 P165 散点图

散点图是在坐标系中,用X轴表示自变量x,用Y轴表示因变量y,而变量组(x,y)则用坐标系中的点表示,不同的变量组在坐标系中形成不同的散点,用坐标系及其坐标系中的散点形成的二维图就是散点图。

散点图是描述变量关系的一种直观方法,从散点图中直观的看出两个变量之间是否存在相关关系、是正线性相关还是负线性相关,也可以大致看出变量之间关系强度如何,但是对于具体关系强度则需要相关系数来判断。

23.相关系数 P170

相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的相关关系时我们称之为简单相关系数。总体相关系数用ρ表示,样本相关系数一般用r表示。

24.最小二乘法 P180

对于变量x和y的观察值,有多条直线可以描述,其中距离各观测值最近的一条直线对x与y之间的关系的描述与实际的误差最小。最小二乘法是使因变

??量的观察值与估计值之间的离差平方和达到最小来求参数?0合?1的方法,即使得:

????x??n?2???yi????yi?y01i2?最小

25.独立样本与配对样本 P207,P203 独立样本

独立样本(independent sample)是指我们得到的样本总体之间是相互独立的。比

如我们要研究一个地区百姓的生活水平,要同时考察家庭的子女数x,父母的教育水平y,这就可以看做是独立样本。两个样本容量当总体标准差

n1和n2都小于30,或其中一个小于30的两独立样本为独立小样本。

?1和?2未知时,独立小样本均值之差的检验采用t检验。

配对样本

配对样本(matched sample)就是一个样本中的数据与另一个样本中的数据相对应的两个样本。配对样本可以消除由于样本指定的不公平造成的差异。在选择配对样本时,可以将两种同质对象分别接受两种不同的处理。

26. 组内均方 P218

组内误差的自由度为全部观察值个数减去因素水平个数,即n-k,其中n为全部观察值个数,k为因素水平的个数。SSE的均方记作MSE,称为组

9

内均方。其计算公式为:

MSE=

组内平方和SSE? n?k自由度

三、简答题

1.举例简要说明社会研究过程。 P4

系统、完整的社会研究通常遵循着比较固定的过程,一般包括五个主要过程:提出问题、形成假设、收集数据、分析数据、检验假设。 1、提出问题:是社会研究的第一步,研究者应首先明确要做什么,或者说进行研究的目的是什么。 2、形成假设:研究问题往往是无法直接检验的,而是要把研究问题形成假设才可以进行检验。也就是对两个变量间关系进行尝试性回答。 3、收集数据:是社会研究的关键步骤。 4、分析数据:对收集的原始数据进行系统的审核、整理、归类、统计和分析。 5、检验假设:完成对数据的统计分析后,我们要开始进行最后一步——根据对数据的分析来检验我们之前的假设和理论。

2.按测度水平,变量可分为哪几类?并举例说明。 P7

变量分类(按测度水平): (1)定类变量

当变量值的含义仅表示个体的不同类别,而不能说明个体的大小、程度等其它特征时,这种变量称为定类变量。定类变量是最低层次的变量。在社会调查中,定类变量有很多,如性别、婚姻状态、民族、地区、职业.等。 性别可以分为男、女两类,我们可以用1表示男性,用2表示女性。民族可以分为汉族和少数民族,我们可以用1表示汉族,用2表示少数民族。 (2)定序变量

当变量值的含义不仅表示个体的不同类别,还可以区分个体之间大小、程度等序次差异时,这种变量称为定序变量。社会调查中,受教育程度是定序变量,可以分为文盲、小学、初中、高中、大专及以上等;人们对某种制度的态度可以分为非常同意、同意、中立、不同意、非常不同意等。 我们也可以用不同的数值1、2、3等表示不同的类别,但是这时候1、2、3等是包含大小的比较意义的,例如,用“1”表示文盲,用“2”表示小学,用“3”表示初中,用“4”表示高中,用“5”表示大专及以上。此处,数字1、2等不仅仅表示文化程度的分类,还表示文化程度的高低,1还代表最低的文化程度,2表示的文化程度要高于1,5表示最高的文化程度。 (3)定距变量

当变量值不仅可以将个体区分为不同类型并进行排序,而且可以确定不同类别之间的数量差别和间隔差距时,这样的变量称为定距变量。定距变量具有

10

测量单位,这些测量单位具有不变的相等区间的标准,使个体之间的比较更具客观性。智商、温度等都是定距变量。 定距变量的变量值是用数值表示的,同一度量单位之间我们可以准确的计算出个体之间的差值。例如,地区甲的温度是0°,地区乙的温度是8°,则甲的温度比乙的温度低8°,而在定类和定序变量中则不能这样。在定距变量中,0的选取只是为了方便或习惯,0只表示一个数值,而不表示该现象不存在。如地区乙的温度=0°,并不是说地区乙没有温度;一个人的智商=0,并不是说这个人没有智商。 (4)定比变量

除了上述三种变量的全部特征外,还可以计算两个变量值之间的比值时,这样的变量称为定比变量。定比变量是最高层次的变量。在社会调查中,很多情况下我们使用的都是定比变量,例如身高、年龄、收入、一个地区的人口数、某产品的生产量等。 定比变量的变量值也是用数值表示,但是与定距变量相比,两者的唯一区别是,定比变量有绝对零点,即定比变量中的“0”是有实际意义的数值。例如,一个人的身高是0米,则表示这个人不存在;一个人的收入是0元,则表示这个人没有收入。同样,由于定比变量中有绝对零点,除可以进行“=”或“≠”、“>”或“<”比较外,它还可以进行“+”、“-”、“×”、“÷”运算。例如,职工甲每月收入是7500元,职工乙每月收入是2500元,我们可以说职工甲比职工乙每月多收入5000元,也可以说职工甲每月的收入是职工乙的3倍。

3.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。

(1)网络供应商的姓名 定性变量

(2)每月的网络服务费 定量变量 连续变量 (3)每月上网时间 定量变量 连续变量 (4)上网的主要目的 定性变量

(5)上周收到的电子邮件数量 定量变量 离散变量 (6)每月用于网上购物的金额 定量变量 连续变量 (7)上月网上购物的次数 定量变量 离散变量 (8)使用的电脑的品牌 定性变量 (9)上网是否玩游戏 定性变量

(10)电脑是否带有光盘刻录机 定性变量

4.判断以下随机变量是定性变量还是定量变量,如果是定量变量,确定是离散变量还是连续变量。

(1)考研辅导班参加者的姓名 定性变量 (2)家庭月消费 定量变量 连续变量 (3)温度 定量变量 连续变量 (4)上个月外出吃饭的次数 定量变量 离散变量 (5)产品等级 定性变量

5.举例说明什么是自变量和因变量,二者之间是什么关系? P10

变量分类(按变量间关系)——自变量与因变量

11

两个变量之间,如果一个变量的变化能引起其他变量变化则称之为自变量,而将由于其他变量的变化而导致自身发生变化的变量称为因变量。

自变量与因变量之间的关系既有时间上的先后关系,即现因后果,同时还有因果关系,即因变量的变化是以自变量的变化为前提。例如我们常说的“小树长高,

我也长高”,但是不能说“我长高”是因变量,“小树长高”是自变量,两者只是有时间上的先后关系,而没有必然联系。自变量与因变量之间还必须是例如,受教育程度增加,收入增加,这两者就是因果关系,受教育程度是自变量,收入是因变量。

6.举例说明什么是离散变量和连续变量。 P10

(1)离散变量

如果一个变量的变量值是间断的,可以一一列举的,这种变量称为离散变量。例如,某人兄弟姐妹数、结婚次数、工厂生产产品的数量等,其变量值的取值是0,1,2,3?。离

散变量的取值是有限个值,而且其取值都是以整数位断开的,是有最小计量单位的。例如,某人的兄弟姐妹数,只能是1个、2个、3个等,而不能是1.3个、2.5个等。

(2)连续变量

如果一个变量的变量值是连续不断的,即可以取无数多个数值,这种变量称为连续变量。例如,年龄、温度、灯泡的寿命等,它们的取值是连续不断的。连续变量可以取无数

多个值,其取值是连续不断,不可以一一列举的,而且,它们没有最小计量单位。例如,年龄可以是1岁整,也可以是1.2岁、1.45岁、2.544岁等。

7.概率抽样方法主要包括哪几种?

答:概率抽样主要的方式有:简单随机抽样、系统抽样、分层抽样、整群抽

样、多阶段抽样等。

8.调查方法主要包括哪几种?简要说明各种方法的优缺点。 P16

(1)问卷法

问卷法是调查者根据一定的目的和要求,采用事先设计好的问卷,向被调查者了解情况,征询意见的一种方法。问卷法广泛应用于社会学、人口学、教育学、管理学、心理学等领域中。 (2)访谈法

访谈法是指由调查员直接对被调查员进行访问和交谈,并记录调查结果的方法。访谈法是以口头语言为中介、调查者与被调查者面对面的交谈和互动的过程。

(3)观察法

观察法是指研究者深入到所要研究对象的生活背景中,在实际参与研究对象的日常生活的过程中直接记录研究对象的有关资料的方法。

12

(4)典型组讨论

典型组讨论是由8~12个具有某些共同特征或经历的人,在一个经过专门培训主持人的引导下、围绕着某一专门话题进行互动小组讨论的一种定性调查方式。目前有地方使用的电话典型组、网络典型组、视频典型组都是典型组讨论的方式之一。

9.数据分析中的归纳法和演绎法分别是什么? P19

数据分析法

(1)归纳法与演绎法

归纳法与演绎法是社会研究的两种基本推理方式。归纳法是从特殊到一般,也就是从一组具体的观察结果推导出一般性的规律或法则;演绎法则与归纳法正好相反,是从一般到特殊,也就是研究者从想要检验的一般性理论开始,然后去观察、收集资料,通过这些资料来检验这个理论。

10.SPSS主要有哪些功能? P25统计分析功能和数据管理功能。 11.在SPSS中如何定义变量属性? P30

变量属性 SPSS中变量有三种基本类型:数值型、字符型、日期型。 (1)数值型变量

数值型变量是SPSS中最常用的变量类型。数值型变量包括标准数值型、逗号数值型、圆点数值型、科学计数法型、美元数值型、自定义型。 (2)字符型变量

字符型变量也是SPSS中比较常用的数据类型,默认长度为8。例如姓名、地点等都可以定义为字符型变量,字符型变量不能参与运算。 (3)日期型变量

日期型变量可以用来表示日期,也可以表示时间,例如调查时间、出生日期等都可以定义为日期型变量。

12.等距分组和不等距分组有什么区别?请举例说明。 P46

在分组时,如果分组组距相等,就是等距分组,如:学生平均每天上网时间:组距设3,分成3-6,6-9,9-12,12-15共4个小组。如果分组组距不相等,就是不等距分组。如:人口分析,分婴幼儿组(0-6),少儿组(7-17),中青年组(18-59),老人组(60-130),组距不相等。

13.统计表主要由哪几部分构成?

13

答:统计表主要有标题、标目、线条、数字四部分构成,有些统计表还有备注。

14.条形图和直方图有什么区别? P63

(1)条形图:用宽度相同的条形的高度或者长短来表示数据多少的图形。条形图既可以横置也可以纵置,纵置时也可以称为柱形图。 条形图的绘制

在绘制条形图时,如果将类别放在纵轴,即条形图横置,称为条形图;如果将类别放在横轴,即纵置,称为柱形图。绘制条形图是既可以绘制成二维平面图,也可以绘制成三维立体图。 直方图的定义

直方图:就是用矩形的宽度和高度来表示频数分布的图形。

在平面直角坐标系中,我们用横轴表示数据分组,用纵轴表示频数或频率,各个组的频数与频率形成一个小矩形,就是直方图。

15. 简述众数、中位数和平均数作为测量中心趋势的指标所适用的数据类型。P82,P83

众数只与变量值出现的次数有关,适用于定序数据、定类数据和数值型数据中心趋势的测量。但主要适用于定类数据中心趋势的测量,

中位数只与变量值的排序有关,因而它适用于定序数据和数值型数据中心趋势的测量。但主要适用于定序数据中心趋势的测量,

平均数是将所有数据加总后除以数据总个数得出的。主要适用于数值型数据中心趋势的测量。

数值型数据也可以用众数和中位数测量中心趋势,但均值最佳。

16. 简述定类变量、定序变量和数值型变量集中趋势测量的方法。与第二题一样 P83的表格

定类数据 定序数据 数值型数据 数据类型 适用的测量值 众数

中位数 分位数 均值 中位数 14

相关系数

众数 分位数 众数 17.简述相关系数的取值与意义。 P174

相关系数就是对变量之间相关关系程度和方向的度量。当研究两个变量之间的相关关系时我们称之为简单相关系数。总体相关系数用ρ表示,样本相关系数一般用r表示。1、符号:如果为正号,则表示正相关,如果为负号,则表示负相关。

通俗点说,正相关就是变量会与参照数同方向变动,负相关就是变量与参照数反向变动; 2、取值为0,这是极端,表示不相关;3、取值为1,表示完全正相关,而且呈同向变动的幅度是一样的;4、如果为-1,表示完全负相关,以同样的幅度反向变动;5、取值范围:[-1,1].相关系数的绝对值越大,相关程度越强,相关系数的绝对值越小,相关程度越

弱。

18. 什么是回归分析?其作用是什么? P177 4、回归分析

回归分析是通过一定的数学表达式将变量间的关系进行描述,确定一个变量或几个变量的变化对另一个特定变量的影响,是进行估计或预测的一种方法,侧重于考察变量之间的数量伴随关系。

回归分析的作用是①从一组数据出发确定某些变量之间的定量关系式,

②对变量间这些关系式进行统计检验。并从影响某一个变量的多个变量中找出影响显著的变量③利用所求出的关系式,根据一个变量或多个变量取值估计或预测另一个特定变量的取值。

19. 什么是简单一元线性回归分析?其作用是什么? P178

一元线性回归就是对具有线性相关关系的两个变量之间(其中一个为自变量)数量变化的一般关系进行预测,确定相应的数学关系式,以便进行估计或预测。通常将描述因变量y如何依赖自变量x和误差项e的方程称为回归模型。一元线性回归模型表达式为:

y??0??1x??

20. 一元线性回归模型中有哪些基本假定 P179 一元回归模型的三个基本假定

(1)误差项?是一个期望值为0的随机变量,即E(?)=0。在一个回归模型

15

?0和?1都是常数,中,因而,对于一个特定的x值,y的期望值为E(y)= ?0??1x。

(2)对于所有的x值,?的方差?都是相同的。

2(3)误差项?是一个服从正态分布的随机变量,而且互相独立,即?~N(0,1)。

21.如何对配对样本进行t检验。 P203 (1)配对样本T检验方法

配对样本检验主要是判断不同的处理或试验结果是否有差异。配对样本T检验(Paired—Sample T test)用于检验两个相关的样本(配对样本)是否来自具有相同均值的总体,因此针对配对样本我们可以首先计算出两个样本每个对应变量间的差值,然后再检验其差值的均值是否为零,若均值接近于零(即在给定的置信区间内),说明两个样本均值在给定的置信水平上没有差异;若均值在给定置信区间以外,说明两个样本均值在给定的置信水平上有差异。 (2)利用SPSS进行配对样本T检验

在SPSS主菜单选中Analyze—>Compare Means—>Paired—Sample T Test,出现图11—4所示窗口。“Paired Variables”框中的变量作为分析变量,总是成对出现,指定要检验的两个变量到“Paired Variables”输入栏里的“Variable1”和“Variable2”中,在“Current Selections”栏中就会显示被选中的成对变量,在“Options”选项中可以进行置信水平和缺失值的设置,同单样本T检验。

22.简要举例说明在分析双变量的关系时,t检验和卡方检验的主要区别。 P207

T检验(T Test)是最常见的一种假设检验类型,主要验证总体均值间是否存在显著性差异。T检验属于参数假设检验,所以它适用的范围是数值型的数据,在网站分析中可以是访问数、独立访客数、停留时间等,电子商务的订单数、销售额等。T检验还需要符合一个条件——总体符合正态分布。

卡方检验(chi-square test),也就是χ2检验,用来验证两个总体间某个比率之间是否存在显著性差异。卡方检验属于非参数假设检验,适用于布尔型或二项分布数据,基于两个概率间的比较,早期用于生产企业的产品合格率等,在网站分析中可以用于转化率、Bounce Rate等所有比率度量的比较分析,

23. 简要说明卡方的拟合优度检验和独立性检验的含义。 P178 2、拟合优度检验

(1)拟合优度检验

从总体的不同类别中抽取元素构成样本,样本包含总体中各个类别的元素,对不同类别的目标量之间是否存在显著性差异进行的检验称为拟合优度检验。拟合优度检验是?检验中重要的一部分,可以同时对多个总体进行比较。在?检验中,如果?22222统计量小于给定的??,那么就不能拒绝原假设,如果大于则拒绝。即?检验的拒绝2域是?>??(k-1),其中k-1是自由度。自由度是可以自由变动的变量个数,在列

2 16

联表中,自由度=(R-1)*(C-1)。 独立性检验

(1)独立性检验:?2检验还可用于判断两个分类变量之间是否存在联系,例如,对宿舍管理改革的态度是否与专业有关、对性行为的态度是否与学历有关等。如果两个分类变量之间没有关系,则称为独立,我们用?2判断它们之间是否关联,这时称为独立性检验。

17

四、计算题 (每题15分,共30分) 12-16题题型一样,公式自己抄

1.某校社会学专业同学统计课成绩如下表所示。

社会学专业同学统计课成绩表 学号 101023 101024 101025 101026 101027 101028 101029 101030 101031 101032 101033 101034 101035 101036 成绩 76 91 87 78 85 96 87 86 90 91 80 81 80 83 学号 101037 101038 101039 101040 101041 101042 101043 101044 101045 101046 101047 101048 101049 101050 成绩 75 70 76 90 76 86 97 93 92 82 80 90 88 77 学号 101052 101053 101054 101055 101056 101057 101058 101059 101060 101061 101062 101063 101064 101065 成绩 70 88 93 62 95 95 66 82 79 76 76 68 94 83 要求:

(1)对考试成绩按由低到高进行排序,求出众数、中位数和平均数。

(2)对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。

解答:(1) 对考试成绩按由低到高进行排序如下:

62,66,68,70,70,75,76,76,76,76,76,77,78,79,80,80,80,81,82,82,83,83,85,86,86,87,87,88,88,90,90,90,91,91,92,93,93,94,95,95,96,97

其中,众数为76,中位数为83,平均数为83.1

(2)对考试成绩进行适当分组,编制频数分布表如下: 按成绩分组(分) 60~70 70~80 80~90 90~100

2.某行业管理局所属40个企业2011年产品销售额数据如下所示。

40个企业2011年产品销售额 企业编号 1 销售额 152 企业编号 11 销售额 105 企业编号 21 销售额 103 企业编号 31 销售额 136 频数 3 11 15 13 累计频数 3 14 29 42 累计频率 7% 33% 69% 100% 18

2 3 4 5 6 7 8 9 10 105 117 97 124 119 108 88 129 115 12 13 14 15 16 17 18 19 20 123 116 115 110 115 100 87 107 119 22 23 24 25 26 27 28 29 30 103 137 138 91 118 120 112 95 142 32 33 34 35 36 37 38 39 40 146 127 135 117 113 104 125 108 126

要求:

(1)对2011年销售额按由低到高进行排序,求出众数、中位数和平均数。

(2)如果按照规定,销售额在125万元以上的为先进企业,115万-125万之间的为良好企业,105万-115万之间的为一般企业,105万以下的为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组,编制频数分布表,并计算累积频数和累积频率。

解答:(1) 对2011年销售额按由低到高进行排序如下:

87,88,91,95,97,100,103,103,104,105,105,107,108,108,110,112,113,115,115,115,116,117,117,118,119,119,120,123,124,125,126,127,129,135,136,137,138,142,146,152

得到众数为115 ; 中位数为115.5 ;平均数为116.175 。 (2)对企业按销售额进行适当分组,编制频数分布表如下:

等级 先进 良好 一般 落后

3.甲单位人均月收入4500元,标准差1200元。乙单位月收入分布如下所示。

乙单位月收入分布表 按收入分组(元) 3000分以下 3000~4000 4000~5000 5000~6000 6000以上 合计 人数(个) 120 420 540 420 300 1800 频数 11 12 8 9 累计频数 11 23 31 40 累计频率 27.5% 57.5% 77.5% 100%

要求:

(1)计算乙单位员工月收入的均值和标准差。

(2)比较甲单位和乙单位哪个单位员工月收入的离散程度更大?(提示:使用离散系数)

19

解答:对分组数据先求出各组的组中值

乙单位月收入分布表 按收入分组(元) 3000分以下 3000~4000 4000~5000 5000~6000 6000以上 合计 (1) 乙单位员工月收入的均值为

人数(个) 120 420 540 420 300 1800 组中值 2500 3500 4500 5500 6500 x乙?2500?120?3500?420?4500?540?5500?420?6500?300?4700

1800乙单位员工月收入的标准差为

?乙??(M?x)?fii2?fi(2500?4700)2?120?(3500?4700)2?420?(4500?4700)2?540?(5500?4700)2?420?(6500?1800?1166(2)甲单位员工收入的离散系数V甲?1200?0.267,乙单位员工收入的离散系数4500V乙?1166?0.248,故甲单位员工月收入的离散程度大。 4700

4.某校社会学专业共有两个班级。期末考试时,一班同学社会学理论平均成绩为86分,标准差为12分。二班同学成绩如下所示。

二班同学社会学理论成绩分组数据表

按成绩分组(分) 60分以下 60~70 70~80 80~90 90~100 合计 人数(个) 2 7 9 7 5 30 要求:

(1)计算二班同学考试成绩的均值和标准差。

(2)比较一班和二班哪个班成绩的离散程度更大?(提示:使用离散系数)

解答:对分组数据先求出各组的组中值

二班同学社会学理论成绩分组数据表 按成绩分组(分)

人数(个)fi 组中值Mi 20

60分以下 60~70 70~80 80~90 90~100 合计

(1) 二班同学考试成绩的均值为

2 7 9 7 5 30 55 65 75 85 95 55?2?65?7?75?9?85?7?95?5?77分

30二班同学考试成绩的标准差为

(55?77)2?2?(65?77)2?7?(75?77)2?9?(85?77)2?7?(95?77)2?5?11.7分

30(2)一班的成绩的离散系数为V1?1211.7?0.14,?0.15 二班的成绩的离散系数为V2?8677故二班的成绩的离散程度大。

5.某公司招聘职员时,要求对职员进行两项基本能力测试。已知,A项测试中平均分数为90分,标准差是12分;B考试中平均分数为200分,标准差为25分。一位应试者在A项测试中得了102分,在B项测试中得了215分。若两项测试的成绩均服从正太分布,该位应试者哪一项测试更理想? 解答:在A项测试中Z?102?90215?200?1,在B项测试中Z??0.6 1225说明该位应试者在A项测试中的成绩高于均值1倍的标准差,在B项测试中的成绩高于均

值0.6倍的标准差,故该位应试者A项测试成绩更理想。

6.一项关于大学生体重状况的研究发现,男生的平均体重为60千克,标准差为5千克;女生的平均体重为50千克,标准差为5千克。请问:

(1)是男生体重差异大还是女生体重差异大?为什么? (2)男生中有多少比重的人体重在55千克-65千克之间? (3)女生中有多少比重的人体重在40千克-60千克之间?

解答:(1)男生体重的离散系数V1?5?0.083,女生体重的离散系数为60V1?5?0.1,故女生体重差异大。 502(2) 男生体重X1~N(60,5),令Z1?X1?60~N(0,1),从而 555?60X1?6065?60P(55?X1?65)?P(??)?P(?1?Z1?1)?68%,

555X2?50~N(0,1),从而 5故男生中有68%的人体重在55~65千克之间。

2(3) 女生体重X2~N(50,5),令Z2? 21

P(40?X2?60)?P(40?50X2?5060?50??)?P(?2?Z2?2)?95%, 555故女生中有95%的人体重在40~60千克之间。

7.为估计每个网络用户每天上网的平均时间是多少,抽取了225个网络用户的简单随机样本,得到样本均值为6.5个小时,样本标准差为2.5个小时。

(1)试用95%的置信水平,计算网络用户每天平均上网时间的置信区间。

(2)在所调查的225个网络用户中,年龄在20岁以下的用户为90个。以95%的置信水平,计算年龄在20岁以下的网络用户比例的置信区间。

注:

Z0.025?1.96

解答:(1) 网络用户每天平均上网时间的95%的置信水平下置信区间为

(6.5?1.96?(2)P?2.52.5,6.5?1.96?) 即(6.17,6.83) 2252251?P?0.6

90?0.4,225年龄在20岁以下的网络用户比例的95%的置信水平下置信区间为

(0.4?1.96?0.4?0.60.4?0.6,0.4?1.96?) 即(0.34,0.46) 225225

8.为估计某地区每个家庭日均生活用水量为多少,抽取了450个家庭的简单随机样本,得到样本均值为200升,样本标准差为50升。

(1)试用95%的置信水平,计算该地区家庭日均用水量的置信区间。

(2)在所调查的450个家庭中,女性为户主的为180个。以95%的置信水平,计算女性为户主的家庭比例的置信区间。

注:

Z0.025?1.96

解答:(1) 95%的置信水平下,该地区家庭日均用水量的置信区间为

(200?1.96?(2)P?5050,200?1.96?) 即(195.4,204.6) 4504501?P?0.6

180?0.4,45095%的置信水平下,女性为户主的家庭比例比例的置信区间为

(0.4?1.96?0.4?0.60.4?0.6,0.4?1.96?) 即(0.345,0.445) 450450

9.某汽车生产商欲了解广告费用(万元)对销售量(辆)的影响。收集了过去12年的有关数据,通过分析得到:方程的截距为363,回归系数为1.42,回归平方和SSR=1600,残差平方和SSE=450。要求:

(1)写出销售量y与广告费用x之间的线性回归方程。

22

(2)假如明年计划投入广告费用为25万元,根据回归方程估计明年汽车销售量。 (3)计算判定系数R,并解释它的意义。

解答:(1) 销售量y与广告费用x之间的线性回归方程为y?363?1.42x

(2)假如明年计划投入广告费用为25万元,根据回归方程估计明年汽车销售量为398量。

(3)判定系数R?22^SSR1600??0.78,它表示回归平方和SSR占平方

SSR?SSE1600?450和SST的比例为78%,回归拟合程度较好。

10.某公司欲了解广告费用x对销售量y的影响,收集了20个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为364,回归系数为1.42,回归平方和SSR=1602708.6,残差平方和SSE=40158.07。要求:

(1)写出广告费用x与销售量y之间的线性回归方程。

(2)假如广告费用投入50000元,根据回归方程估计商品销售量。

(3)计算判定系数R,并解释它的意义。

解答:(1) 销售量y与广告费用x之间的线性回归方程为y?364?1.42x (2)假如广告费用投入50000元,根据回归方程估计商品销售量为71000。

(3)判定系数R?0.976,它表示回归平方和SSR占平方和SST的比例为97.6%,回归拟合程度很好。

11.某公司欲了解广告费用x对销售量y的影响,收集了16个地区的数据,并对x、y进行线性回归分析,得到:方程的截距为280,回归系数为1.6,回归平方和SSR=1503000,残差平方和SSE=38000。要求:

(1)写出广告费用x与销售量y之间的线性回归方程。

(2)假如广告费用投入80000元,根据回归方程估计商品的销售量。

(3)计算判定系数R,并解释它的意义。

解答:(1) 销售量y与广告费用x之间的线性回归方程为y?280?1.6x (2)假如广告费用投入80000元,根据回归方程估计商品销售量为128280。

(3)判定系数R?0.975,它表示回归平方和SSR占平方和SST的比例为97.5%,回归拟合程度很好。

12.某调查公司研究出租司机每天收入(元)与行驶里程(公里)之间的关系。对30位出租车司机进行调查,并根据每天的收入y、行驶里程x进行回归,得到:方程的截距为162,回归系数为0.6,回归平方和SSR=2600,残差平方和SSE=513。要求:

(1)写出每天的收入y与行驶里程x之间的线性回归方程。

222^^2^ 23

(2)假如某司机某天行驶了300公里,根据回归方程估计他该天的收入。 (3)计算判定系数R,并解释它的意义。

解答:(1) 每天的收入y与行驶里程x之间的线性回归方程为y?162?0.6x (2)假如某司机某天行驶了300公里,根据回归方程估计他该天的收入为342元。 (3)判定系数R?22^^2600?0.835,它表示回归平方和SSR占平方和SST的比例为

2600?51383.5%,回归拟合程度较好。

13.某单位为研究其商品的广告费用(x)对其销售量(y)的影响,收集了过去12年的有关数据。通过分析得到以下结果:

方差分析表 变差来源 回归 残差 总计 SS 1602708.6 40158.08 A df B C 11 MS D E — F F — — Sig. 0.000 — — 要求:

(1)计算上面方差分析表中A、B、C、D、E、F处的值。

(2)商品销售量的变差中有多少是由广告费用的差异引起的? (3)销售量与广告费用之间的相关系数是多少?

解答:(1) A=1642866.68 B=1 C=10 D=1602708.6 E=4015.808 F=399

(2)R?21602708.6?0.976,商品销售量的变差中有97。6%是由广告费用的

1642866.68差异引起的。

(3)销售量与广告费用之间的相关系数是0.987 。

14.某企业使用3种方法组装一种新的产品,为确定哪种方法生产效率最高,随机抽取30名工人,并指定每人使用其中的一种方法。通过对每个工人生产的产品数进行分析得到下面的方差分析表。请完成方差分析表。 变差来源 组间 组内 总计 解答: 变差来源 组间 组内 总计

SS df MS 210 F Sig. 0.000 — — 3836 29 — — — SS df MS 210 F Sig. 0.000 — — 24

420 3836 2 27 29 1.48 — — 142.1 — 4256

15.为研究某种商品的价格(x)对其销售量(y)的影响,收集了12个地区的有关数据。通过分析得到以下结果:

方差分析表 变差来源 回归 残差 总计 SS A 205158.07 1642866.67 df B E 11 MS C F — F D — — Sig. 0.000 — — 要求: (1)计算上面方差分析表中A、B、C、D、E、F处的值。 (2)商品销售量的变差中有多少是由价格的差异引起的? (3)销售量与价格之间的相关系数是多少?

解答:(1) A=1437708.6 B=1 C=1437708.6 D=70.1 E=10 F=20515.8 (2)商品销售量的变差中有R?21437708.6?87.5% 是由价格的差异引起的

1642866.67(3)销售量与价格之间的相关系数是0.935 。

16.某农科院使用4种方法培育稻米,为确定哪种方法生产效率最高,随机划出40块试验田,并指定每块试验田使用其中的一种方法。通过对每块试验田的产量进行分析得到下面的方差分析表。请完成方差分析表。 变差来源 组间 组内 总计 解答: 变差来源 组间 组内 总计 SS df MS 320 F Sig. 0.000 — — SS df MS 320 F Sig. 0.000 — — 6048 39 — — — 960 6048 3 36 39 1.9 — — 168 — 7008 25

本文来源:https://www.bwwdw.com/article/acrf.html

Top