管理数量方法与分析——课后习题答案

更新时间:2024-05-02 10:37:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

管理数量方法与分析—课后习题答案

第1章 数据分析的基础

思考与练习

1.什么是数据分组?它有哪些种类,各在什么情况下应用?

所谓数据分组,就是对某一变量的不同取值,按照其自身变动特点和研究需要划分成不同的组别,以便更好地研究该变量的分布特征及变动规律。根据变量的类型可分为:

⑴单项分组,若变量是离散型变量,且取值不多时采用;

⑵组距分组,若变量是连续型变量、或者是取值较多的离散型变量时采用。 2.什么是变量数列?如何编制变量数列?

在对变量取值进行分组的基础上,将各组不同的变量值与其变量值出现的次数排列成的数列,称为变量数列。

组距数列的编制过程: ⑴确定组数。

若变量的取值变动不均匀,如急剧增大、变小,变动幅度很大时,应采用异距分组;若变量的取值变动均匀,应采用等距分组。等距分组便于比较和分析处理,实践中应尽量采用等距分组。究竟分为多少组比较合适,可采用斯特吉斯公式计算:

M = 1 + 3.322 * LgN,N为变量值的个数,m为组数。 ⑵确定组距。

确定了分组的组数之后,接下来就需要确定出分组的组距。等距分组的组距可根据变量值的取值范围和已确定的组数确定,下式可计算组距的最小值:

d = (max(Xi) – min(Xi)) / m,d为组距,Xi为观测变量中的第i个变量值,m为组数。

⑶确定组限。

在确定了分组的组数和组距之后,就需要确定各组的组限。各组的组限应尽量用整数,特别是5和10的倍数来表示。用小于或等于变量最小值的整数作为最低一组的下限,然后依次每增加一个组距就是一个组限,直到组限值增加到比变量的最大值还大时即为最高组上限。

组限的表示方法随着变量的不同也有所不同。若变量是离散变量,则相邻两组中数值较小一组的上限和数值较大一组的下限可分别用相邻的两个整数值表示;若变量是连续变量或

是即可取整数又可取非整数的离散变量,则相邻两组中较小一组的上限和数值较大一组的下限只能用同一数值表示。为了不违反分组的互斥性原则,在后一种情况下,一般规定上限不包含在本组之内,称为上限不在内原则。

⑷计算各组的次数(频数)。

在确定了各组的组限以后,接着就需要计算出所有变量值中落入各组之内的变量值的个数,每组所分配的变量值的个数也就是该组的次数,又称频数。

⑸编制变量数列。

当各组变量值的变动范围和各组的次数确定之后,接下来就可以将各组变量值按照从小到大的顺序排列,并列出相对应的次数,就形成变量数列。

3.测度变量分布中心有何意义?测度指标有哪些,各有什么特点?均值、中位数和众数之间有什么关系?

揭示变量的分布中心有着十分重要的意义:

⑴变量的分布中心是变量取值的一个代表,可以用来反映其取值的一般水平。一个变量往往有许多个不同的取值,假若要用一个数值作为它们的代表,反映其一般水平,分布中心值无疑是一个最合适的数值。

⑵变量的分布中心可以揭示其取值的次数分布在直角坐标系上的集中位置,可以用来反映变量分布密度曲线的中心位置,即对称中心或尖峰位置。

测度指标有:

⑴算术平均数,又称均值,它是一组变量值的总和与其变量值的个数的比值,是测度变量分布中心最常用的指标。算术平均数的计算方法有:简单算术平均数、加权算术平均数。算术平均数容易受到极端变量值的影响。

⑵中位数,是指将某一变量的变量值按照从小到大的顺序排成一列,位于这列数中心位置上的那个变量值。中位数表明在顺序排列的变量值中,小于中位数的变量值的个数与大于中位数的变量值的个数是相等的。因此,用中位数来代表所排列变量值的一般水平能够避免受到这些变量值中出现的极端变量值的影响,在某些特定条件下它更具有代表性。

⑶众数,是指某一变量的全部取值中出现次数最多的那个变量值。在特殊的应用条件下,使用众数作为变量的一般代表值既简便又具有代表性。在许多场合只有众数才适合作为某一变量取值的代表值。

三者之间的关系:

算术平均数、中位数和众数三者之间在数量上的关系取决于变量值在数列中的分布状

况。

⑴在正态分布的情况下,变量值的分布是以算术平均数为中心,两边呈对称型,这时算术平均数、中位数和众数在数量上完全相等。

在偏态分布的情况下,由于变量值中出现特别大或特别小的极端数值使其分布曲线在图形上呈现出不对称的情形。

⑵当有极大变量值出现时,是正偏分布(又称右偏分布),此时众数 < 中位数 < 算术平均数;

⑶当有极小变量值出现时,是负偏分布(又称左偏分布),众数 > 中位数 > 算术平均数。

4.测度变量取值的离散程度有何意义?测度指标有哪些,各有什么特点?有了极差、平均差和标准差,为什么还要计算离散系数?

意义:

⑴通过对变量取值之间离散程度的测定,可以反映出各个变量值之间的差异大小,从而也就可以反映分布中心指标对各个变量值代表性的高低。

⑵通过对变量取值之间离散程度的测定,可以大致反映变量次数分布密度曲线的形状。 测度指标:

⑴极差,又称全距,是指一组变量值中最大值与最小值之差,用来表示变量的变动范围。它计算简单,意义明了。由于极差的确定只根据两个极端变量值计算,不受中间变量值的影响,所以不能全面反映变量值的差异情况。

⑵四分位全距,是指将一组由小到大排列的变量数列分成四等分,可得到三个分割点Q1、Q2、Q3,分别称为第一个、第二个、第三个四分位数;然后用第一个四分位数Q1减去第三个四分位数Q3所得差的绝对值|Q1-Q3|,即为四分位全距。它其实是指一组由小到大排列数据的中间50%数据的全距,所以它不像极差那么容易受极端变量值的影响,但仍然存在没有充分利用所有数据信息的缺点。

⑶平均差,是变量各个取值偏差绝对值的算术平均数。它反映了变量的各个取值离其算术平均数的平均距离。其意义明确,计算简单,但在运算上不方便。平均差的计算分为简单平均法和加权平均法两种。

⑷标准差,又称根方差,是变量的各个取值偏差平方的平均数的平方根。通过离差平方和的运算不但可以消除离差正负项的差别,而且强化了离差的信息,使其在数学性质上也有许多明显的优越性。标准差的计算方法分为简单平均法和加权平均法两种,即简单标准差和

加权标准差。

⑸方差,标准差的平方称为方差。 计算离散系统是因为:

极差、平均差和标准差都是衡量变量各个取值之间绝对差异程度的指标,都具有一定的量纲。这些指标的数值大小不仅取决于变量各取值之间的差异程度,而且取决于变量取值水平即数量级的高低。显然,对于不同的变量,其变量值的绝对差异程度指标并不便于直接比较,这就需要在这些绝对差异指标的基础上构造出反映变量各取值之间的相对差异程度的无量纲指标。

变异系数主要用于不同变量的各自取值之间差异程度的比较。例如,对于两个给定的变量,若要比较二者算术平均数对各自变量值一般水平代表性的高低,或比较二者各自内部变量值之间差异程度的大小,由于二变量的极差、平均差和标准差各自有不同的数量级和不同的量纲,难以直接对比,所以就需要计算各自的变异系数,用变异系数进行比较。 5.测度偏度和峰度有什么意义?测度指标各有哪些?

意义:

⑴可以加深人们对变量取值的分布状况的认识,如可以使人们清楚了解变量的取值是否对称,或非对称程度有多大,以及变量的取值是否有特别的集聚,集聚程度有多高,等等。

⑵人们还可以将所关心的变量的偏度指标值和峰度指标值与某种理论分布的偏度指标值和峰度指标值进行比较,以判断所关心的变量与某种理论分布的近似程度,为进一步的推断分析奠定基础。

偏度的测度指标:

⑴直观偏度系数,它是利用描述变量分布中心的不同指标之间的直观关系而确定的测度变量分布偏斜程度的指标。主要有:

①皮尔逊偏度系数,是算术平均数与众数之间的离差对标准差的比率,其数值在[-3,+3]的范围之内。

②鲍莱偏度系数,它是上四分位数与中位数的距离对中位数与下四分位数的距离的差值与上四分位数与下四分位数的差值的比率。

⑵矩偏度系数,就是利用变量的矩来确定的变量分布偏斜程度的指标。 峰度的测度指标:

峰度系数,是变量的四阶中心矩与其标准差的四次方的比率。

6.抽样调查某地区50户居民的月消费品支出额数据资料如下(单位:元)

967 938 890 816 946 895 800 954 978 999 921 864 1006 1000 950 978 919 926 918 864 821 863 900 1040 1050 924 981 999 854 927 651 916 886 1100 949 850 818 1120 900 852 926 900 905 928 928 946 893 866 1027 886

要求:⑴试根据上述资料编制变量数列;

①确定组数

共有41个变量值,因此根据斯特吉斯公式:

组数m = 1 + 3.322 * LgN = CEILING(1+3.322*LOG10(41),1) = 7 ②确定组距

组距d = (max(Xi) – min(Xi)) / m = CEILING((1120 – 651) / 7, 10) = 70 ③确定组限

最低组的下限为650,最高组的上限为1140。 ④计算各组的频数 ⑤编制变量数列 月消费品支出金额 650-720 720-790 790-860 860-930 930-1000 1000-1070 1070-1140 合计 户数(户) 1 0 7 23 12 5 2 50 比率 2% 0% 14% 46% 24% 10% 4% 100% 向上累计频数 1 1 8 31 43 48 50 向上累计频率 2% 2% 16% 62% 86% 96% 100% 向下累计频数 50 49 49 42 19 7 2 向下累计频率 100% 98% 98% 84% 38% 14% 4% ⑵编制向上和向下累计频数、频率数列;

月消费品支出金额分布直方图252023户数(户)15105065072079086010712529301000107001140金额(元)

本文来源:https://www.bwwdw.com/article/4u4g.html

Top