统计学复习整理—统计负责人

更新时间:2023-10-13 12:04:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第一章、数据与统计学

1.1统计数据与科学

●统计学定义:统计学是一门收集、整理、显示和分析统计数据的科学,其目的在于探索事物内在的数量规律性,以达到对客观事物的科学认识。也可以称为“数据的科学”。 ●例子:人口性别比例、掷硬币和掷骰子游戏、农作物试验:产量与施肥量关系、公司广告费用与销售额等等。

●统计学含义:Statistics 单数名词:表示“统计学”;复数名词表示“统计数据”或“统计资料”。

●关系:离开了统计数据,统计方法乃至统计学就失去了其存在的意义。 、

1.2统计学的产生与发展

●源头:英经济学家威廉.配第的《政治算术》、英约翰.格朗特、古典概率论

1.3统计学的分科

1.3.1.描述统计: 研究如何收集、整理、显示数据以及如何用图形、表格、概括性数字描述总体特征的统计方法。

推断统计:研究如何利用样本数据推断总体特征的统计方法。(根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法)样本到总体

1.3.2理论统计:是统计学的数学原理。广义上,理论统计包括概率论在内的对统计方法数学原理的研究。

应用统计:应用统计方法分析数据解决实际问题,统计方法的应用扩展到各个领域。 附加:统计学与其他学科的关系

1.统计学与数学 2.统计学与哲学 3.统计与其它学科

? 统计方法可以帮助其他学科探索其内在

的数量规律性,而对这种数量规律性的解释只能 由相应学科的研究来完成。

? 统计方法是一种非常有用的定量分析工具, 但是,应在定性分析的基础上进行定量分析。

1.4统计数据的来源

⑴直接来源

★ 通过调查或实验(试验)获取数据

﹉﹉通过调查获取分类数据、顺序数据与定量数据 实验或者试验获取定量数据 添加:统计调查的两种方法

☆ 普查:为某一特定目的,专门组织的一次性全面调查。特点:涉及范围广,耗费时

间、人力、物力、财力,间隔较长时间实施,两次普查之间数据参考抽样调查结果。 ☆ 抽样调查:应用最广、最为重要,是通过随机样本对总体数据规律性进行推断的调

查研究方法。特点:存在样本推断总体产生的误差,但是可以通过统计方法加以估计和进一步控制误差;节省人力、物力、财力;保证时效性。

☆ 注意:以上是书本的分类,不同的详见ppt ⑵间接来源

★ 通过网络、统计年鉴、报纸、杂志、图书等媒介获取数据。

1.5统计数据的质量

--- 数据误差: 调查或试验获得的数据与其所反映事物实际数量特征之间的差异。 --调查误差

- 登记性误差 - 系统性误差

该误差应该属于非抽样误差范围,理论上可以避免,但实际又几乎不可避免,只能加以适当控制。(书本第9页)

- 抽样误差:利用样本推断总体时产生的误差,理论上不可避免,但是误差的大小可以控制并能加以计量。

1.6统计学的基本概念

▲总体与总体单位——是人们研究的所有基本单位(通常是人、物体、交易或事件)的总和。(书本第10页)总体包括了研究总体的所有单位。 ▲变量

——概念:是总体中个体单位所具有的特征或特性。例如被调查的每位失业者的年龄、性别、收入等不能事先确定,且存在差异。

——分类:分类变量、顺序变量,统称为定性变量和定量(数值)变量。 ——数值表现(数据):分类数据--- 顺序数据--- 定量数据。 ▲样本——概念:总体的一部分单位 ——样本容量、样本数

——获取样本的常用方法--- 简单随机抽样

--- 系统(等距)随机抽样 --- 分层随机抽样 --- 整群随机抽样

▲指标 简答:

1、★系统抽样(等距、机械抽样)是如何组织实施的? 答:①将总体中所有单位排序

②根据样本容量多少,将排序后的总体分成若干个部分 ③在第一部分按照随机的原则选择第一个样本点

④从第二部分开始每隔相同距离,在每部分中选择样本点。 2、★分层抽样是如何组织实施的?

答:①按照某一变量将总体划分为若干层。

②根据样本容量多少来确定在每一层内应确定抽取的单位数,一般采用等比例方式抽取。

③在每一层内按照随机原则把样本单位选出来。

第二章、统计数据的描述

2.1统计数据的整理

● 统计数据的预处理:统计数据的审核

统计数据的筛选 统计数据的排序

2.2统计分组(统计整理的第一步)书16页 ● 统计分组的作用 - 区分事物的类型 - 研究事物的内部结构

- 分析事物之间的相互依存关系 ● 统计分组的步骤 — 选择分组标志 — 确定分组界限

— 编制次数分布表

● 分组标准:品质标志、数量标志

2.3次数分配 定义:

观察值按其分组标志分配在各组内的次数。 分组原则:“不重不漏”、“上组限不在内” 组距分组的基本概念: - 组限

- 开口组:有上限没有下限或有下限没有上限的组 - 闭口组: 既有上限又有下限的组

- 组距= 上限 – 下限 (开口组用相邻组组距估计) 组中值=(上限+下限)/2 - 比重 = 组的次数 / 总次数 - 次数密度 = 组的次数 / 组距

- 次数向上(下)累计:将每组的次数(比重)从变量值较小的组向变量值较大的组的累计,以反映在某一数值以下的变量值出现的次数。

简答:

1、 制作频数分布表、绘制直方图步骤(书52页第4题考试题型解答步骤)

① 数据排序

② 找出最大值、最小值 ③ 计算全距=最大值-最小值 ④ 确定组数(一般5~15组) ⑤ 确定组距、组限 ⑥ 编制次数分布表

2、编制次数分布表(frequency tables)(即统计表)的基本要求:

? 要有总标题

? 开口式

? 上下两条线用粗(黑或并列双)线 ? 组与组之间不得用线隔开 ? 表中不能有空格

? 省略的数字或较小的数字填写“…” ? 不须填写或不存在数值的位置填写“-” ? 表中数据应标明计量单位 ? 注明数据来源 3、统计图制作要求:

①、图形要与数据特征相协调 ②、图形要有名称且置于图下方 ③、图内没有阴影 ④、图内没有边框

⑤、图中数字标签使用要得当 ⑥、图标要放在适当的位置

⑦、纵横坐标轴坐标值字体、字号要一致 ⑧、横格线使用要适当

⑨、图形颜色使用要适当,打印出来便于识别 ⑩、数据计量单位要放在适当位置

2.4次数分布直方图(书21页)

?直方图和折线图是两种面积相同但表示形式不同的次数分配图示法 ?几种常见的次数分布曲线: *正态分布

*偏态分布:人均收入分配的曲线是右偏曲线

*J形曲线 *U形曲线

2.5分布集中趋势的测度

- 集中趋势的测度值主要有:众数、中位数、算术平均数(几何平均数)等

?众数

? 众数不受极端数据的影响

?一组数据分布(如正态分布、偏态分布)的最高峰点所对应的数值就是众数。若最高峰点有不止一个,则有不止一个众数;若没有最高峰点,则该组数据也没有众数。 ?计算:对于组距分组

M。≈L+△1/(△1+△2)* i

L:众数所在组的下组限,i:众数组组距,△1:众数组次数与前一组次数之差,△2:众数?中位数

- 一组数据的中位数有且只有一个。 - 中位数受极端数值的影响非常小。 计算

Me≈L+[?(N+1)-Sm_1]/fm * i

?(N+1):中位数的位置 Sm_1:中位数所在组以下各组的累积次数 fm:中位数所

在组的次数 L:中位数所在组的下组限 i:中位数所在组的组距 附加:性质:数据值与中位数之差的绝对值之和最小

?算术平均数 (或称均值)

- 任意一组数据都有且只有一个均值; -均值受极端数值的影响非常大 计算

1、对于未分组数据 xx1?x2???xnx??

nn

其中:x1,x2,?,xn为n个变量值。2、对于单变量分组数据

x?f?x2?f2???xn?fn

x?11 f1?f2???fn xff??x?

ff

其中:xi,fi为第i组的变量值和次数。

3、对于组距分组数据

计算公式与单变量分组数据计算公式相同,但其中 x1,x2,?,xn分别表示每一组的组中值;性质:数据观察值与均值的离差之和为零;

数据观察值与均值的离差平方和最小; 均值是统计分布的均衡点。

?关于几何平均数和切尾均值的计算参考书本30-32页

?中位数(median)、众数(mode)、算术平均数(mean)的关系

- mode= median= mean (正态分布) - mode ?median ?mean (右偏分布) - mean ? median ? mode(左偏分布)

?????2.6分布离散程度的测度

反映各变量值远离中心值的程度。

◆极差:一组数据的最大数值与最小数值之差。 - 极差 = 最大数值 – 最小数值 - 极差系数 = 极差 / 均值

◆ 内差 = 上四分位数 -下四分位数

表明一组数据中,处于中间50%的数据的离散程度。

当需要比较不同数据组中间50%数据的离散程度时,要计算内差系数: 内差系数 =内差 / 中间50%数据的平均数 ◆方差

对于未分组数据 n22 xi2?nx i?1?

n?1

??(x?x)n?1???

本文来源:https://www.bwwdw.com/article/7h4f.html

Top