统计学(无敌权威完整版重点)

更新时间:2023-10-09 14:48:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

统计学 第一章 数据与统计学

1.1统计数据与统计学

(1)统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探究数据内在的数据量规律性,为决策提供参考(含义) (2)应用统计研究过程:

实际问题→收集数据(取得数据)→整理数据(处理数据)→显示数据→分析数据 →解释数据→实际问题

(3)例子:新生婴儿的性别、掷硬币和骰子、农作物试验、商品广告、汽车合格的统计、化妆品试用的抽样。

1.2 统计学的产生和发展

(1)三个源头:◎英国经济学家威廉·配第◎英国约翰·格朗特

◎布莱斯·帕斯卡、皮埃尔·德·费马。

1.3 统计学的分类

(1)描述统计:是用图形、表格和概括性的数字对数据进行描述的统计方法。

(2)推断统计:是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计 方法。

(3)统计学分为描述统计和推断统计,一方面反映了统计发展的前后两个阶段。另

一方面夜反映了统计方法研究和探索客观事物内在数量规律性的先后过程。 (4)

概率论 (包括分布理论、大数定 律和中心极限定理等) 反映客观的数据(包括样本数据 描述统计 推断统计(利用样本信息和概 自然现象与社会经济(包括收集、整理、率论对总体数据规律性进行 现象) 显示和分析数据) 估计检验等推断) 总体数据 图 统计学探究客观现象数量规律性过程的款图

(5)统计研究过程的起点是数据,终点是探索到客观事件总体内在的数据规律性。描述统计是整个统计学的基础和统计研究工作的第一步,推断统计是现代统计学的核心和统计研究工作的关键环节。

(6)理论统计和应用统计

1.4 统计数据的来源

(1)统计数据的来源:按直接获取和间接获取分类。

(2)直接获取的数据:普查:应用面窄、费时费力、反映总体数据的手段、实效性差。 抽样调查:节省人力物力、实效性强、有误差。

1.5 统计数据的质量

(1)统计调查阶段是统计研究的第一步,是直接收集统计数据的阶段。可分为非抽样误差和抽样误差。

1.6 统计学的基本概念

(1)总体:是人们研究的所有基本单位的总和。

(2)变量:在研究总体时,重点关注的是总体单位具有哪些特征和属性,指这些特征。 (3)参数:概括性的数学度量。(主体) (4)统计量:概括样本的数学度量。(样本) (5)样本:是总体的一部分单位。

1.7 数据的有关知识

一、数据的计量尺度 1.列名尺度(定类尺度):层次最低、平行分类、列名时要穷尽所有的。“= ≠” 2.顺序尺度(定序尺度):在分类的基础上给出类别的顺序。 “﹥﹤” 3.间隔尺度(定距尺度):更加准备的测量,没有绝对的零点。 “+-” 4.比例尺度(定比尺度):有绝对的零点。 “+-×÷”

四种计量尺度的比较 分类 排序 间距 比值 定类 √ 定序 √ √ 定距 √ √ √ 定比 √ √ √ √ 二、数据类型

1.数据的类型分为定性(品质)和定量(数量)。

2.变量:品质变量和数量变量。 三、数据的表现形式

1.分绝对数(总量的时期数和相对数)和相对数(两个绝对值的比值) 2.单位:实物单位、价值单位、复合单位。

第二章 统计数据的描述

2.1数据统计的整理

一、数据的预处理

① 审核:原始资料(完整性、准确性) 第二手资料(适用性、实效性) ② 筛选

③ 排序:按照一定的顺序将数据进行排序。 二、统计数据的分组

1.分组的定义:将数据按照一定的特征标准分组。

2.品质标志分组:按照性别、质量、民族等定性指标分组(定类、定序) 数量标志分组:按照数量或数值等定量指标分组。(定距、定比) 三、次数(频率)分配

四、数量标志分组方法:单变量分组---只适合离散型变量 组距分组 五、组距分组:将其分为若干个区间。

步骤:①确认组数(斯特格斯公式 K=1+㏒N/㏒2)基本为奇数(5-15) ②组距:上限值-下限值

公式:组距==(最大值-最小值)÷组数

③整理成频率分布表 原则:不重不漏 ④等距分组、不等距分组

⑤选择分组的标志原则:

反映数据的本质特征;符合统计研究需要;结合现实历史条件。

六、次数分布的图示 ① 直方图---等距分组

② 折线图(次数多变形图)---曲线图 ③ 茎叶图

四种常见曲线:

1.正态分布曲线---钟形曲线 例:所有的试验、测量和观测误差都服从正态分布。 2.偏态曲线:正偏(右偏)、负偏(左偏)。 例:人均收入。 3.J形曲线:正J形曲线、供给曲线-------倒J形曲线、需求曲线。 4.U形曲线:死亡率曲线、产品故障率曲线或浴盆曲线。

2.2分布集中趋势的测度

一、众数

1.含义:出现次数最多的变量数

2.特点:不受极限的影响;一个众数、多个众数也有可能。

3.近似公式:

M。=L+△1/(△1+△2)×i

L表示众数所在组的下组限;△1表示众数组次数与前一组次数之差;△2表示众数组次数与后一组次数之差;i表示众数组的组距。 二、中位数

1.含义:数据排列后,位置在中间的数据。 2.特点:不受极限值的影响(稳健性);U型分布、资料缺失Me失去代表性;

∑|xi-Me︱=min (最小) →数据值与中位数之差得绝对值之和最小。

3.N:奇数--(N+1)÷2 偶数---{(N/2)+(N/2+1)}÷2 4.近似公式:

Me=L+(N/2-Sm-1)/fm×i

N/2表示中位数所在的位置;L表示中位数所在组的下组限;Sm-1表示中位数所在组以下各组的累积次数;fm表示中位数所在组的次数;i表示中位数所在组的组距。 三、分位数

将统计分布从中间分成面积相等的两部分,同样也有四分位数、十分位数、百分位数。 四、均值

1.含义:就是算数平均数,是数据集中趋势的最主要测度值。 2.公式:X的均值是(x1+x2+x3+?+xn)/n (对于已经分组的数据) X的均值是∑xifi/∑fi

xi是次数分配中变量分组的组中值(上限+下限/2);fi是各组次数,也称权数。

3.

五、几何平均数

公式:(把基数考虑进去)G≒n√(1+%)×(1+%)×? 七、切尾均值

去掉最大值、最小值取平均数。 八、众数、中位数、均值的关系

1. 结论:对于对称、正态的数据用均值比较好

偏态较大时用 M。Me 比较好

均值比较适用于定距和定比

M。Me 可用于任何尺度

2. 右偏(正偏)分布 左偏(负偏)分布 ※

M。﹤ Me ﹤  ̄X

 ̄X ﹤ Me ﹤ M。

2.3分布离散程度的测度

1.极差:也称全距,是数据最大值减去最小值之差,是数据离散或差异程度的最简单的测量值。 弊: ①收到极端值影响。 ②只考虑两个数值。

公式: R=max(xi)-min(xi)

2.内距:两个四分位数之差,即 内距= 上四分位数-下四分位数=Q3-Q1 优点:极端值的影响不大,考虑了更多的因素。 3.方差和标准差

样本方差的公式:

注意:对于样本分组数据,求方差,公式:

4.离散系数:用来对两组数据的差异程度进行相对比较的。 公式:

优点:离散系数是从相对的角度观察差异和离散程度的,在比较相关事物的差异程度时,较之直接比较标准差要好些。

2.4分布偏态与峰度的测度

1.偏态及其测量

偏态是对分布偏斜方向及程度的测量。记为SK SK﹥0 正偏、右偏 SK==0 对称

SK﹤0 负偏、左偏 2.峰度及其测量

峰度是对数据分布平峰或程度的测量。记为 K K﹥0 尖峰分布 K==0 标准正态分布 K﹤0 尖峰分布

2.5统计表与统计图

一、统计表与统计图是显示统计数据的两种方式。 二、统计表

结构与内容:统计表一般由四个主要部分组成:表头、行标题、列标题、数值资料。 注意要点:①合理安排统计表的结构

②表头一般包括表号、总标题和表中数据的单位等内容。

③表中的上下横线一般用粗线,中间的其他线要用细线。两边不封口,列标题之间

用竖线分开,行标题之间通常不必用横线隔开。

④表中数据右对齐,对于没有数据的表格单位,一般用“—”表示。 ⑤表的下方加上注释,特别要注意注明资料来源。 三、统计图

1.统计图是统计数据的表现形式。 2.茎叶图、箱线图。

3.注意:图的表号在图的下方。

本文来源:https://www.bwwdw.com/article/ra9f.html

Top