数据的统计描述和分析

更新时间:2023-07-22 22:40:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数据的统计描述和分析

数学建模与数学实验数据的统计描述和分析

后勤工程学院数学教研室2013-7-16 1

数据的统计描述和分析

实验目的1、直观了解统计基本内容。

2、掌握用数学软件包求解统计问题。

实验内容1、统计的基本理论。 2、用数学软件包求解统计问题。

3、实验作业。

数据的统计描述和分析

数 据 的 统 计 描 述 和 分 析2013-7-16

统计的基本概念

参数估计

假设检验

数据的统计描述和分析

一、统计量1、表示位置的统计量—平均值和中位数

1 n 平均值(或均值,数学期望) X X i : n i 1中位数:将数据由小到大排序后位于中间位置的那个数值. 2、表示变异程度的统计量—标准差、方差和极差1

1 n s [ (X i X )2 ]2 标准差: n 1 i 1它是各个数据与均值偏离程度的度量. 方差:标准差的平方. 极差:样本中最大值与最小值之差.

2013-7-16

数据的统计描述和分析

3. 表示分布形状的统计量—偏度和峰度

1 偏度: g 1 3 s

(X i X )i 1

n

3

1 峰度: g 2 4 s

(X i X )4 i 1

n

偏度反映分布的对称性,g1 >0 称为右偏态,此时数据位于均值 右边的比位于左边的多;g1 <0 称为左偏态,情况相反;而 g1 接近 0 则可认为分布是对称的. 峰度是分布形状的另一种度量,正态分布的峰度为 3,若 g2 比 3 大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数 据,因而峰度可用作衡量偏离正态分布的尺度之一.

1 n k 4. k 阶原点矩:Vk n X i i 1

1 n U k (X i X )k k 阶中心矩: n i 1

2013-7-16

数据的统计描述和分析

二、分布函数的近似求法得

1、整理资料: 把样本值 x1,x2, ,xn 进行分组,先将它们依大小次序排列,

* * * x1 x 2 x n .在包含 x1 , x n ] 的区间[a,b]内插入一些等分点: [ * * ' ' a x1' x 2 x n b, 注意要使每一个区间 xi' , xi' 1 ] (i=1,2, ,n-1) (

内都有样本观测值 xi (i=1,2, ,n-1)落入其中.

( 2、求出各组的频数和频率:统计出样本观测值在每个区间 xi , xi 1 ] 中出现的次数ni ,它就是这区间或这组的频数.计算频率 f i ' '

'

'

ni . n'

x 3、作频率直方图:在直角坐标系的横轴上,标出 1 , x 2 , , x n 各点,分别以 ( xi' , xi' 1 ] 为底边,作高为频率直方图.2013-7-16 6

fi ' ' ' 的矩形, x i x i 1 x i , i 1,2, , n 1 ,即得 xi'

数据的统计描述和分析

三、几个在统计中常用的概率分布1.正态分布 N ( m , s )2

1 1 2s e 密度函数: p( x) 分布函数: F ( x) 2p s 2p s 2 其中 m 为均值,s 为方差, x .2

( x m )2

x

( y m )2 2s 2

e

dy

标准正态分布:N(0,1)

0.4 0.35 0.3 0.25 0.2 0.15

密度函数

j ( x)

12p

e

x2 2

分布函数

F ( x)

12p

x

e

y 2

20.1

,-2 0 2 4 6

dy

0.05 0 -4

2013-7-16

数据的统计描述和分析

2、 分布 (n) 若随机变量 X1,X2, Xn 相互独 立,都服从标准正态分布 N(0,1) ,则随机 变量2 2

2 分布,记为 Y~ 2 (n). 服从自由度为 n 的Y 的均值为 n,方差为 2n.0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0

2 2 X 12 X 2 X n Y=

0

5

10

15

20

2013-7-16

数据的统计描述和分析

3、 t 分布 t(n) 若 X~N(0,1) ,Y~ ( n ) ,且相互 独立,则随机变量2

T

X Y n

服从自由度为 n 的 t 分布,记为 T~t(n). t 分布 t(20)的密度函数曲线和 N(0,1)的 曲线形状相似.理论上 n 时,T~t(n) N(0,1).0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -6

-4

-2

0

2

4

6

2013-7-16

数据的统计描述和分析

4.

F 分布 F(n1 ,n2 ) 2 2 若 X~ (n1 ) ,Y~ (n2 ) ,且相互独立,则随机变量

X n1 F Y n2服从自由度为(n1 ,n2 )的 F 分布,记作 F~ F(n1 ,n2 ). 由 F 分布的定义可以得到 F 分布 的一个重要性质:1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2

1 若 F~ F(n1 ,n2 ) ,则 ~ F ( n 2 , n1 ) FF分布F(10,50)的密度函数曲线

0.1 0 0 0.5 1 1.5 2 2.5 3

2013-7-16

返回

数据的统计描述和分析

无论总体 X 的分布函数 F(x; 1 , 2 , , k )的类型已知或未知,我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题

i 参数估计就是从样本 (X1,X2, ,Xn)出发,构造一些统计量(

.即 X1 ,

X2, ,Xn) (i=1,2, ,k)去估计总体 X 中的某些参数 (或数字特 征) i (i=1,2, ,k).这样的统计量称为 估计量.

i 1. 点估计:构造(X1,X2, ,Xn)的函数(作为参数

i

i1 ( i2 ( 2. 区间估计:构造两个函数 X1,X2, ,Xn)和 X1,X2, , i1 , i 2 iXn)做成区间,把这 ( )作为参数 的区间估计 .

的点估计量,称统计量 i

X1,X2, ,Xn)

i 为总体 X 参数

的点估计量 .

2013-7-16

数据的统计描述和分析

一、点估计的求法(一)矩估计法假设总体分布中共含有 k 个参数,它们往往是一些原 点矩或一些原点矩的函数,例如,数学期望是一阶原点矩, 方差是二阶原点矩与一阶原点矩平方之差等.因此,要想估计 总体的某些参数 i (i=1,2, k) ,由于 k 个参数一定可以 表为不超过 k 阶原点矩的函数,很自然就会想到用样本的 r 阶原点矩去估计总体相应的 r 阶原点矩,用样本的一些原点 矩的函数去估计总体的相应的一些原点矩的函数,再将 k 个 参数反解出来,从而求出各个参数的估计值.这就是矩估计法, 它是最简单的一种参数估计法.

2013-7-16

数据的统计描述和分析

(二)极大似然估计法L ( 1 , 2 , , k ) P ( X 1 x1 , X 2 x 2 , , X n x n ) P ( X 1 x1 ) P ( X 2 x 2 ) P ( X n

x n ) p ( x1 , 1 , k ) p ( x 2 , 1 , , k ) p ( x n , 1 , k )

极大似然法的想法是: 若抽样的结果得到样本观测值 x1,x2, ,xn, 则我们应当这样选取参数 i 的 值 , 使 这 组 样 本 观 测 值 出 现 的 可 能 性 最 大 . 即 构 造 似 然 函 数 :

n

p ( x i , 1 , k )

i 使 L ( 1 , , k ) 达到最大,从而得到参数L ( 1 , , k )称为似然函数.

i 的估计值

i 1

.此估计值叫极大似然估计值.函数 的最大值的问题,则

求极大似然估计值的问题,就是求似然函数

L ( 1 , , k )

L 0 i 1,2, , k i LnL 0 i 1,2, , k i

2013-7-16

数据的统计描述和分析

二、区间估计的求法 1 设总体 X 的分布中含有未知参数 ,若对于给定的概率 (0 1 ) ,存在两个统计量1 ( Xn),使得则称随机区间(

2( X1,X2, ,Xn)和

X1,X2, ,

P ( 1 2 ) 1 , ) 1 2

2 称为置信上限. 置信下限,

1 1 的置信区间, 为参数 的置信水平为

称为

2013-7-16

数据的统计描述和分析

(一)数学期望的置信区间2 设样本(X1,X2 , ,Xn)来自正态母体 X,已知方差DX s ,

1、已知DX,求EX的置信区间

EX 在置信水平 1- 下的置信区间为[ X u

s

1

2

n1

,X us

s

1

2

n 2

].s n

EX 在置信水平 1- 下的置信区间为 [ X t

2. 未知方差DX,求EX的置信区间 2

n

,X t

1

].

(二)方差的区间估计

(n 1) s 2 (n 1) s 2 , ]. DX 在置信水平 1- 下的置信区间为[ 2 2

1

2

2

返回2013-7-16 15

数据的统计描述和分析

对总体X的分布律或分布参数作某种假设,根据 抽取的样本观察值,运用数理统计的分析方法,检 验这种假设是否正确,从而决定接受假设或拒绝假 设. 1.参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断. 2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如要求判断总体分布类型的检验就是非参数检验.2013-7-16 16

数据的统计描述和分析

假设检验的一般步骤是:

1.根据实际问题提出原假设 H0 与备择假设 H1,即说明需要检验 的假设的具体内容; 2.选择适当的统计量,并在原假设 H0 成立的条件下确定该统计量 的分布; 3.按问题的具体要求,选取适当的显著性水平 ,并根据统计量 的分布查表,确定对应于 的临界值.一般 取 0.05,0.01 或 0.10 4.根据样

本观测值计算统计量的观测值,并与临界值进行比较,从 而在检验水平 条件下对拒绝或接受原假设 H0 作出判断.

2013-7-16

数据的统计描述和分析

一、参数检验(一)单个正态总体均值检验设取出一容量为 n 的样本,得到均值X 和标准差 s,现要 m 对总体均值m 是否等于某给定值0 进行检验.记

H 0 : m m0 ; H1 : m m0

称 H0 为原假设,H1 为备择假设,两者择其一:接受 H0 ;拒绝 H0 , 即接受 H1 .

2013-7-16

数据的统计描述和分析

1、总体方差s 已知2

用 u 检验,检验的拒绝域为

W {z u

1

}2

即 W {z u

1

2

或z u

1

2

}

2.总体方差s 未知用样本方差s 代替总体方差s2

2 2

,这种检验叫 t 检验.总体方差s 未知2

总体方差s 已知2

H0

H1

统计量 z=

X m0

s

统计量 t

X m0 s n

nⅠ Ⅱ Ⅲ

在显著水平

下拒绝 H0,若

m m0m m0

m m0 m m0 m m0

z u

1

2

t t

1

2

( n 1)

z u1 z u1

t t1 ( n 1) t t1 ( n 1)19

m m0

2013-7-16

数据的统计描述和分析

(二)单个正态总体方差检验2 设 X1,X2, ,Xn 是来自正态总体 N ( m , s ) 的样本,欲检验假设:

2 H0 :s 2 s 0

2 2 H 1 : s 2 s 0 (或 s 2 s 0

或s

2

2 s0 )

这叫 检验.2

m 均值 已知 统计量H0 H1

m 均值 未知 统计量2

2

12 s0

(Xi 1

n

2 i

m)

2

12 s0

(Xi 1

n

2 i

X )2

在显著水平2 s 2 s0

下拒绝 H0,若2 2 ( n 1) 或 2 2 1

s 2 s 02

2 2 ( n) 或

2

2 2 1

2

( n)

2

2

( n 1)

Ⅱ Ⅲ

s s2

2 0

s s2

2 0

2 12 ( n )2 2 (n)

2 12 ( n 1)2 2 ( n 1)

2 s 2 s0

2 s 2 s0

2013-7-16

数据的统计描述和分析

(三)两个正态总体均值检验2 2 1、s 1 与s 2 已知时 构造统计量 z

X Y

s s n1 n22 1

2 2

.

2 2、s 12 与s 2 未知但相等时

构造统计量 t

X Y2 (n1 1) s12 (n2 1) s 2

n1 n2 (n1 n2 2) , n1 n2s 方差1 , s 2 未知但相等 t 统计量2 2

H0

H1

s 方差 1 , s 2 已知 统计量 z2 2

在显著水平Ⅰ Ⅱ Ⅲ

下拒绝 H0,若

m1 m 2m1 m 2

m1 m 2m1 m 2

z u

1

2

t t

1

2

( n1 n 2 2)

z u1 z u1

t t1 ( n1 n 2 2) t t1 ( n1 n 2 2)

m1 m 2

m1 m 2

本文来源:https://www.bwwdw.com/article/5bzm.html

Top