西华师范大学-统计学复习资料 - 图文
更新时间:2024-01-27 20:19:01 阅读量: 教育文库 文档下载
- 西华师范大学官网推荐度:
- 相关推荐
第1章 数据与统计学 学习目标:
1.理解统计学的含义 2.理解统计学与统计数据的关系 3.了解统计学的分科 4.理解统计数据的质量控制 5.理解统计中的几个基本概念 1.1统计数据与统计学 什么是统计学?
收集、整理、显示和分析数据的科学
1.数据搜集:取得数据 2.数据分析:分析数据 3.数据表述:图表展示数据 4.数据解释:结果的说明 统计研究的过程
1.2统计学的分科
1.描述统计(descriptive statistics)
含义:研究数据收集、整理和描述的统计学分支 内容:搜集数据、整理数据、展示数据、描述性分析 目的:描述数据特征、找出数据的基本规律 2.推断统计(inferential statistics)
含义:研究如何利用样本数据来推断总体特征的统计学分支 内容:参数估计、假设检验 目的:对总体特征作出推断 描述统计与推断统计的关系
理论统计与应用统计 1.理论统计
研究统计学的一般理论、研究统计方法的数学原理 2.应用统计
研究统计学在各领域的具体应用 1.3数据来源(data sources)
1.3.1 数据的间接来源(二手数据) 二手数据的来源
1.统计部门和政府部门公布的有关资料,如各类统计年鉴;2.各类经济信息中心、信息咨 询机构、专业调查机构等提供的数据;3.各类专业期刊、报纸、书籍所提供的资料;4.各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料;5.从互联网或图书馆查阅到的相关资料。 二手数据的特点
1.收集容易,采集成本低;
2.作用广泛:分析所要研究的问题、提供研究问题的背景、帮助研究者更好地定义问、 检验和回答某些疑问和假设、寻找研究问题的思路和途径; 3.收集二手资料在研究中应优先考虑。 二手数据的评估
1.数据是谁收集的?(可信度评估)2.为什么目的而收集的?3.数据是怎样收集的? 4. 什么时候收集的?
1.3.2数据的直接来源 (原始数据)
1.调查数据:通过调查方法获得的数据、通常是对社会现象而言、通常取自有限总体 2.实验数据:通过实验方法得到的数据、通常是对自然现象而言、也被广泛运用到社会科学中(如心理学、教育学、社会学、经济学、管理学等)。 统计调查方式
抽样调查(sampling survey)
从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法,具有经济性、时效性强、适应面广、准确性高等特点。 普查(census)
为特定目的专门组织的非经常性全面调查,通常是周期性的。
我国进行的普查主要有:1.人口普查,每10年进行一次,末尾数字为“0”的年份进行; 2.农业普查,每10年进行一次,每逢“6”的年份进行;3.经济普查,每5年进行一次,每
逢“3”和“8”的年份进行(包括工业普查、第三产业普查、建筑业普查、基本单位普查)。 统计报表(statistical report forms)
统计调查方式之一,过去曾经是我国主要的数据收集方式,按照国家有关法规的规定、自上而下地统一布置、自下而上地逐级提供基本统计数据,有各种各样的类型。 1.4 数据质量
数据的误差
抽样误差(sampling error)
由于抽样的随机性所带来的误差,所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差的大小的因素:样本量的大小、总体的变异性。
非抽样误差(non-sampling error) 相对抽样误差而言,除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异,存在于所有的调查之中(概率抽样、非概率抽样、全面性调查),有抽样框误差、回答误差、无回答误差、调查员误差和测量误差。
误差的控制
抽样误差可计算和控制。
非抽样误差的控制:调查员的挑选、调查员的培训、督导员的调查专业水平、调查过程控制(调查结果进行检验、评估,现场调查人员进行奖惩的制度)。 1.5统计学的基本概念
数据:个体和变量
个体(individual):一组数据描绘的对象,个体也许是人,但也可以是动物或其他东西。 变量 (variable):是指一个个体的任意特征(characteristic),同一个变量对于不同的个 体,可能有不同的值。
总体和样本
总体(population):所研究的全部个体(数据) 的集合。分为有限总体和无限总体,有限总体的范围能够明确确定,且元素的数目是有限的;无限总体所包括的元素是无限的,不可数的。
样本 (sample):从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量。
参数和统计量
参数(parameter):参数是描述总体的概括性数字度量。参数是一个固定数字,但我们实际上无法知道参数的值。
统计量(statistic):描述样本特征的概括性数字度量,一旦取了样本,统计量的值就知道了,但换个不同的样本,统计量的值就可能改变。
统计中的几个基本概念
总体:平均数(μ) 标准差(σ) 比例(π)
样本:平均数(
) 标准差(s) 比例(p)
第2章 数据的表述
主要内容:数据的分类、数据的整理、数据的概括性度量指标 2.1数据的分类
2.1.1据分类的原则
互斥原则:每一个数据只能划归到某一类型中,而不能既是这一类,又是那一类。 穷尽原则:所有被观察的数据都可被归属到适当的类型中,没有一个数据无从归属。 2.1.2数据的类型
1. 定性数据和定量数据
定性数据:用文字描述的。如消费者对国美所提供服务的总体评价等都属于文字描述的定性数据。
定量数据:用数字描述的。如企业的净资产额、净利润额等。 2. 离散型数据和连续型数据
离散型变量:数据只能取整数。如一家公司的职工人数。
连续型变量的数据:指可以取介于两个数值之间的任意数值。如销售额、经济增长率等。 3. 数据的四个等级 定类数据:
也称列名数据(分类数据),这种数据只对事物的某种属性和类别进行具体的定性描述。 例如,对人口按性别划分为男性和女性两类。能够进行的唯一运算是计数,即计算每一个类型的频数或频率(即比重)。 定序数据:
也称顺序数据,是对事物所具有的属性顺序进行描述。例如,对企业按经营管理的水平和取得的效益划分为一级企业、二级企业等。 定距数据:
也称间距数据,是比定序数据的描述功能更好一些的定量数据。如10℃、20℃等。它不仅有明确的高低之分,而且可以计算差距,如20℃比10℃高10℃,比5℃高15℃等。定距测定的量可以进行加或减的运算,但却不能进行乘或除的运算。 定比数据:
也称比率数据,是比定距数据更高一级的定量数据。它不仅可以进行加减运算,而且还可以作乘除运算。如产量产值、固定资产投资额、居民货币收入和支出、银行存款余额等。 统计数据四个层次的概括
4. 截面数据和时间序列数据
截面数据:所搜集的不同单位在同一时间的数据。例如,所有上市公司公布的2007年年度的净利润。
时间序列数据:所搜集的同一总体或单位在不同时间的数据。如:某公司公布的1998年到2007年的年度净利润就是时间序列数据。 5. 原始数据和次级数据
原始数据:指直接从各个调查单位搜集的、尚未经过整理的统计数据资料,也称一手数据。
次级数据:指那些已经加工整理过的,往往是公开发表的数据,也称二手数据。如:从报纸杂志、统计年鉴、会计报表上取得的数据 。 2.2统计数据的整理
统计搜集到的大量资料是分散的,不系统的,只能说明各个单位的特征和属性,必须按照科学的原则加以整理,使之条理化和系统化,成为便于储存和传递的、反映总体特征的数据。
基本问题:
1.要弄清所面对的数据类型:不同类型的数据,采取不同的处理方式和方法 2.对分类数据和顺序数据主要是作分类整理 3.对数值型数据则主要是作分组整理
4.适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据 2.2.1定类数据的整理(基本过程)
1.列出各类别 2.计算各类别的频数 3.制作频数分布表 4.用图形显示数据 定类数据的整理(可计算的统计量) SPSS中的频数分布表
频数(Frequency):变量值落在某个区间(或某个类别)中的次数。 百分比(Percent):各频数占总样本数的百分比。
有效百分比(Valid Percent):各频数占有效样本数的百分比。 分类数据的图示—条形图(bar chart) 用宽度相同的条形的高度或长短来表示各类别数据的图形;有单式条形图、复式条形图等形式;主要用于反映分类数据的频数分布;绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图(column chart)。
分类数据的图示—帕雷托图(Pareto chart) 按各类别数据出现的频数多少排序后绘制的柱形图;主要用于展示分类数据的分布。
分类数据的图示—对比条形图(side-by-side bar chart ) 分类变量在不同时间或不同空间上有多个取值; 对比分类变量的取值在不同时间或不同空间上的差异或变化趋势。
分类数据的图示—饼图(pie chart) 也称圆形图,是用圆形及圆内扇形的角度来表示数值大小的图形;主要用于表示样本或总体中各组成部分所占的比例,用于研究结构性问题;绘制圆形图时,样本或总体中各部分所占的百分比用圆内的各个扇形角度表示,这些扇形的中心角度,按各部分数据百分比占3600的相应比例确定。
2.2.2顺序数据的整理(可计算的统计量) 累积频数(cumulative frequencies):各类别频数的逐级累加。
累积频率(cumulative percentages):各类别频率(百分比)的逐级累加。
环形图(doughnut chart) 环形图中间有一个“空洞”,样本或总体中的每一部分数据用环中的一段表示;与饼图类似,但又有区别(饼图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环);用于结构比较研究;用于展示分类和顺序数据。
2.2.3数值型数据的整理与展示 分组方法
1.单变量值分组
将一个变量值作为一组,适合于离散变量,适合于变量值较少的情况。 2.组距分组:等距分组、异距分组
将变量值的一个区间作为一组,适合于连续变量,适合于变量值较多的情况,需要遵循“不重不漏”的原则,可采用等距分组,也可采用不等距分组。 组距分组步骤
1.确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时,组一般为5?K ?15,可以按 Sturges 提出的经验公式确定组数K
2.确定组距:组距(class width)是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 3.统计出各组的频数并整理成频数分布表 组距分组几个概念
下限(low limit) :一个组的最小值 上限(upper limit):一个组的最大值 组距(class width) :上限与下限之差
组中值(class midpoint) :下限与上限之间的中点值 数值型数据的图示
分组数据—直方图(histogram)
用于展示分组数据分布的一种图形;用矩形的宽度和高度来表示频数分布(本质上是用矩形的面积来表示频数分布);在直角坐标系中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图;直方图下的总面积等于1。
直方图与条形图的区别
1.条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;2.直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,其高度与宽度均有意义;3.直方图的各矩形通常是连续排列,条形图则是分开排列;4.条形图主要用于展示分类数据,直方图则主要用于展示数值型数据。
分组数据—折线图(frequency polygon) 折线图也称频数多边形图;是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉;折线图的两个终点要与横轴相交,具体的做法是:第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴;折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布一致。
未分组数据—茎叶图(stem-and-leaf display) 用于显示未分组的原始数据的分布;由“茎”和“叶”两部分构成,其图形是由数字组成的;以该组数据的高位数值作树茎,低位数字作树叶;树叶上只保留最后一位数字;对于n(20? n ?300)个数据,茎叶图最大行数不超过L = [ 10 × lg n ]。
茎叶图与直方图的区别
茎叶图类似于横置的直方图,但又有区别;直方图可观察一组数据的分布状况,但没有给出具体的数值;茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息;直方图适用于大批量数据,茎叶图适用于小批量数据。 2.3 变量的概括性度量 2.3.1数据分布特征
数据分布特征的测量
集中趋势的测度
数值平均:数算术平均数、几何平均数 位置平均数:中位数、四分位数、众数
众数:分布数列中出现频数(率)最多的变量值。存在条件:总体单位数较多;变量值的次数分布有明显的集中趋势。特点:不受极端值和开口组的影响,增强对数列一般水平的代表性;是一个不易确定的平均指标。
Mo?U??2?d?1??2Mo?L? 组距数列:单项数列:?1?d?1??2 例题:以下是教师按年龄分组的资料,计算教师年龄的众数。
若用单项数列公式计算:
Mo?40?28?16?10?36.25?岁?(28?8)?(28?16) 若用组距数列公式计算:
Mo?30?28?8?10?36.25?岁?(28?8)?(28?16)
中位数:各单位变量值按顺序排列,位于中点位置的变量值。 1、未分组资料:
先排序再计算中位数的位次 2、分组资料:
先确定中位数组再根据公式计算中位数(组距式分组) 单项数列 中位数的位次:组距数列
1.确定中位数所在组62??31,22计算向上累计次数,那一组向上累计首次大于
N 2?f?2f既为Me所在组Me?L?2
?f?Sfmm?1?d四分位数(quartile)
1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据。
四分位数位置的确定 原始数据: ?nn??11?Q位置?Q位置?LL?? ?4?4??3()3(nn??11) ??Q位置?Q位置?UU??4?4?
?nQL位置?分组数据: ??4? ?Q位置?3nU?4?
顺序数据的四分位数
【例】一家计算机软件开发公司的人事部门最近做了一项调查,发现在最近两年内离职的公司员工中有40%是因为对工资不满意,有30%是因为对工作不满意,有15%是因为他们对工资和工作都不满意。求两年内离职的员工中,离职原因是因为对工资不满意、或者对工作不满意、或者二者皆有的概率。
解:设 A =员工离职是因为对工资不满意 B =员工离职是因为对工作不满意 依题意有:P(A)=0.40;P(B)=0.30;P(AB)=0.15
P(A∪B)= P(A)+ P(B)- P(AB)=0.40+0.30-0.15=0.55 3.1.4条件概率与事件的独立性
条件概率(conditional probability):在事件B已经发生的条件下事件A发生的概率,称为已知事件B时事件A的条件概率,记为P(A|B)。
【例】一家电脑公司从两个供应商处购买了同一种计算机配件,质量状况如下表所示
从这200个配件中任取一个进行检查,求:(1) 取出的一个为正品的概率;(2) 取出的一个为供应商甲的配件的概率;(3) 取出一个为供应商甲的正品的概率;(4) 已知取出一个为供应商甲的配件,它是正品的概率。 解:设 A = 取出的一个为正品
B = 取出的一个为供应商甲供应的配件 (1) (4)
(2)
(3)
乘法公式(multiplicative law):用来计算两事件交的概率,以条件概率的定义为基础。设A,B为两个事件,若P(B)>0,则P(AB)=P(B)P(A|B)或P(AB)=P(A)P(B|A)。
【例】一家报纸的发行部已知在某社区有75%的住户订阅了该报纸的日报,而且还知道某个订阅日报的住户订阅其晚报的概率为50%。求某住户既订阅日报又订阅晚报的概率
解:设 A = 某住户订阅了日报 B = 某住户订阅了晚报
依题意有:P(A)=0.75;P(B|A)=0.50 P(AB)=P(A)· P(B|A)=0.75×0.5=0.375
独立事件与乘法公式(independent events):若P(A|B)=P(A)或P(B|A)=P(B) ,则称事件A与B事件独立,或称独立事件;若两个事件相互独立,则这两个事件同时发生的概率等于它们各自发生的概率之积,即P(AB)= P(A)· P(B);若事件A1,A2,…,An相互独立,则 P(A1, A2, …, An)= P(A1)· P(A2) · … · P(An)。
【例】一个旅游景点的管理员根据以往的经验得知,有80%的游客在古建筑前照相留念。求接下来的两个游客都照相留念的概率。
解:设 A = 第一个游客照相留念 B = 第二个游客照相留念 两个游客都照相留念是两个事件的交。在没有其他信息的情况下,我们可以假定事件A和事件B是相互独立的,所以有P(AB)=P(A)· P(B)=0.80×0.80=0.64
【例】假定我们是从两个同样装有3个红球2个白球的盒子摸球。每个盒子里摸1个。求连续两次摸中红球的概率。
解:设 A = 从第一个盒子里摸到红球 B = 从第二个盒子里摸到红球
依题意有:P(A)=3/5;P(B|A)=3/5 P(AB)=P(A)· P(B|A)=3/5×3/5=0.36 3.1.5全概公式与逆概公式
全概公式:
逆概公式:
【例】某考生回答一道四选一的考题,假设他知道正确答案的概率为1/2,而他不知道正确答案时猜对的概率应该为1/4。考试结束后发现他答对了,那么他知道正确答案的概率是多大呢?
解:设 A = 该考生答对了 ,B = 该考生知道正确答案 依题意有:P(B)=1/2; P(B )=1-1/2 = 1/2 P( A|B ) =1/4; P(A|B)=1
3.2 离散型概率分布 3.2.1随机变量
随机变量:一次试验的结果的数值性描述,一般用 X,Y,Z 来表示。例如: 投掷两枚硬币出现正面的数量。根据取值情况的不同分为离散型随机变量和连续型随机变量。
离散型随机变量(discrete random variables):随机变量 X 取有限个值或所有取值都可以逐个列举出来 x1 , x2,?,以确定的概率取这些不同的值。
连续型随机变量(continuous random variables):可以取一个或多个区间中任何值,所有可能取值不可以逐个列举出来,而是取数轴上某一区间内的任意点。 3.2.2离散型随机变量的概率分布
列出离散型随机变量X的所有可能取值;列出随机变量取这些值的概率;通常用下面的表格来表示:
P(X =xi)=pi称为离散型随机变量的概率函数:
【例】一部电梯在一周内发生故障的次数X及相应的概率如下表:
(1) 确定?的值 (2) 求正好发生两次故障的概率
(3) 最多发生两次故障的概率 (4) 求故障次数多于一次的概率 解:(1) 由于0.10+0.25+0.35+? =1 所以,? =0.30 (2) P(X=2)=0.35
(3) P(X? 2)=0.10+0.25+0.35=0.70 (4) P(X>1)=0.35+0.30=0.65 3.2.3散型随机变量的数学期望和方差
离散型随机变量的数学期望(expected value)
离散型随机变量X的所有可能取值xi与其取相对应的概率pi乘积之和,描述离散型随机变量取值的集中程度,记为? 或E(X),计算公式为:
??E(X)???E(X)?xipi?i?1n(X取有限个值)
xipi?i(X取无穷个值)离散型随机变量的方差(variance)
随机变量X的每一个取值与期望值的离差平方和的数学期望,记为? 2 或D(X),描述
?2?D(X)?离散型随机变量取值的分散程度,计算公式为:
?(xi??)?pii2
方差的平方根称为标准差,记为? 或D(X)
【例】一家电脑配件供应商声称,他所提供的配件100个中拥有次品的个数及概率如下表
求该供应商次品数的数学期望和标准差。
??xipi?i(xi?i?0?0.75?1?0.12?2?0.08?3?0.05?0.43
?2???)2pi?0.7051??0.8397
3.2.4几种常用的离散型概率分布 离散型概率分布
两点分布:一个离散型随机变量X只取0和1两个可能的值,也称0-1分布。它们的概率分布为:
P(X?1)?p或
P(X?0)?1?p?q (0?p?1)
P(X?x)?pxq1?x二项分布:
二项试验(伯努利试验)
二项分布与伯努利试验(二项试验)有关,努利试验具有以下4个性质:试验由n个试验组成,这n个试验完全相同。每次试验有两种可能结果。我们把其中一个称为成功,另一个称为失败。一次试验“成功”的概率为p ,失败的概率为q =1- p,且概率p对每次试验都是相同的。试验是相互独立的,并可以重复进行n次。
二项分布(binomial distribution)
重复进行 n 次试验,出现“成功”的次数的概率分布称为二项分布,记为X~B(n,p)设X为 n 次重复试验中出现成功的次数,X 取 x 的概率为:
P?X?x??Cnxpxqn?x式中:Cn?(x?0,1,2,?,n)
xn!x!(n?x)!1.对于P(X=x)? 0, x =1,2,…,n,有
2.同样有
Cnxpxqn?x?0?xn?x?(p?q)2?1P?0?X?m??P?m?X?n??Cnxpxqn?x?0mx?mxxn?xC?npqn
3.当 n = 1 时,二项分布化简为
P?X?x??pxq1?x?1,x?0,1二项分布的数学期望和方差:数学期望?=E(X) = np 方差? 2 =D(X) = npq
【例】已知一批产品的次品率为4%,从中任意有放回地抽取5个。求5个产品中 (1) 没有次品的概率是多少? (2) 恰好有1个次品的概率是多少? (3) 有3个以下次品的概率是多少? 解: P(X?0)?C50(0.04)0(1?0.04)5?0?0.815372698
115?1P(X?1)?C5(0.04)(1?0.04)?0.169869312 P(X?3)?P(X?0)?P(X?1)?P(X?2)
?0.815372698?0.169869312?0.014155776
?0.9993978
泊松分布:
泊松分布(Poisson distribution):1837年法国数学家泊松(D.Poisson,1781—1840)首次提出,用于估计某事件在特定时间段或空间中发生的次数。泊松试验的性质:在任意两个相等长度的区间上事件发生一次的概率是相同的。事件在某一区间上发生或不发生一其他区间上事件是否发生是无关的。
泊松分布的例子:一定时间段内,某航空公司接到的订票电话数;一定时间内,到车站等候公共汽车的人数;一定路段内,路面出现大损坏的次数;一定时间段内,放射性物质放射的粒子数;一匹布上发现的疵点个数;一定页数的书刊上出现的错别字个数。
泊松分布的概率分布函数:
?e??PX?x?(x?0,1,2,?,??0)
x!
?— 给定的时间间隔、空间 “成功”的平均数 e = 2.71828
x —给定的时间间隔、空间内“成功”的次数
泊松分布数学期望和方差: 数学期望E ( X ) = ? 方差D ( X ) = ? 【例】假定某航空公司预订票处平均每小时接到42次订票电话,那么10分钟内恰好接到6次电话的概率是多少?
解:设X=10分钟内航空公司预订票处接到的电话次数
??1076e?7???42?7P?X?6???0.149606!
泊松分布作为二项分布的近似:
当试验的次数 n 很大,成功的概率 p 很小时,可用泊松分布来近似地计算二项分布的
Cpq概率,即
xnxn?x?e???x!。实际应用中,当 P?0.05,n>20,np?5时,近似效果良好。
超几何分布
超几何分布(hypergeometric distribution):与二项分布很相似。与二项分布的主要区别是,各次试验不是独立的,而且各次试验中成功的概率也不等。采用不重复抽样,各次试验
xCMxCNn?并不独立,成功的概率也互不相等。概率分布函数为: ?MP(X?x)?x?1,2,?,ln CN【例】假定有10支股票,其中有3支购买后可以获利,另外7支购买后将会亏损。如果你打算从10支股票中选择4支购买,但你并不知道哪3支是获利的,哪7支是亏损的。求 (1)有3支能获利的你选中的概率有多大?
(2)3支可获利的股票中有2支被你选中的概率有多大? 解:设N=10,M=3,n=4
4?3 C33C101?71?3P(X?3)???4 21030C104?34?2C33C10C32C10131 ?3?3P(X?2)?P(X?2)?P(X?3)?????44 30103C10C10
3.3 连续型概率分布
3.3.1概率密度函数
连续型随机变量的概率分布
连续型随机变量可以取某一区间或整个实数轴上的任意一个值,它取任何一个特定的值的概率都等于0,不能列出每一个值及其相应的概率,通常研究它取某一区间值的概率,用概率密度函数的形式和分布函数的形式来描述。
概率密度函数(probability density function):设X为一连续型随机变量,x 为任意实数,X的概率密度函数记为f(x),它满足条件(f(x)不是概率):
(1)f(x)?0
??(2)f(x)dx?1
??
概率密度函数:密度函数 f(x)表示X 的所有取值 x 及其频数f(x)。
?
在平面直角坐标系中画出f(x)的图形,则对于任何实数 x1 < x2,P(x1< X? x2)是该曲线下从x1 到 x2的面积:
分布函数(distribution function):连续型随机变量的概率可以用分布函数F(x)来表示。分布函数定义为:
F(x)?P(X?x)?b?x??f(t)dt(???x???)
根据分布函数,P(a P(a?X?b)??af(x)dx?F(b)?F(a) 分布函数与密度函数的图示 密度函数曲线下的面积等于1,分布函数是曲线下小于 x0 的面积。 连续型随机变量的期望和方差: 连续型随机变量的数学期望: E(X)? ?????xf(x)dx??方差: ??22D(X)?x?E(X)f(x)dx?? ??3.3.2正态分布 正态分布(normal distribution):由C.F.高斯(Carl Friedrich Gauss,1777—1855)作为描述误差相对频数分布的模型而提出,描述连续型随机变量的最重要的分布。许多现象都可以由正态分布来描述,可用于近似离散型随机变量的分布(例如: 二项分布)。经典统计推断的基础。 ???12概率密度函数: ?2?x???1f(x)?e2?,???x?? 22π? f(x) = 随机变量 X 的频数 ? = 正态随机变量X的均值 ? ?= 正态随机变量X的方差 ? = 3.1415926; e = 2.71828 x = 随机变量的取值 (-? < x < ?) 正态分布函数的性质: 图形是关于x=?对称的钟形曲线,且峰值在x=? 处。均值?和标准差?一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族。均值?可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的―陡峭‖或―扁平‖程度。?越大,正态曲线扁平;?越小,正态曲线越陡峭。当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交。正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1。 ? 和? 对正态曲线的影响: 正态分布的概率: 标准正态分布(standardize the normal distribution):随机变量具有均值为0,标准差为1的正态分布,任何一个一般的正态分布,可通过下面的线性变换转化为标准正态分布: 1X???(x)?eZ?~N(0,1)2??标准正态分布的概率密度函数: ?x22,???x?? ?(x)?标准正态分布的分布函数: ?x???(x)dt??x12π??e-t22dt 标准正态分布表的使用 对于标准正态分布,即Z~N(0,1),有P (a? Z?b)? ? ?b? ?? ?a? P (|Z| ?a)? 2? ?a? ?1 对于负的 z ,可由? (-z)???? ?z?得到,对于一般正态分布,即X~N(? , ? ),有: P(a?X?b)?????b????a???x???????P(X?x)??()?????????? 标准化的例子 若P(5 ? X ? 6.2) 若P(2.9 ? X ? 7.1) 【例】假定某公司职员每周的加班津贴服从均值为50元、标准差为10元的正态分布,那么全公司中有多少比例的职员每周的加班津贴会超过70元,又有多少比例的职员每周的加班津贴在40元到60元之间呢? 解:设?=50,? =10,X~N(50,102) 70?50P(X?70)?1?P(X?70)?1?Φ()?1?Φ(2) 10 ?1?0.97725?0.02275 P(40?X?60)?Φ( 3.3.3均匀分布 均匀分布(uniform distribution):若随机变量X的概率密度函数为: 60?5040?50)?Φ()?Φ(1)?Φ(?1)?2Φ(1)?11010?2?0.8413?1?0.6826?1?f(x)??b?a?0?a?X?b其他称X在 [a ,b]上服从 均匀分布,记为X~U[a,b]。数学期望和方差: a?b(b?a)2 E(X)?;D(X)?212 均匀分布的概率计算 1. 随机变量X在某取值范围[a ,b]的任一子区间[c ,d]上取值的概率为: P(c?X?d)?d?cc?ab?cP(X?c)?P(X?c)?b?a同样有b?a b?a 【例】某公共汽车站从早上6时起每隔15min开出一趟班车,假定某乘客在6点以后到达 车站的时刻是随机的,所以有理由认为他等候乘车的时间长度X服从参数为a=0,b=15的均匀分布。试求该乘客等候乘车的时间长度少于5min的概率。 解:概率密度函数为 ?10?x?15? f(x)??15 ?0其他? 落入区间[0,15]的任一子区间[0,d]的概率是 P(0?X?d)?d15,等候乘车的 时间长度少于5min即有d =5,因此该事件发生的概率等于5/15=1/3 3.3.4指数分布 指数分布(exponential distribution):若随机变量X的概率密度函数为: ??e??xf(x)???0x?0(??0)其他 称X服从参数为?的指数分布,记为X~E(?)。 数学期望和方差: 11E(X)?;D(X)?2 ?? 指数分布的概率计算 随机变量X取小于或等于某一特定值x的概率为: P(X?x)?1?e??x 随机变量X落入任一区间(a,b)的概率为: P(a?X?b)?P(X?b)?P(X?a) ?e??a?e??b 【例】假定某加油站在一辆汽车到达之后等待下一辆汽车到达所需要的时间(单位:min)服从参数为1/5的指数分布,如果现在正好有一辆汽车刚刚到站加油,试分别求以下几个事件发生的概率: (1)一辆汽车到站前需要等待5min以上 (2)一辆汽车到站前需要等待5~10min 1解: ??5?15P(X?5)?1?e?1?e?0.632 P(X?5)?1?P(X1?5)?11?0.632?0.368??5??10P (5?X?10)?e5?e5?e?1?e?2?0.233 第4章 抽样与抽样分布 学习目标:了解概率抽样方法;区分总体分布、样本分布、抽样分布;理解抽样分布与总体分布的关系;掌握单总体参数推断时样本统计量的分布;掌握双总体参数推断时样本统计量的分布。 4.1概率抽样方法 概率抽样(probability sampling):根据一个已知的概率来抽取样本单位,也称随机抽样。特点:1.按一定的概率以随机原则抽取样本(抽取样本时使每个单位都有一定的机会被抽中);2.每个单位被抽中的概率是已知的,或是可以计算出来的。3.当用样本对总体目标量进行,估计时,要考虑到每个样本单位被抽中的概率。 简单随机抽样(simple random sampling):从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中。抽取元素的具体方法有重复抽样和不重复抽样。特点:1.简单、直观,在抽样框完整时,可直接从中抽取样本;2.用样本统计量对目标量进行估计比较方便。局限性:1.当N很大时,不易构造抽样框;2.抽出的单位很分散,给实施调查增加了困难;3.没有利用其他辅助信息以提高估计的效率。 简单随机样本(simple random sample):由简单随机抽样形成的样本,从总体N个单位中随机地抽取n个单位作为样本。使得每一个容量为n样本都有相同的机会(概率)被抽中。参数估计和假设检验所依据的主要是简单随机样本。 分层抽样(stratified sampling):将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本。优点:1.保证样本的结构与总体的结构比较相近,从而提高估计的精度;2.组织实施调查方便;3.既可以对总体参数进行估计,也可以对各层的目标量进行估计。 系统抽样(systematic sampling):将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位(先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k等单位)。 优点:操作简便,可提高估计的精度。缺点:对估计量方差的估计比较困难。 整群抽样(cluster sampling): 将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查。特点:1.抽样时只需群的抽样框,可简化工作量;2.调查的地点相对集中,节省调查费用,方便调查的实施。 多阶段抽样(multi-stage sampling):先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查(群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样)。具有整群抽样的优点,保证样本相对集中,节约调查费用。需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开。在大规模的抽样调查中,经常被采用的方法。 4.2 三种不同性质的分布 总体分布(population distribution):总体中各元素的观察值所形成的分布。分布通常是 未知的;可以假定它服从某种分布。 样本分布(sample distribution):一个样本中各观察值的分布,也称经验分布,当样本容量n逐渐增大时,样本分布逐渐接近总体的分布。 抽样分布:(sampling distribution):样本统计量的概率分布,是一种理论分布(在重复选取容量为n的样本时,由该统计量的所有可能取值形成的相对频数分布); 随机变量是样本统计量(样本均值, 样本比例,样本方差等)。结果来自容量相同的所有可能样本。提供了样本统计量长远而稳定的信息,是进行推断的理论基础,也是抽样推断科学性的重要依据。 4.3样本统计量的抽样分布 4.3.1样本均值的抽样分布 在重复选取容量为n的样本时,由样本均值的所有可能取值形成的相对频数分布。一种理论概率分布。推断总体均值μ的理论基础。 中心极限定理(central limit theorem) :从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ,方差为σ2/n的正态分布。 抽样分布与总体分布的关系: 样本均值的抽样分布的数学期望与方差: 样本均值的数学期望: 样本均值的方差: 重复抽样: 不重复抽样: 结论:1. 样本均值的均值(数学期望) 等于总体均值;2. 样本均值的方差等于总体方差的1/n。 统计量的标准误(standard error):样本统计量的抽样分布的标准差,称为统计量的标准误,也称为标准误差。标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度。以样本均值的抽样分布为例,在重复抽样条件下,样本均值的标准误为: 【例】某公司有400人,平均工龄为10年,标准差为3年。随机抽出50名组成一个简单随机样本,试问样本中工作人员的平均工龄不低于9年的概率有多大? 解:这个公司的全体400名工作人员构成一个有限总体。 年), (年),n=50,虽然不知道总体分布的性质,但是,由于有样本容量n=50为大样本,因此,由中心极限定理知道,样本均值的抽样分布近似正态分布。 样本均值的数学期望为: 样本均值的标准差为: 所以,样本均值的抽样分布为:将X变量转换为Z变量,于是: 也即样本中工作人员的平均工龄不低于9年的概率为0.994。 4.3.2样本比例的抽样分布 比例(proportion):总体(或样本)中具有某种属性的单位与全部单位总数之比(不同性别的人与全部人数之比合格品(或不合格品) 与全部产品总数之比)。 总体比例可表示为: 样本比例可表示为: 样本比例的抽样分布:在重复选取容量为n的样本时,由样本比例的所有可能取值形成的相对频数分布。一种理论概率分布。当样本容量很大时,样本比例的抽样分布可用正态分布近似。推断总体比例的理论基础 。 样本比例的抽样分布的数学期望与方差 样本比例的数学期望: 样本比例的方差: 重复抽样: 不重复抽样: 样本方差的抽样分布 样本方差的分布:在重复选取容量为n的样本时,由样本方差的所有可能取值形成的相对频数分布。对于来自正态总体的简单随机样本,则比值: 的抽样分布服从自由度为 (n -1) 的X2分布,即:
正在阅读:
西华师范大学-统计学复习资料 - 图文01-27
较复杂的三组抢答器的PLC控制 - 图文11-08
娌??鐗堝垵浜岀墿鐞嗐02-03
构造地质期末总结07-10
曼昆微观经济学复习题1答案06-03
第四章 保险的基本原则练习题答案考05-06
新课程改革对教师提出哪些要求04-29
人事行政经理岗位职责及绩效考核01-09
竖井相关埋件工程量计算说明书10-11
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 西华
- 复习资料
- 统计学
- 师范大学
- 图文
- 整理初中物理知识点总结 - 图文
- 金庸武侠小说人物称号(江湖花名)
- 氨基甲酸铵分解反应平衡常数的测定
- 主要农作物面积多维多尺度立体统计遥感调查技术创新与应用
- 云南省曲靖一中2009届高三高考冲刺卷(一)(数学文)
- 2018-2019学年高二历史选修四同步练习题
- 隋唐五代文学教案(64课时)
- 2015西师版四上全册教案
- 连续梁悬灌施工作业指导书
- 第26套题高中历史必修三各地模拟选择题100道解析版
- 海南医学院实验室安全常识在线考试试题(1)单选
- 室内装修施工工艺
- 发展中国特色创新型畜牧业之我见
- 2018学年斗门区教师继续教育校本研修管理办法
- 江苏省女职工劳动保护特别规定-2018年7月1日起实施
- 上学期数学语文阶段测查试卷一10.14(2016)a
- 电子商务概论与实例分析 考试整理资料
- 老黄历生肖
- 关于土地使用权作价入股成立新公司的相关法律问题探讨
- 形式主义官僚主义十种表现自查报告