不等概率分层抽样条件下Probit模型的参数估计
更新时间:2023-09-02 01:04:01 阅读量: 教育文库 文档下载
- 不等概率的分层抽样推荐度:
- 相关推荐
不等概率分层抽样条件下Probit模型的参数估计
线性回归分析作为一种传统的统计分析方法,现已得到广泛的应用和完善。但受其对应变量连续性要求的影响,当应变量为分类变量(常见的时,线性回归是二分类变量,即!取",#两个值)模型不再适用。人们通常采用$%&’()模型或*&)(+)模型对二分类因变量进行回归分析,与线性回归不同,$%&’()回归是一种非线性回归模型,因而在参数估计时,通常采用极大似然估计,并且在随机样本条件下,$%&’()模型的极大似然估计具有一致性,渐进有效性和渐进正态性。然而在许多实际问由于受两题中,运用$%&’()模型进行参数估计时,类总体比例悬殊的影响,从总体中抽取样本时并非是随机抽样,而是采用不等比例的分层抽样方法。例如,在研究企业破产预警模型时,破产企业
于是,得到一个观测值的概对应的条件概率#8$-,率为:
(!()$,$-9#8$-!(
9#8!(:
:6!(,"6#。
(.)
在随机样本中,各项观测值相互独立,$%&’()模型的对数似然估计函数为:
>
**,(>?*9$:@,!!(#>9$-:59#8!(:#>9#8$-:
(,#
(!"5!#-#(5…5!/-/(),!?!(#>#
59#8!(:#>9#8#:9!"5!#-#(5…5!/-/(:@
计值。
9A:
利用极大似然法,可得到未知参数!",!#!/的估
在分层抽样条件下,样本点的分布与总体分
在给定-#6-.6…-/条件下,得到与非破产企业比例相差较大。在医药统计分析中,布不再具有同一性,得到!(,"的概医疗患者的人数与正常人群的比例也相差悬殊。样本观测!(,#的概率不再等于$-,研究者为了充分利用稀缺的病案资料或破产公司的数据,普遍采用不等概率分层抽样技术。即首先将研究总体按因变量的特征分成两类,然后从各类中按不同的比例随机抽取样本,合并形成估计从医疗患者或破$%&’()模型的样本。通常情况下,
产公司中抽取的比例要远远高于正常人或非破产公司。在不等概率抽样条件下,样本点的分布与总体分布不再具有同一性,如果仍然直接采用极大似然估计法将导致模型和概率估计产生偏差。为此,本文就不等概率抽样条件下的$%&’()模型的参数估计方法进行了探讨。
不等概率抽样条件下%&’()*模型的极大似然设变量!为二分类变量,!(,#代表两类特征
率也不再等于#8$-。也就是说,在分层抽样条件式进行估计,将产生偏差。设由<个下,再利用(A)单位=#,…,按因变量=(的特征,=<构成的总体,将其分为两组B#和B.,其中B#中共有<#个单位且各单位的因变量!(取值均为#,B.中共有<.,且!(取值为"。假定在给定预测变量<8<#个单位,
C#(6C.(……,C/(条件下!(,#的概率:
$-,$0!(,#1C#(……C/(2,%#<#D9%#<#5%"<.:9E:采用不等比例分层抽样法,分别从B#和B.中抽取>#和>.个单位,合并作为样本资料,在给定C#(6C.(……,得到样本观察值!(,#的概率C/(条件下,
$-,$0!(,#1C#(……C/(2,%#>#D9%#>#5%">.:9F:由(E),(F)两或可得:
$-,$-D?$-59#8$-:%@,其中%,9>.D<.:D9>#D<#:代
表两组抽样比例之比。(G)
式$-,#(H) 利用(#)D?#9H:59#8#:9H:@%,H(,!"5!#-#(
…!/-/(,易见,当%##时,$I-#$-,#9H:$I-,#9HI(:6
在分层抽样条件下,若继续使HI(,!I"5!I#-#(…!I/-/(,
估计的修正
中的其中一类,如破产公司或医疗患者,这里通称
…为事件发生,!(,"代表事件未发生,变量-#,-.,
-/为/个预测变量。$%&’()模型就是要建立预测模型,根据预测变量值,预测在给定-#(,…-/(条件-.(,下,即$0!(,#1-#,…-/2。假设有一理用基于随机样本的参数估计方法由对数似然函!(,#的概率,-.,
论上存在的连续变量!3(代表事件发生的可能性,数:
>
当其值域为负无穷至正无穷,且当!3(!"时,!(,#,
**,(>?*9$:@,!!(#>9$I-:59#8!(:#>9#8$I-:
如果假定!3(和预测变量-#(,…-/(!3(4"时,!(,",-.(,(,#
之间存在一种线性关系,即:
!3(,!"5!#-#(5!.-.(5…5!/-/(5"(6
则$0!(,#1-(#…-/(2,$0!"5!.-.(5…5!/-/(5"(7"2
,$0"(789!"5!#-#(5!.-.(5…5!/-/(:2
假设"(服从标准正态分布,由标准正态分布的对称性,则有$%&’()模型:
$-,$0!(,#1-#(…-/(2,$0"("!"5!.-#(…!/-/(2,#9;:9#:
其中;,!"5!#-#(…!/-/(;$-为给定-#6-.6…-/的条件下,为待估参数。!(,#的概率,
…=<构成的总体中随机抽取从<个单位=#,
观测值标注为!#6…6!>。在随机>个单位作为样本,
抽样条件下,样本点的分布与总体分布相同,给定得到样本观测值!(,#的概率-#(6-.(6…-/(的条件下,
(!(,#1-#(…-/()等于总体中对应的概率$-,得到样$
本观测值!(,"的概率$(!(,#1-#(…-/()等于总体中
注:本文为浙江省自然科学基金资助项目(!"#""!)
(!I"5!I#-#(5…5!I/-/(),!?!(#>#59#8!(:#>9#8
#:9!I"5!I#-#(5…5!I/-/(:@
9J:
利用极大似然估计可得参数!I",!I#,…5!I/的估计值。在等比例抽样条件下,由于#9H:,$-,%,#,则H(,HI(,!I"5!I#-#(5…5!I/-/(,参数估计$I-,#9HI(:,
无偏。在不等比例抽样条件下,%##,$-#$I-,H(#参数估计产生偏差。因此HI(,!I"5!I#-#(5…5!I/-/(,
在不等比例分层抽样条件下,应利用(G)式对概率估计值做如下修正:
$-,%$I-D?9#8$I-:5%$I-@
,%#9HI(:D?#8#9HI(:5%#9HI(:@H(,#8#9$-:,#8#9$-:
,#8#?%#9HI(:D?#8%#9HI(:@5%#9HI(:@
9K:9L:
不等概率分层抽样条件下Probit模型的参数估计
一种高效的简略生命表数据解压技术
!张志强
朱建平
张润楚
一、简略生命表解压技术
生命表依据年龄组组距的不同分为简略生命表和完全生命表。简略生命表完全的年龄组组距通常为!年或"#年,生命表年龄组组距为"年,即按人口的
整数年龄分组。由于数据太少或数据精度不高,生命表信息通常是以简略生命表公布的,如何方便有效地把简略生命表中的数据恢复成完全生命表中的数据
样我们会看到诸如$%&’%(&)%(插值法、条插值法、*)+,&-%(和./++%’0的1参数模型以及2/34%5,非参数法等简略生命表数据解压技术。比较上述方法,结果表计算结果精度最高、光滑度最好的简略
是本文要解决的问题。纵览国内外文献,明*)+,&-%(和./++%’0的1参数模型是
注:本文是国家自然科学基金(!"!#!"$!)及国家社会科学基金("%&’("!))奖助项目。
其中,67,8!7#9!7:;",…!75;5,;("为重点高中,变量E:表示高中类型#
数。于是我们有#K"=M,>=!#9!";",9!:;:,9
,变量EF表示高中平均成6,与67,及.;与.7;的关系,分别如图",为其他中学)
图:所示:绩("为小于1#分,:为大于等于1#小
。建立.’/@,4模于1!分,F为大于1!分)"8"##
"8"#
"8:"8""8#V!"8#V""8#V#"
!F;F,>9Q,NOM=!#9!";",9!:;:,9!F;F,>P式中ROQ,N=!#9!";",9!:;:,9!F;F,>P8#
T%’OQ,N=!#9!";",9!:;:,9!F;F,>P8T%’OM,N=!#9!";",9!:;:,9!F;F,>P8.,="K.,>N(,=M=!#9!";",9!:;:,9!F;F,>>:
这里误差项的方差依赖于各级概率.,,因此产生异方差问题。为了修正异方差,要应用加权最小二乘估计法。权数为方差的平方根倒数。应注意的是,计算残差
型如下:
.,8.GD,H;",I;:,I;F,J8#=!#9!";",9!:;:,9!F;F,>
即:#K"=.,>8!#9!";",9!:;:,9!F;F,
在该数据中共有"###人参加了高考,其中FF!人考入大学,LL!人落榜。现分别从考入大学学生、落榜生中各抽取:!#人组成样本资料,经汇总如下表"所示:表中(,、M7,分别为样本资料中给定
表,
组别
"8"##
"8"#"8:"8""8#V!"8#V""8#V#"
;",I;:,I;F,
条
件下,样本观察频数及
E"E:EF(,M7,
###
###
F:"
L"1FFX
#V##!"#V"XF#V!X##""F##":":#V:!#"F1#V!""""""
"""###
F:"F:"
:W"XX"W"1!"L
#V#LF#VFL!#V1!1#V"""#VLF:#VX!1
升入大学的比例。在不等比例分层抽样条件下,样本点分布与总体分布不再相
从图"和图:可见,当"<"时,.;<概率估计值偏小。.8#=!9!;…!;>,
且"越大,概率估计差越大。当"?时,
概率估计值偏.;?.7;8#=!7#9!7:;",…!75;5,>,
偏差越大。大,"越接近于#,
不等概率抽样条件下%&’()*模型的
7;
7#
7:",
755,
项的方差,需要未知的.,和=!#9!";",9然而我们能通过M,和#K"=M,>来!:;:,9!F;F,>。
估计即3:,8M,="KM,>N(=M=#K"=M,>>:。
实例分析
根据表"中资料,运用.’/@,4模型
同,总体中在;",I;:,I;F,条件下考入大学的(L)作出估计M,8M7,NO="KM7,>9比例.,可利用
"M7,P。
假定M,8.,9Q,,其中Q,为残差,Q,8M,K当样本规模很RM,8.,。这就也就是说,.,,大时,令$,很小。M,将近似于.,。.’/@,4模型可以表示为:按=M,K.,>#K"=M,>8SK"=.,9Q,>,幂展开的泰勒展开式的前两项,得到#K"=M,>"#K"=.,>90#K"=.,>N0.,NQ,此外,0#K"=.,>N0.,80=!#9!";",9!:;:,9!F;F,>
U7,8的极大似然法,可得.7,的估计式为:.
由#=KFVWFW9#VLL;",9#VW#:;:,9"V"XY;F,>,
"8=:!#NLL!>N=:!#NFF!>8#V!#W可得.,的
加权最小二乘估计
通常在对.’/@,4模型进行参数估计所涉及的是个案数据,然而在给定分组资料时,也可利用A$B估计法进行估计。为方便讨论,我们利用《$/&,34,C回归模型方法与运用》(王济川等,高等教育出版社:##"年)中一套高考数据运用
U7,8#V!#W.U7,NO="K.U7,>9#V!#W.U7,P。估计式为:.
运用加权最小二乘估计法可得总体.,
U7,8#=KFVWFW9#VLL;",9的估计式为:.
#VW#:;:,9"V""X;F,>。概率估计值如表:所
示:
L
Y
1
X
"#
""
":
NO0#=!#9!";",9!:;:,9!F;F,>P8"NOM=!#9!";",9!:;:,9!F;F,>P
组别极大似然
表-
"U7,
.U,.
:FW!
.’/@,4模型分析高中毕业生进入大学学
习的可能性的影响因素。模型中因变量是高中毕业生是否考入大学(D8"为考,三个解释入大学,D8#为没考入大学)
#V#"LX#V"Y1#VL#Y#V#FYY#V:1##VYF"#V#1:#V##1L#V#X1#VWF1#V#"XF#V"LW#V!YY#V#WF
#V""L#VWLX#V#:YX#V:"F#VL:Y#V#WX
#VW:"#V1W"#V"WL#V!!1#VX"#
#V:L1#VY:Y#V#YXL#VF11#V1FL#V:XL#VY:"#V"#!
#VWWY#V1F1
U,#V#"#最小二乘估计.
其中M=!#9!";",9!:;:,9!F;F,>为在=!#9!"
(作者单位!浙江嘉兴学院)
(责任编辑+亦民)
("为男性,,;9!;9!;>时的标准正态分布密度函变量E"表示性别#为女性)",::,FF,
正在阅读:
基于plc的电梯控制系统设计 - 图文03-09
沙县生态旅游资源05-14
采购复习资料11-11
三年级检讨书200字02-06
汇编语言期末复习总结(完整版)03-06
xx市自然资源局2021年工作总结及2022年工作打算08-03
会走路的杯子作文500字06-19
四有好教师案例05-22
- exercise2
- 铅锌矿详查地质设计 - 图文
- 厨余垃圾、餐厨垃圾堆肥系统设计方案
- 陈明珠开题报告
- 化工原理精选例题
- 政府形象宣传册营销案例
- 小学一至三年级语文阅读专项练习题
- 2014.民诉 期末考试 复习题
- 巅峰智业 - 做好顶层设计对建设城市的重要意义
- (三起)冀教版三年级英语上册Unit4 Lesson24练习题及答案
- 2017年实心轮胎现状及发展趋势分析(目录)
- 基于GIS的农用地定级技术研究定稿
- 2017-2022年中国医疗保健市场调查与市场前景预测报告(目录) - 图文
- 作业
- OFDM技术仿真(MATLAB代码) - 图文
- Android工程师笔试题及答案
- 生命密码联合密码
- 空间地上权若干法律问题探究
- 江苏学业水平测试《机械基础》模拟试题
- 选课走班实施方案
- 分层
- 抽样
- 概率
- 不等
- 模型
- 估计
- 条件
- 参数
- Probit
- 入党积极分子(发展对象)培养阶段谈话记录表
- ARM11 6410--Linux驱动程序开发演示
- 插值法计算实际利率
- 孔孟思想主张的共同点
- 高二化学人教版选修4第二章《化学反应速率与化学平衡》期末复习(二)
- 液氮生物容器的日常使用注意事项
- 人教版五年级数学上册解方程专项练习题精选 (194)
- 建筑资料员考试题
- 男女平等基本国策知识宣传问卷及答案(精简全面)
- 2015西藏自治区银行从业资格考试个人贷款真题精选2最新考试试题库
- 各类型物业的管理服务内容分类标准
- 八段锦`易筋经教案
- 数值分析 实验报告 第七章复化梯形公式
- 崂山城市化yyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy
- 新冀教版小学语文四年级上册《大海的歌》公开课优质课教案第二课时
- 《设计素描》课程改革与建设总结报告
- 小学微机室使用记录表
- 2.安全培训记录、签到表及照片
- 春节晚会校园搞笑相声小品短剧本
- 互联网个人用户注册变更申请表