不等概率分层抽样条件下Probit模型的参数估计

更新时间:2023-09-02 01:04:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

不等概率分层抽样条件下Probit模型的参数估计

线性回归分析作为一种传统的统计分析方法,现已得到广泛的应用和完善。但受其对应变量连续性要求的影响,当应变量为分类变量(常见的时,线性回归是二分类变量,即!取",#两个值)模型不再适用。人们通常采用$%&’()模型或*&)(+)模型对二分类因变量进行回归分析,与线性回归不同,$%&’()回归是一种非线性回归模型,因而在参数估计时,通常采用极大似然估计,并且在随机样本条件下,$%&’()模型的极大似然估计具有一致性,渐进有效性和渐进正态性。然而在许多实际问由于受两题中,运用$%&’()模型进行参数估计时,类总体比例悬殊的影响,从总体中抽取样本时并非是随机抽样,而是采用不等比例的分层抽样方法。例如,在研究企业破产预警模型时,破产企业

于是,得到一个观测值的概对应的条件概率#8$-,率为:

(!()$,$-9#8$-!(

9#8!(:

:6!(,"6#。

(.)

在随机样本中,各项观测值相互独立,$%&’()模型的对数似然估计函数为:

>

**,(>?*9$:@,!!(#>9$-:59#8!(:#>9#8$-:

(,#

(!"5!#-#(5…5!/-/(),!?!(#>#

59#8!(:#>9#8#:9!"5!#-#(5…5!/-/(:@

计值。

9A:

利用极大似然法,可得到未知参数!",!#!/的估

在分层抽样条件下,样本点的分布与总体分

在给定-#6-.6…-/条件下,得到与非破产企业比例相差较大。在医药统计分析中,布不再具有同一性,得到!(,"的概医疗患者的人数与正常人群的比例也相差悬殊。样本观测!(,#的概率不再等于$-,研究者为了充分利用稀缺的病案资料或破产公司的数据,普遍采用不等概率分层抽样技术。即首先将研究总体按因变量的特征分成两类,然后从各类中按不同的比例随机抽取样本,合并形成估计从医疗患者或破$%&’()模型的样本。通常情况下,

产公司中抽取的比例要远远高于正常人或非破产公司。在不等概率抽样条件下,样本点的分布与总体分布不再具有同一性,如果仍然直接采用极大似然估计法将导致模型和概率估计产生偏差。为此,本文就不等概率抽样条件下的$%&’()模型的参数估计方法进行了探讨。

不等概率抽样条件下%&’()*模型的极大似然设变量!为二分类变量,!(,#代表两类特征

率也不再等于#8$-。也就是说,在分层抽样条件式进行估计,将产生偏差。设由<个下,再利用(A)单位=#,…,按因变量=(的特征,=<构成的总体,将其分为两组B#和B.,其中B#中共有<#个单位且各单位的因变量!(取值均为#,B.中共有<.,且!(取值为"。假定在给定预测变量<8<#个单位,

C#(6C.(……,C/(条件下!(,#的概率:

$-,$0!(,#1C#(……C/(2,%#<#D9%#<#5%"<.:9E:采用不等比例分层抽样法,分别从B#和B.中抽取>#和>.个单位,合并作为样本资料,在给定C#(6C.(……,得到样本观察值!(,#的概率C/(条件下,

$-,$0!(,#1C#(……C/(2,%#>#D9%#>#5%">.:9F:由(E),(F)两或可得:

$-,$-D?$-59#8$-:%@,其中%,9>.D<.:D9>#D<#:代

表两组抽样比例之比。(G)

式$-,#(H) 利用(#)D?#9H:59#8#:9H:@%,H(,!"5!#-#(

…!/-/(,易见,当%##时,$I-#$-,#9H:$I-,#9HI(:6

在分层抽样条件下,若继续使HI(,!I"5!I#-#(…!I/-/(,

估计的修正

中的其中一类,如破产公司或医疗患者,这里通称

…为事件发生,!(,"代表事件未发生,变量-#,-.,

-/为/个预测变量。$%&’()模型就是要建立预测模型,根据预测变量值,预测在给定-#(,…-/(条件-.(,下,即$0!(,#1-#,…-/2。假设有一理用基于随机样本的参数估计方法由对数似然函!(,#的概率,-.,

论上存在的连续变量!3(代表事件发生的可能性,数:

>

当其值域为负无穷至正无穷,且当!3(!"时,!(,#,

**,(>?*9$:@,!!(#>9$I-:59#8!(:#>9#8$I-:

如果假定!3(和预测变量-#(,…-/(!3(4"时,!(,",-.(,(,#

之间存在一种线性关系,即:

!3(,!"5!#-#(5!.-.(5…5!/-/(5"(6

则$0!(,#1-(#…-/(2,$0!"5!.-.(5…5!/-/(5"(7"2

,$0"(789!"5!#-#(5!.-.(5…5!/-/(:2

假设"(服从标准正态分布,由标准正态分布的对称性,则有$%&’()模型:

$-,$0!(,#1-#(…-/(2,$0"("!"5!.-#(…!/-/(2,#9;:9#:

其中;,!"5!#-#(…!/-/(;$-为给定-#6-.6…-/的条件下,为待估参数。!(,#的概率,

…=<构成的总体中随机抽取从<个单位=#,

观测值标注为!#6…6!>。在随机>个单位作为样本,

抽样条件下,样本点的分布与总体分布相同,给定得到样本观测值!(,#的概率-#(6-.(6…-/(的条件下,

(!(,#1-#(…-/()等于总体中对应的概率$-,得到样$

本观测值!(,"的概率$(!(,#1-#(…-/()等于总体中

注:本文为浙江省自然科学基金资助项目(!"#""!)

(!I"5!I#-#(5…5!I/-/(),!?!(#>#59#8!(:#>9#8

#:9!I"5!I#-#(5…5!I/-/(:@

9J:

利用极大似然估计可得参数!I",!I#,…5!I/的估计值。在等比例抽样条件下,由于#9H:,$-,%,#,则H(,HI(,!I"5!I#-#(5…5!I/-/(,参数估计$I-,#9HI(:,

无偏。在不等比例抽样条件下,%##,$-#$I-,H(#参数估计产生偏差。因此HI(,!I"5!I#-#(5…5!I/-/(,

在不等比例分层抽样条件下,应利用(G)式对概率估计值做如下修正:

$-,%$I-D?9#8$I-:5%$I-@

,%#9HI(:D?#8#9HI(:5%#9HI(:@H(,#8#9$-:,#8#9$-:

,#8#?%#9HI(:D?#8%#9HI(:@5%#9HI(:@

9K:9L:

不等概率分层抽样条件下Probit模型的参数估计

一种高效的简略生命表数据解压技术

!张志强

朱建平

张润楚

一、简略生命表解压技术

生命表依据年龄组组距的不同分为简略生命表和完全生命表。简略生命表完全的年龄组组距通常为!年或"#年,生命表年龄组组距为"年,即按人口的

整数年龄分组。由于数据太少或数据精度不高,生命表信息通常是以简略生命表公布的,如何方便有效地把简略生命表中的数据恢复成完全生命表中的数据

样我们会看到诸如$%&’%(&)%(插值法、条插值法、*)+,&-%(和./++%’0的1参数模型以及2/34%5,非参数法等简略生命表数据解压技术。比较上述方法,结果表计算结果精度最高、光滑度最好的简略

是本文要解决的问题。纵览国内外文献,明*)+,&-%(和./++%’0的1参数模型是

注:本文是国家自然科学基金(!"!#!"$!)及国家社会科学基金("%&’("!))奖助项目。

其中,67,8!7#9!7:;",…!75;5,;("为重点高中,变量E:表示高中类型#

数。于是我们有#K"=M,>=!#9!";",9!:;:,9

,变量EF表示高中平均成6,与67,及.;与.7;的关系,分别如图",为其他中学)

图:所示:绩("为小于1#分,:为大于等于1#小

。建立.’/@,4模于1!分,F为大于1!分)"8"##

"8"#

"8:"8""8#V!"8#V""8#V#"

!F;F,>9Q,NOM=!#9!";",9!:;:,9!F;F,>P式中ROQ,N=!#9!";",9!:;:,9!F;F,>P8#

T%’OQ,N=!#9!";",9!:;:,9!F;F,>P8T%’OM,N=!#9!";",9!:;:,9!F;F,>P8.,="K.,>N(,=M=!#9!";",9!:;:,9!F;F,>>:

这里误差项的方差依赖于各级概率.,,因此产生异方差问题。为了修正异方差,要应用加权最小二乘估计法。权数为方差的平方根倒数。应注意的是,计算残差

型如下:

.,8.GD,H;",I;:,I;F,J8#=!#9!";",9!:;:,9!F;F,>

即:#K"=.,>8!#9!";",9!:;:,9!F;F,

在该数据中共有"###人参加了高考,其中FF!人考入大学,LL!人落榜。现分别从考入大学学生、落榜生中各抽取:!#人组成样本资料,经汇总如下表"所示:表中(,、M7,分别为样本资料中给定

表,

组别

"8"##

"8"#"8:"8""8#V!"8#V""8#V#"

;",I;:,I;F,

件下,样本观察频数及

E"E:EF(,M7,

###

###

F:"

L"1FFX

#V##!"#V"XF#V!X##""F##":":#V:!#"F1#V!""""""

"""###

F:"F:"

:W"XX"W"1!"L

#V#LF#VFL!#V1!1#V"""#VLF:#VX!1

升入大学的比例。在不等比例分层抽样条件下,样本点分布与总体分布不再相

从图"和图:可见,当"<"时,.;<概率估计值偏小。.8#=!9!;…!;>,

且"越大,概率估计差越大。当"?时,

概率估计值偏.;?.7;8#=!7#9!7:;",…!75;5,>,

偏差越大。大,"越接近于#,

不等概率抽样条件下%&’()*模型的

7;

7#

7:",

755,

项的方差,需要未知的.,和=!#9!";",9然而我们能通过M,和#K"=M,>来!:;:,9!F;F,>。

估计即3:,8M,="KM,>N(=M=#K"=M,>>:。

实例分析

根据表"中资料,运用.’/@,4模型

同,总体中在;",I;:,I;F,条件下考入大学的(L)作出估计M,8M7,NO="KM7,>9比例.,可利用

"M7,P。

假定M,8.,9Q,,其中Q,为残差,Q,8M,K当样本规模很RM,8.,。这就也就是说,.,,大时,令$,很小。M,将近似于.,。.’/@,4模型可以表示为:按=M,K.,>#K"=M,>8SK"=.,9Q,>,幂展开的泰勒展开式的前两项,得到#K"=M,>"#K"=.,>90#K"=.,>N0.,NQ,此外,0#K"=.,>N0.,80=!#9!";",9!:;:,9!F;F,>

U7,8的极大似然法,可得.7,的估计式为:.

由#=KFVWFW9#VLL;",9#VW#:;:,9"V"XY;F,>,

"8=:!#NLL!>N=:!#NFF!>8#V!#W可得.,的

加权最小二乘估计

通常在对.’/@,4模型进行参数估计所涉及的是个案数据,然而在给定分组资料时,也可利用A$B估计法进行估计。为方便讨论,我们利用《$/&,34,C回归模型方法与运用》(王济川等,高等教育出版社:##"年)中一套高考数据运用

U7,8#V!#W.U7,NO="K.U7,>9#V!#W.U7,P。估计式为:.

运用加权最小二乘估计法可得总体.,

U7,8#=KFVWFW9#VLL;",9的估计式为:.

#VW#:;:,9"V""X;F,>。概率估计值如表:所

示:

L

Y

1

X

"#

""

":

NO0#=!#9!";",9!:;:,9!F;F,>P8"NOM=!#9!";",9!:;:,9!F;F,>P

组别极大似然

表-

"U7,

.U,.

:FW!

.’/@,4模型分析高中毕业生进入大学学

习的可能性的影响因素。模型中因变量是高中毕业生是否考入大学(D8"为考,三个解释入大学,D8#为没考入大学)

#V#"LX#V"Y1#VL#Y#V#FYY#V:1##VYF"#V#1:#V##1L#V#X1#VWF1#V#"XF#V"LW#V!YY#V#WF

#V""L#VWLX#V#:YX#V:"F#VL:Y#V#WX

#VW:"#V1W"#V"WL#V!!1#VX"#

#V:L1#VY:Y#V#YXL#VF11#V1FL#V:XL#VY:"#V"#!

#VWWY#V1F1

U,#V#"#最小二乘估计.

其中M=!#9!";",9!:;:,9!F;F,>为在=!#9!"

(作者单位!浙江嘉兴学院)

(责任编辑+亦民)

("为男性,,;9!;9!;>时的标准正态分布密度函变量E"表示性别#为女性)",::,FF,

本文来源:https://www.bwwdw.com/article/h5bi.html

Top