不等概率分层抽样条件下Probit模型的参数估计

更新时间：2023-09-02 01:04:01 阅读量：教育文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

不等概率的分层抽样推荐度：
相关推荐

不等概率分层抽样条件下Probit模型的参数估计

线性回归分析作为一种传统的统计分析方法，现已得到广泛的应用和完善。但受其对应变量连续性要求的影响，当应变量为分类变量（常见的时，线性回归是二分类变量，即!取"，#两个值）模型不再适用。人们通常采用$%&’()模型或*&)(+)模型对二分类因变量进行回归分析，与线性回归不同，$%&’()回归是一种非线性回归模型，因而在参数估计时，通常采用极大似然估计，并且在随机样本条件下，$%&’()模型的极大似然估计具有一致性，渐进有效性和渐进正态性。然而在许多实际问由于受两题中，运用$%&’()模型进行参数估计时，类总体比例悬殊的影响，从总体中抽取样本时并非是随机抽样，而是采用不等比例的分层抽样方法。例如，在研究企业破产预警模型时，破产企业

于是，得到一个观测值的概对应的条件概率#8$-，率为：

（!(）$,$-9#8$-!(

9#8!(:

:6!(,"6#。

（.）

在随机样本中，各项观测值相互独立，$%&’()模型的对数似然估计函数为：

**,(>?*9$:@,!!(#>9$-:59#8!(:#>9#8$-:

(,#

（!"5!#-#(5…5!/-/(）,!?!(#>#

59#8!(:#>9#8#:9!"5!#-#(5…5!/-/(:@

计值。

9A:

利用极大似然法，可得到未知参数!"，!#!/的估

在分层抽样条件下，样本点的分布与总体分

在给定-#6-.6…-/条件下，得到与非破产企业比例相差较大。在医药统计分析中，布不再具有同一性，得到!(,"的概医疗患者的人数与正常人群的比例也相差悬殊。样本观测!(,#的概率不再等于$-，研究者为了充分利用稀缺的病案资料或破产公司的数据，普遍采用不等概率分层抽样技术。即首先将研究总体按因变量的特征分成两类，然后从各类中按不同的比例随机抽取样本，合并形成估计从医疗患者或破$%&’()模型的样本。通常情况下，

产公司中抽取的比例要远远高于正常人或非破产公司。在不等概率抽样条件下，样本点的分布与总体分布不再具有同一性，如果仍然直接采用极大似然估计法将导致模型和概率估计产生偏差。为此，本文就不等概率抽样条件下的$%&’()模型的参数估计方法进行了探讨。

不等概率抽样条件下%&’()*模型的极大似然设变量!为二分类变量，!(,#代表两类特征

率也不再等于#8$-。也就是说，在分层抽样条件式进行估计，将产生偏差。设由<个下，再利用（A）单位=#，…，按因变量=(的特征，=<构成的总体，将其分为两组B#和B.，其中B#中共有<#个单位且各单位的因变量!(取值均为#，B.中共有<.,且!(取值为"。假定在给定预测变量<8<#个单位，

C#(6C.(……，C/(条件下!(,#的概率：

$-,$0!(,#1C#(……C/(2,%#<#D9%#<#5%"<.:9E:采用不等比例分层抽样法，分别从B#和B.中抽取>#和>.个单位，合并作为样本资料，在给定C#(6C.(……，得到样本观察值!(,#的概率C/(条件下，

$-,$0!(,#1C#(……C/(2,%#>#D9%#>#5%">.:9F:由（E），（F）两或可得：

$-,$-D?$-59#8$-:%@，其中%,9>.D<.:D9>#D<#:代

表两组抽样比例之比。（G）

式$-,#（H）利用（#）D?#9H:59#8#:9H:@%，H(,!"5!#-#(

…!/-/(，易见，当%##时，$I-#$-,#9H:$I-,#9HI(:6

在分层抽样条件下，若继续使HI(,!I"5!I#-#(…!I/-/(，

估计的修正

中的其中一类，如破产公司或医疗患者，这里通称

…为事件发生，!(,"代表事件未发生，变量-#，-.，

-/为/个预测变量。$%&’()模型就是要建立预测模型，根据预测变量值，预测在给定-#(，…-/(条件-.(，下，即$0!(,#1-#，…-/2。假设有一理用基于随机样本的参数估计方法由对数似然函!(,#的概率，-.，

论上存在的连续变量!3(代表事件发生的可能性，数：

当其值域为负无穷至正无穷，且当!3(!"时，!(,#，

**,(>?*9$:@,!!(#>9$I-:59#8!(:#>9#8$I-:

如果假定!3(和预测变量-#(，…-/(!3(4"时，!(,"，-.(，(,#

之间存在一种线性关系，即：

!3(,!"5!#-#(5!.-.(5…5!/-/(5"(6

则$0!(,#1-(#…-/(2,$0!"5!.-.(5…5!/-/(5"(7"2

,$0"(789!"5!#-#(5!.-.(5…5!/-/(:2

假设"(服从标准正态分布，由标准正态分布的对称性，则有$%&’()模型：

$-,$0!(,#1-#(…-/(2,$0"("!"5!.-#(…!/-/(2,#9;:9#:

其中;,!"5!#-#(…!/-/(；$-为给定-#6-.6…-/的条件下，为待估参数。!(,#的概率，

…=<构成的总体中随机抽取从<个单位=#，

观测值标注为!#6…6!>。在随机>个单位作为样本，

抽样条件下，样本点的分布与总体分布相同，给定得到样本观测值!(,#的概率-#(6-.(6…-/(的条件下，

（!(,#1-#(…-/(）等于总体中对应的概率$-，得到样$

本观测值!(,"的概率$（!(,#1-#(…-/(）等于总体中

注：本文为浙江省自然科学基金资助项目（!"#""!）

（!I"5!I#-#(5…5!I/-/(）,!?!(#>#59#8!(:#>9#8

#:9!I"5!I#-#(5…5!I/-/(:@

9J:

利用极大似然估计可得参数!I"，!I#，…5!I/的估计值。在等比例抽样条件下，由于#9H:,$-,%,#，则H(,HI(,!I"5!I#-#(5…5!I/-/(，参数估计$I-,#9HI(:，

无偏。在不等比例抽样条件下，%##，$-#$I-，H(#参数估计产生偏差。因此HI(,!I"5!I#-#(5…5!I/-/(，

在不等比例分层抽样条件下，应利用（G）式对概率估计值做如下修正：

$-,%$I-D?9#8$I-:5%$I-@

,%#9HI(:D?#8#9HI(:5%#9HI(:@H(,#8#9$-:,#8#9$-:

,#8#?%#9HI(:D?#8%#9HI(:@5%#9HI(:@

9K:9L:

不等概率分层抽样条件下Probit模型的参数估计

一种高效的简略生命表数据解压技术

!张志强

朱建平

张润楚

一、简略生命表解压技术

生命表依据年龄组组距的不同分为简略生命表和完全生命表。简略生命表完全的年龄组组距通常为!年或"#年，生命表年龄组组距为"年，即按人口的

整数年龄分组。由于数据太少或数据精度不高，生命表信息通常是以简略生命表公布的，如何方便有效地把简略生命表中的数据恢复成完全生命表中的数据

样我们会看到诸如$%&’%(&)%(插值法、条插值法、*)+,&-%(和./++%’0的1参数模型以及2/34%5,非参数法等简略生命表数据解压技术。比较上述方法，结果表计算结果精度最高、光滑度最好的简略

是本文要解决的问题。纵览国内外文献，明*)+,&-%(和./++%’0的1参数模型是

注：本文是国家自然科学基金（!"!#!"$!）及国家社会科学基金（"%&’("!)）奖助项目。

其中，67,8!7#9!7:;",…!75;5,；（"为重点高中，变量E:表示高中类型#

数。于是我们有#K"=M,>=!#9!";",9!:;:,9

，变量EF表示高中平均成6,与67,及.;与.7;的关系，分别如图"，为其他中学）

图:所示：绩（"为小于1#分，:为大于等于1#小

。建立.’/@,4模于1!分，F为大于1!分）"8"##

"8"#

"8:"8""8#V!"8#V""8#V#"

!F;F,>9Q,NOM=!#9!";",9!:;:,9!F;F,>P式中ROQ,N=!#9!";",9!:;:,9!F;F,>P8#

T%’OQ,N=!#9!";",9!:;:,9!F;F,>P8T%’OM,N=!#9!";",9!:;:,9!F;F,>P8.,="K.,>N(,=M=!#9!";",9!:;:,9!F;F,>>:

这里误差项的方差依赖于各级概率.,，因此产生异方差问题。为了修正异方差，要应用加权最小二乘估计法。权数为方差的平方根倒数。应注意的是，计算残差

型如下：

.,8.GD,H;",I;:,I;F,J8#=!#9!";",9!:;:,9!F;F,>

即：#K"=.,>8!#9!";",9!:;:,9!F;F,

在该数据中共有"###人参加了高考，其中FF!人考入大学，LL!人落榜。现分别从考入大学学生、落榜生中各抽取:!#人组成样本资料，经汇总如下表"所示：表中(,、M7,分别为样本资料中给定

表,

组别

"8"##

"8"#"8:"8""8#V!"8#V""8#V#"

;",I;:,I;F,

条

件下，样本观察频数及

E"E:EF(,M7,

###

F:"

L"1FFX

#V##!"#V"XF#V!X##""F##":":#V:!#"F1#V!""""""

"""###

F:"F:"

:W"XX"W"1!"L

#V#LF#VFL!#V1!1#V"""#VLF:#VX!1

升入大学的比例。在不等比例分层抽样条件下，样本点分布与总体分布不再相

从图"和图:可见，当"<"时，.;<概率估计值偏小。.8#=!9!;…!;>，

且"越大，概率估计差越大。当"?时，

概率估计值偏.;?.7;8#=!7#9!7:;",…!75;5,>，

偏差越大。大，"越接近于#，

不等概率抽样条件下%&’()*模型的

7:",

755,

项的方差，需要未知的.,和=!#9!";",9然而我们能通过M,和#K"=M,>来!:;:,9!F;F,>。

估计即3:,8M,="KM,>N(=M=#K"=M,>>:。

实例分析

根据表"中资料，运用.’/@,4模型

同，总体中在;",I;:,I;F,条件下考入大学的（L）作出估计M,8M7,NO="KM7,>9比例.,可利用

"M7,P。

假定M,8.,9Q,，其中Q,为残差，Q,8M,K当样本规模很RM,8.,。这就也就是说，.,，大时，令$,很小。M,将近似于.,。.’/@,4模型可以表示为：按=M,K.,>#K"=M,>8SK"=.,9Q,>，幂展开的泰勒展开式的前两项，得到#K"=M,>"#K"=.,>90#K"=.,>N0.,NQ,此外，0#K"=.,>N0.,80=!#9!";",9!:;:,9!F;F,>

U7,8的极大似然法，可得.7,的估计式为：.

由#=KFVWFW9#VLL;",9#VW#:;:,9"V"XY;F,>，

"8=:!#NLL!>N=:!#NFF!>8#V!#W可得.,的

加权最小二乘估计

通常在对.’/@,4模型进行参数估计所涉及的是个案数据，然而在给定分组资料时，也可利用A$B估计法进行估计。为方便讨论，我们利用《$/&,34,C回归模型方法与运用》（王济川等，高等教育出版社:##"年）中一套高考数据运用

U7,8#V!#W.U7,NO="K.U7,>9#V!#W.U7,P。估计式为：.

运用加权最小二乘估计法可得总体.,

U7,8#=KFVWFW9#VLL;",9的估计式为：.

#VW#:;:,9"V""X;F,>。概率估计值如表:所

示：

NO0#=!#9!";",9!:;:,9!F;F,>P8"NOM=!#9!";",9!:;:,9!F;F,>P

组别极大似然