国家公务员录用考试试题的公平性分析

更新时间：2024-03-27 22:18:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

国家公务员录用考试试卷推荐度：
相关推荐

对2001年国家公务员录用考试试题的公平性分析

任杰谢小庆

（作者简介：任杰，在读硕士，副研究员，北京语言文化大学汉语考试中心第四研究室主任。谢小庆，博士，研究员，北京语言文化大学汉语考试中心副主任，北京，l00083。）

摘要：2001年国家公务员考试的试卷是由192个单选项题目和45个多选项题目构成。本研究运用分析项目功能性差异(DIF)的SIBTEST方法和MH方法对单选项题目进行分析，运用经过修改的SIBTEST方法对多选多的题目进行分析，并对造成题目明显不公平的原因进行了分析。结果显示，利用MH和SIBTEST两种方法同时进行分析，效果比较好。所有题目综合起来看，2001年国家公务员考试的试卷对于不同性别、地区和专业的考生基本是公平的。

关键词：测验；考试；项目功能差异(DIF)；MH；SIBTEST；国家公务员考试

一、引言

受国家人事部委托，我们对2001年国家公务员考试试题进行了信度、效度分析。这里，仅介绍我们对试题，尤其是多选多试题进行公平性分析所使用的方法，并对试题产生的项目功能差异(Differential Item Functioning，简称DIF)原因进行了分析。

DIF关系到考试的公平性，是指题目在不同群体间表现出的、与测验目的无关的功能性差异。例如，某一含有足球知识的数学题，对于具有相同数学能力的两组被试，由于足球知识水平不同，因而影响他们对题目的正确反应。如果出题者只是想测试考生的数学能力，那么，该题目对于足球知识很少的考生，就是不公平的。这时，我们就说该题目存在项目功能差异，即有DIF。

多选多题目是与单选项题目相对而言的。单选项题目的正确答案只有一个，得分不是O，就是1；而多选多题目的正确答案不止一个，得分也会随全部答对、部分答对或完全答不对而不同。对于单选项题目的DIF的检测，我们采用MH和SIBTEST两种方法。对于多选项题目的DIF的检测，我们采用修改后的SIBTEST方法。SIBTEST方法，也叫同时性项目偏差估计(Simultaneous Item Bias，简称SIB)，它适用于单选项题目分析，经过张华华等人的修改，形成了适用于多选项的题目分析的Poly-SIBTEST方法。[1]

二、理论介绍

考查题目是否存在DIF，关键在于如何判定两组被试是否具有相同的能力，即确定匹配变量。理想的匹配变量应该是对测验希望测试的能力的一种有效、可信和无偏的测量，这种测量显然是不可能的。对于大部分DIF分析而言，适宜的匹配量是测验总分(包括测验的部分或全部题目)，即当两组被试的测验总分相同时，我们就说他们具有相同的能力。两组被试分别称为参照组(Reference group)和目标组(Focal group)，目标组通常是可能被不公平对待的群体，参照组通常是用做比较的对象。

(一)单选项题目的检测和分析方法 1．SIBTEST方法

[1][2][3]

由Shealy和Stout提出的SIBTEST分析方法用潜在能力作为匹配变量，它用回归矫正(regression—based correction)方法来估计匹配分数。起初，对N道题目进行N轮分析，每一轮以一道题作为怀疑对象，其他N-1题作为匹配子集，将

??大于某一界限(例如，0.100

由Dorans & Holland，l993年推荐的)的题目，作上DIF显著的标记，这些题目就是被怀疑的；第二步，仅对没有DIF标记的题目进行分析，每一轮以一道题作为怀疑对象，其他题目作为匹配子集，对结果中仍没有DIF标记的题目再次进行分析，直到没有任何题目被怀疑；第三步，将在各次分析中一直没有被怀疑的题目作为最终的匹配变量，其他有DIF标记的题目作为被怀疑的子集，经过计算，所有

??>0.100的题目就是最终被怀疑有DIF的题目。

匹配题目的总分记为X，怀疑有DIF的题目的总分记为Y，k为某一匹配分数，n为匹配的题目总数。

DIF指标为： ①

Pk是目标组在X=k时的通过率，YRK和YFK是对照组与目标组在X=k时Y的平均分。

检验统计值为： ②

其中，

??YK,g?是当匹配分数X=K时，g组(g=R或g=F，即参照组或目标组)被试在被怀疑?2有DIF的题目上得分的方差，NRK和NFK分别是参照组或目标组在匹配分数X=K时的人数。

当两组被试具有几乎相同的能力分布，如果题目无DIF，B近似于N(0，1)的正态分布；而当两组被试能力分布不同时，估计值B具有较高的I型错误，为了减少这类错误，Shealy和Stout采用线形回归——K-R 20对??值进行了矫正。

2．MH分析方法[4]

MH分析方法(Mantel和Haenszel于1959年提出)首先需要确定参照组、目标组和匹配变量，并且根据匹配变量的不同能力水平将数据分组(匹配小组)。其次分别计算在相应的匹配小组中参照组R和目标组F在某题目上的答对、答错人数，计算某题目的固定偏移比(constant odds ratio)?ΜΗ和固定偏移比的标准化值MH D-DIF。

表1 某匹配小组j在某题目i上人数分布情况

?ΜΗ表示某题目的功能差异程度：

为了便于理解，ETS将?ΜΗ标准化为：

该值的正值表示对目标组有利，负值表示对参照组有利。它的标准误是：

其中 DIF的三种水平(ETS的分类标准)：

A级：可忽略；B级：中间的；C级：显著的。 (二)多选项题目的SIBTEST方法

多选项题目的DIF分析方法除了SIBTEST方法外，还有Mantel和SMD方法，只是我们没有这两种方法的详细资料，故此，我们只用SIBTEST方法。

Hua Hua Chang等人在原来SIBTEST(适用于0，1单选项的题目)方法基础上，通过两处修改，该方法既能适用于单选项，又能适用于多选项的题目分析：

1．公式①中的n是匹配的题目总数，对于单选项的题目，每道题目的最大可能的分数是1，即，n也是最大的可能的匹配分数。对于多选项的题目，第n题目的最大可能分数是mn，因此，公式①变为：

③

其中：mj为匹配题目第j题的最高分数，n为匹配的题目总数，nh为最大的可能的匹配分数。

2．在回归矫正过程中，用?系数代替K-R 20。

当题目无DIF时，B近似于N(0，1)的正态分布；如果?>1.96(?=0.05)，则该题目存在DIF．

?[1]

三、实证分析

(一)研究材料

2001年国家公务员考试试题，数据是2001年参加该试卷考试的所有考生(3万多人)的成绩。

(二)工具

SIBTEST方法主要使用的是由Stout和Roussos等人研制的程序，MH分析方法和标准化方法采用的是自编的软件。

(三)数据计算与结果

国家公务员考试试卷共有基础知识和能力测试两部分，能力测试的第一部分是测试考生

的知觉速度，无法进行DIF分析。我们分析的单选题目包括基础知识的第一、第二部分和能力测试的第二到第六个部分，共192题；多选多题目包括基础知识的第三到第六部分，共45题。我们还对造成一些题目的DIF达到C级的原因进行了分析。

1．单选项题目分析结果

由于这七部分考查考生不同的能力，故此，我们按性别差异、地区差异和专业差异对这七部分分别进行DIF分析。结果汇总如下：

表2 不同性别的考生(各随机抽取1000人)对题目反应的差异

表3 广州与成都的考生(各随机抽取1000人)对题目反应的差异

表4 北京与广州的考生(各随机抽取1000人)对题目反应的差异

表5 理科与文科的考生(各随机抽取1000人)对题目反应的差异

注：①当SIBTEST的

??>0.088，相当于MH的C级DIF；??<0.059，相当于MH的A级；

介于中间的相当于MH的B级。[5]

②相互比较的两组被试，先提的为参照组。如，理科与文科两组被试，理科作为参照组，文科作为目标组。

③在题目号一栏，没有特殊标注的题号均为能力测试(二)部分的，有(基)标志的属于基础部分。

2．多选项的题目分析结果

为了数据处理的方便，我们将多选项的题目得分规则改动了一下：全部选对的得2分；选错或多选的得0分；少选且对的得l分。由于这四部分考查考生不同的能力，故此，我们按性别差异、理文科差异，对这四部分分别进行DIF分析。结果汇总如下：

表6 性别显著差异(随机抽取男、女生各1000人)

表7 理文科显著差异(随机抽取理、文科各1000人)

(四)结论与讨论 1．单选题

(1)使用目前大家公认的SIBTEST和MH两种方法同时进行DIF分析，效果比较好，二者互为补充。以下讨论均依据二者并集。

(2)由表2可知，有利于男性考生的C级题目偏多，不过所占总题数的比例很小。例1：能力测验(二)第二部分的某一题有利于女性，DIF为C级，这是一道颜色搭配的题目，而女性对色彩的感觉优于男性。

例2：能力测验(二)第二部分的某一题有利于男性，DIF为C级。题目涉及地理知识，男性的空间感要好于女性。

(3)由表3可知，有利于广州和成都考生的题目数量基本相当。

例：能力测验(二)第二部分的某一题：不属于经济特区的城市是：A深圳B珠海C广州D厦门

此题有利于广州考生，DIF为C级。具体原因从题目中即可看出。

(4)由表4可知，有利于北京考生的题目偏多，不过所占总题数的比例很小。例：能力测验(二)第二部分的某一题有利于北京的考生，DIF为C级。题目内容涉及某些历史朝代建都的知识，北京考生表现出明显的优势。

(5)表5可知，有利于文科考生的c级题目偏多，有利于理科考生的B级题目偏多。例：能力测验(二)第二部分的某一题有利于理科考生，DIF为C级。此题内容为自然科

学方面的知识。

2．多选多题

由表6、表7可知，显著有利于女性和文科考生的题目偏多，不过所占总题数的比例很小。

总之，无论单选还是多选的题目，我们所比较的几对样本，有利于双方的题目数量基本相当。因此，我们可以说，2001年国家公务员考试试题对于不同性别、地区和专业的考生基本是公平的。

参考文献：

[1]H．Chan9，J．Mazzeo& L．Roussos，Detecting DIF for Polytomously Scored Item：An Adaptation of the SIBTEST Procedure[J]．Journal of Educational Measurement，Fall 1996，Vo1．33，No．3：333～353

[2]R．Shealy and W．Stout，A MODEL-BASED STANDARDIZATION APPROACH THAT SEPARATES TRUE BIAS／DIF FROM GROUP ABILITY DIFFERENCES AND DETECTS TEST BIAS／DIF AS WELL AS ITEM BIAS／DIF[J]．The Psychometric Society．June 1993，Vo1．58，No．2，PP．159～194

[3]W．Stout & L．Roussos．SIBTEST MANUAL．

[4]N．J．Dorans & P．W．Holland．DIF detection and description：Mantel-Haenszel and Standardization[C]．USA：Differential Item Functioning，Edited by P．W．Holland & H．Wainer(ETS)，1993，pp35～66．Lawrence Erlbaum Associates，Hillsdale，New Jersy．

[5]L．A．Roussos&W．Stout．Simulation Studies of the Effects of Small Sample Size and Studied Item Parameters on SIBTEST and Mantel-Haenszel Type l Error Performance[J]．Journal of Educational Measurement，Summer l996，Vol．32，No．2，p215～230

学方面的知识。

2．多选多题

由表6、表7可知，显著有利于女性和文科考生的题目偏多，不过所占总题数的比例很小。

参考文献：

[3]W．Stout & L．Roussos．SIBTEST MANUAL．

本文来源：https://www.bwwdw.com/article/s10r.html

相关文章：

正在阅读：

国家公务员录用考试试题的公平性分析03-27

3套最新苏教版三年级数学下册期中试卷09-14

猪链球菌的分离鉴定06-02

齿轮传动习题（含答案）03-02

幼儿园大班探索性活动区“奇妙的影子” - 图文03-26

社会变迁中的社会保险争议处理体制02-03

RHEL 5.6安装文档12-24

团委组织部学期工作计划06-11

深基坑支护开挖工程安全监理实施细则04-05

关于欠薪在5月1日之前，还清历年拖欠的职工工资和社保！10-25

上一篇：软件工程实习报告5000字下一篇：艺术特色发展规划三年