国家公务员录用考试试题的公平性分析

更新时间:2024-03-27 22:18:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

对2001年国家公务员录用考试试题的公平性分析

任杰 谢小庆

(作者简介:任杰,在读硕士,副研究员,北京语言文化大学汉语考试中心第四研究室主任。谢小庆,博士,研究员,北京语言文化大学汉语考试中心副主任,北京,l00083。)

摘要:2001年国家公务员考试的试卷是由192个单选项题目和45个多选项题目构成。本研究运用分析项目功能性差异(DIF)的SIBTEST方法和MH方法对单选项题目进行分析,运用经过修改的SIBTEST方法对多选多的题目进行分析,并对造成题目明显不公平的原因进行了分析。结果显示,利用MH和SIBTEST两种方法同时进行分析,效果比较好。所有题目综合起来看,2001年国家公务员考试的试卷对于不同性别、地区和专业的考生基本是公平的。

关键词:测验;考试;项目功能差异(DIF);MH;SIBTEST;国家公务员考试

一、引言

受国家人事部委托,我们对2001年国家公务员考试试题进行了信度、效度分析。这里,仅介绍我们对试题,尤其是多选多试题进行公平性分析所使用的方法,并对试题产生的项目功能差异(Differential Item Functioning,简称DIF)原因进行了分析。

DIF关系到考试的公平性,是指题目在不同群体间表现出的、与测验目的无关的功能性差异。例如,某一含有足球知识的数学题,对于具有相同数学能力的两组被试,由于足球知识水平不同,因而影响他们对题目的正确反应。如果出题者只是想测试考生的数学能力,那么,该题目对于足球知识很少的考生,就是不公平的。这时,我们就说该题目存在项目功能差异,即有DIF。

多选多题目是与单选项题目相对而言的。单选项题目的正确答案只有一个,得分不是O,就是1;而多选多题目的正确答案不止一个,得分也会随全部答对、部分答对或完全答不对而不同。对于单选项题目的DIF的检测,我们采用MH和SIBTEST两种方法。对于多选项题目的DIF的检测,我们采用修改后的SIBTEST方法。SIBTEST方法,也叫同时性项目偏差估计(Simultaneous Item Bias,简称SIB),它适用于单选项题目分析,经过张华华等人的修改,形成了适用于多选项的题目分析的Poly-SIBTEST方法。[1]

二、理论介绍

考查题目是否存在DIF,关键在于如何判定两组被试是否具有相同的能力,即确定匹配变量。理想的匹配变量应该是对测验希望测试的能力的一种有效、可信和无偏的测量,这种测量显然是不可能的。对于大部分DIF分析而言,适宜的匹配量是测验总分(包括测验的部分或全部题目),即当两组被试的测验总分相同时,我们就说他们具有相同的能力。两组被试分别称为参照组(Reference group)和目标组(Focal group),目标组通常是可能被不公平对待的群体,参照组通常是用做比较的对象。

(一)单选项题目的检测和分析方法 1.SIBTEST方法

[1][2][3]

由Shealy和Stout提出的SIBTEST分析方法用潜在能力作为匹配变量,它用回归矫正(regression—based correction)方法来估计匹配分数。起初,对N道题目进行N轮分析,每一轮以一道题作为怀疑对象,其他N-1题作为匹配子集,将

??大于某一界限(例如,0.100

由Dorans & Holland,l993年推荐的)的题目,作上DIF显著的标记,这些题目就是被怀疑的;第二步,仅对没有DIF标记的题目进行分析,每一轮以一道题作为怀疑对象,其他题目作为匹配子集,对结果中仍没有DIF标记的题目再次进行分析,直到没有任何题目被怀疑;第三步,将在各次分析中一直没有被怀疑的题目作为最终的匹配变量,其他有DIF标记的题目作为被怀疑的子集,经过计算,所有

??>0.100的题目就是最终被怀疑有DIF的题目。

匹配题目的总分记为X,怀疑有DIF的题目的总分记为Y,k为某一匹配分数,n为匹配的题目总数。

DIF指标为: ①

Pk是目标组在X=k时的通过率,YRK和YFK是对照组与目标组在X=k时Y的平均分。

检验统计值为: ②

其中,

??YK,g?是当匹配分数X=K时,g组(g=R或g=F,即参照组或目标组)被试在被怀疑?2有DIF的题目上得分的方差,NRK和NFK分别是参照组或目标组在匹配分数X=K时的人数。

当两组被试具有几乎相同的能力分布,如果题目无DIF,B近似于N(0,1)的正态分布;而当两组被试能力分布不同时,估计值B具有较高的I型错误,为了减少这类错误,Shealy和Stout采用线形回归——K-R 20对??值进行了矫正。

2.MH分析方法[4]

MH分析方法(Mantel和Haenszel于1959年提出)首先需要确定参照组、目标组和匹配变量,并且根据匹配变量的不同能力水平将数据分组(匹配小组)。其次分别计算在相应的匹配小组中参照组R和目标组F在某题目上的答对、答错人数,计算某题目的固定偏移比(constant odds ratio)?ΜΗ和固定偏移比的标准化值MH D-DIF。

表1 某匹配小组j在某题目i上人数分布情况

?ΜΗ表示某题目的功能差异程度:

为了便于理解,ETS将?ΜΗ标准化为:

该值的正值表示对目标组有利,负值表示对参照组有利。 它的标准误是:

其中 DIF的三种水平(ETS的分类标准):

A级:可忽略;B级:中间的;C级:显著的。 (二)多选项题目的SIBTEST方法

多选项题目的DIF分析方法除了SIBTEST方法外,还有Mantel和SMD方法,只是我们没有这两种方法的详细资料,故此,我们只用SIBTEST方法。

Hua Hua Chang等人在原来SIBTEST(适用于0,1单选项的题目)方法基础上,通过两处修改,该方法既能适用于单选项,又能适用于多选项的题目分析:

1.公式①中的n是匹配的题目总数,对于单选项的题目,每道题目的最大可能的分数是1,即,n也是最大的可能的匹配分数。对于多选项的题目,第n题目的最大可能分数是mn,因此,公式①变为:

其中:mj为匹配题目第j题的最高分数,n为匹配的题目总数,nh为最大的可能的匹配分数。

2.在回归矫正过程中,用?系数代替K-R 20。

当题目无DIF时,B近似于N(0,1)的正态分布;如果?>1.96(?=0.05),则该题目存在DIF.

?[1]

三、实证分析

(一)研究材料

2001年国家公务员考试试题,数据是2001年参加该试卷考试的所有考生(3万多人)的成绩。

(二)工具

SIBTEST方法主要使用的是由Stout和Roussos等人研制的程序,MH分析方法和标准化方法采用的是自编的软件。

(三)数据计算与结果

国家公务员考试试卷共有基础知识和能力测试两部分,能力测试的第一部分是测试考生

的知觉速度,无法进行DIF分析。我们分析的单选题目包括基础知识的第一、第二部分和能力测试的第二到第六个部分,共192题;多选多题目包括基础知识的第三到第六部分,共45题。我们还对造成一些题目的DIF达到C级的原因进行了分析。

1.单选项题目分析结果

由于这七部分考查考生不同的能力,故此,我们按性别差异、地区差异和专业差异对这七部分分别进行DIF分析。结果汇总如下:

表2 不同性别的考生(各随机抽取1000人)对题目反应的差异

表3 广州与成都的考生(各随机抽取1000人)对题目反应的差异

表4 北京与广州的考生(各随机抽取1000人)对题目反应的差异

表5 理科与文科的考生(各随机抽取1000人)对题目反应的差异

注:①当SIBTEST的

??>0.088,相当于MH的C级DIF;??<0.059,相当于MH的A级;

介于中间的相当于MH的B级。[5]

②相互比较的两组被试,先提的为参照组。如,理科与文科两组被试,理科作为参照组,文科作为目标组。

③在题目号一栏,没有特殊标注的题号均为能力测试(二)部分的,有(基)标志的属于基础部分。

2.多选项的题目分析结果

为了数据处理的方便,我们将多选项的题目得分规则改动了一下:全部选对的得2分;选错或多选的得0分;少选且对的得l分。由于这四部分考查考生不同的能力,故此,我们按性别差异、理文科差异,对这四部分分别进行DIF分析。结果汇总如下:

表6 性别显著差异(随机抽取男、女生各1000人)

表7 理文科显著差异(随机抽取理、文科各1000人)

(四)结论与讨论 1.单选题

(1)使用目前大家公认的SIBTEST和MH两种方法同时进行DIF分析,效果比较好,二者互为补充。以下讨论均依据二者并集。

(2)由表2可知,有利于男性考生的C级题目偏多,不过所占总题数的比例很小。 例1:能力测验(二)第二部分的某一题有利于女性,DIF为C级,这是一道颜色搭配的题目,而女性对色彩的感觉优于男性。

例2:能力测验(二)第二部分的某一题有利于男性,DIF为C级。题目涉及地理知识,男性的空间感要好于女性。

(3)由表3可知,有利于广州和成都考生的题目数量基本相当。

例:能力测验(二)第二部分的某一题:不属于经济特区的城市是:A深圳B珠海C广州D厦门

此题有利于广州考生,DIF为C级。具体原因从题目中即可看出。

(4)由表4可知,有利于北京考生的题目偏多,不过所占总题数的比例很小。 例:能力测验(二)第二部分的某一题有利于北京的考生,DIF为C级。题目内容涉及某些历史朝代建都的知识,北京考生表现出明显的优势。

(5)表5可知,有利于文科考生的c级题目偏多,有利于理科考生的B级题目偏多。 例:能力测验(二)第二部分的某一题有利于理科考生,DIF为C级。此题内容为自然科

学方面的知识。

2.多选多题

由表6、表7可知,显著有利于女性和文科考生的题目偏多,不过所占总题数的比例很小。

总之,无论单选还是多选的题目,我们所比较的几对样本,有利于双方的题目数量基本相当。因此,我们可以说,2001年国家公务员考试试题对于不同性别、地区和专业的考生基本是公平的。

参考文献:

[1]H.Chan9,J.Mazzeo& L.Roussos,Detecting DIF for Polytomously Scored Item:An Adaptation of the SIBTEST Procedure[J].Journal of Educational Measurement,Fall 1996,Vo1.33,No.3:333~353

[2]R.Shealy and W.Stout,A MODEL-BASED STANDARDIZATION APPROACH THAT SEPARATES TRUE BIAS/DIF FROM GROUP ABILITY DIFFERENCES AND DETECTS TEST BIAS/DIF AS WELL AS ITEM BIAS/DIF[J].The Psychometric Society.June 1993,Vo1.58,No.2,PP.159~194

[3]W.Stout & L.Roussos.SIBTEST MANUAL.

[4]N.J.Dorans & P.W.Holland.DIF detection and description:Mantel-Haenszel and Standardization[C].USA:Differential Item Functioning,Edited by P.W.Holland & H.Wainer(ETS),1993,pp35~66.Lawrence Erlbaum Associates,Hillsdale,New Jersy.

[5]L.A.Roussos&W.Stout.Simulation Studies of the Effects of Small Sample Size and Studied Item Parameters on SIBTEST and Mantel-Haenszel Type l Error Performance[J].Journal of Educational Measurement,Summer l996,Vol.32,No.2,p215~230

学方面的知识。

2.多选多题

由表6、表7可知,显著有利于女性和文科考生的题目偏多,不过所占总题数的比例很小。

总之,无论单选还是多选的题目,我们所比较的几对样本,有利于双方的题目数量基本相当。因此,我们可以说,2001年国家公务员考试试题对于不同性别、地区和专业的考生基本是公平的。

参考文献:

[1]H.Chan9,J.Mazzeo& L.Roussos,Detecting DIF for Polytomously Scored Item:An Adaptation of the SIBTEST Procedure[J].Journal of Educational Measurement,Fall 1996,Vo1.33,No.3:333~353

[2]R.Shealy and W.Stout,A MODEL-BASED STANDARDIZATION APPROACH THAT SEPARATES TRUE BIAS/DIF FROM GROUP ABILITY DIFFERENCES AND DETECTS TEST BIAS/DIF AS WELL AS ITEM BIAS/DIF[J].The Psychometric Society.June 1993,Vo1.58,No.2,PP.159~194

[3]W.Stout & L.Roussos.SIBTEST MANUAL.

[4]N.J.Dorans & P.W.Holland.DIF detection and description:Mantel-Haenszel and Standardization[C].USA:Differential Item Functioning,Edited by P.W.Holland & H.Wainer(ETS),1993,pp35~66.Lawrence Erlbaum Associates,Hillsdale,New Jersy.

[5]L.A.Roussos&W.Stout.Simulation Studies of the Effects of Small Sample Size and Studied Item Parameters on SIBTEST and Mantel-Haenszel Type l Error Performance[J].Journal of Educational Measurement,Summer l996,Vol.32,No.2,p215~230

本文来源:https://www.bwwdw.com/article/s10r.html

Top