细说试题的难度、区分度、信度和效度以及对高考复习的启示

更新时间：2023-05-24 18:58:01 阅读量：实用文档文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

试卷的难度推荐度：
相关推荐

一.试题的难度

（一）什么是难度

难度是指试题的难易程度，是评价考试的一个非常重要的一个指标。一个题目，如果大部分考生都能答对，那么这个题目的难度就小；如果大部分考生都不能答对，那么这个题目的难度就大。

客观题难度计算公式：P（难度指数）＝试题答对人数/考生人数；主观题难度计算公式：P＝试题平均得分/试题满分。试卷难度计算公式：P＝

为平均分，K为试卷满分值。易、中、难的标准为：易：P≥0.7，中：0.4≤P≤0.69，难：P≤0.39；P值越大，难度越低，P值越小，难度越高。一般来说，难度值平均在0.5最佳，难度值过高或过低，都会降低测验的信度。当然，在实际的评价过程中，测验的难度水平多高才合适，也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验，为了真实、准确地了解学生的知识掌握情况，测验难度大一点也是正常的。

（二）难度的计算

（1）客观性试题难度P（这时也称通过率）计算公式：

Pk/N（k为答对该题的人数，N为参加测验的总人数）

（2）主观性试题难度P计算公式：

PX/M（X为试题平均得分；M为试题满分）

（3）适用于主、客观试题的计算公式：

P（PH+PL）/2（PH、PL分别为试题针对高分组和低分组考生的难度值）

在大群体标准化中，此法较为方便。具体步骤为:将考生的总分由高至低排列；从最高分开始向下取全部试卷的27%作为高分组；从最低分开始向上取全部试卷的27%作为低分组；按上面的公式计算。

例1：一次生物测试中，在100名学生中，高低分组各有27人，其中高分组答对第一题有20人，低分组答对第一题的有5分，这道题的难度为：

PH20/270.74 PL5/270.19 P(0.74+0.19)/20.47

整个试卷的难度等于所有试题难度之平均值（包括主、客观试题）。

（三）试题难度的一般要求

就高考来说，难度以适中为宜，单个试题的难度以0.3--0.7之间为好，整卷以0.5--0.6之间为最佳。

一般将难度值大于和等于0.7的试题定为容易题；大于0.4和小于0.7的定为中档题；小于和等于0.4的试题定为难题。

命题时难度一般要按一定比例分配，如3：6：1或3：5：2，一般说来，容易题、难度系数为0.95-0.75，中档题为0.74-0.6，难题为0.59-0.20。

二.试题的区分度

（一）什么是区分度

区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来，水平高的考生得高分，水平低的考生得低分。区分度高的考试，优秀、一般、差三个层次的学生都有一定比例，如果某一分数区间学生相对集中，高分太多或不及格太多的考试，区分度则低。

（二）区分度的计算

1.单个选择题目区分度的计算

将全体考生总分从高到低排列，将总分最高的27%考生定为高分组，总分最低的27%考生定为低分组，分别计算两组考生在某道题目上的通过率，两个通过率之差就是这道题的区分度（又叫鉴别指数）。

计算公式为：DPH-PL.

PH和PL分别为高分组和低分组的通过率。

2整个试题的区分度计算（常用）

计算公式为：D2（XH—XL）/W

其中D为试卷区分度，XH 为27%高分组平均分，XL

为27%低分组平均分，W 为试卷总分。

一般也将全体考生总分从高到低排列，将总分最高的27%的考生定为高分组，总分最低的27%考生定为低分组，再分别计算各组的平均分。

如：一份满分100分的试卷，高分组平均得分90分，低分组平均得分60分，则区分度为2（90-60）/1000.6

一道题值2分的试题，高分组平均得分1.5分，低分组平均得分0.5分，则区分度为2（1.5-0.5）/21

（三）试题区分度的一般要求

区分度（D）的取值范围介于-1.00至+1.00之间。通常D为正值，称为积极区分；D为负值称为消极区分；D值为0称为无区分作用。具有积极区分作用的试题，其D值越大，区分的效果越好。

试题的区分度在0.4以上表明此题的区分度很好，0.3～0.39表明此题的区分度较好，0.2～0.29表明此题的区分度不太好需要修改，0.19以下表明此题的区分度不好应淘汰。高考的区分度一般要求在0.3以上，表示高分组的学生比低分组的学生能多得30%的分数。一般认为，区分度的数值达到了0.3，便可以接受；低于0.3的题目，区分能力就差了。

三.试题的信度

信度是指使用同一试卷对考生重复测验时，或两个平行试卷对考生测验时，所得测验分数的一致性和稳定性程度。信度除了要说明成绩的真实性之外，还要说明题目涉及的内容与教学的相关程度。

信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响，因为系统误差总是以相同的方式影响测量值的，因此不会造成不一致性。反之，随机误差可能导致不致性，从而降低信度。信度可以定义为随机误差R影响测量值的程度。如果R0，就认为测量是完全可信的，信度最高。

信度主要是指测量结果的可靠性、一致性和稳定性，即测验结果是否反映了被测者的稳定的、一贯性的真实特征。和信度相关的一个概念是效度，信度是效度的前提条件。

信度只受随机误差的影响，随机误差越大，信度越低。因此，信度可以视为测试结果受随机误差影响的程度。系统误差产生恒定效应，不影响信度。

测试信度(test

reliability)也叫测试的可靠性，指的是测试结果是否稳定可靠。也就是说，测试的成绩是不是反映了受试者的实际语言水平。例如，如果同一套测试在对同一测试对象（即受试者本身没有变化）进行的数次测试中，受试者的分数忽高忽低的话，则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来，只有信度较高的测试才能有较高的效度，但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因

素；评分是否可靠则要看评分标准是否客观和准确。

测试的信度通常用一种相关系数（即两个数之间的比例关系）来表示，相关系数越大，信度则越高。当系数为1.00时，说明测试的可靠性达到最高程度；而系数是0.00时，则测试的可靠性降到最低程度。在一般情况下，系数不会高到1.00，也不会降到0.00，而是在两者之间。对信度指数的要求因测试类别的不同而不同，人们通常对标准化测试的信度系数要求在0.90以上，例如“托福”的信度大致为0.95，而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。测试信度的计算方法有很多种，以下仅介绍三种易于操作的方法：

1）重测法（the retesting

method）。用同一套试卷在两个不同时间内来测试同一批受试者，这样便获得两组分数，然后计算出两组分数的相关系数。当然，在两次测试中，学生第二次的测试成绩理应比第一次的要高，因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。但是若该试题是比较可靠的，每个学生在两次测试中的排名次序应该是基本不变的。

2）交替形式法（the alternative

method）。对同一批受试者使用试题类型完全相同，难易程度相当，但具体题目不同的两套对等试卷先后进行两次测试，然后计算出两次得分的相关系数。

3）对半法（the split－half

method）。测试只进行一次，但将整份试卷的题目按单、双数分成两组来分别计分，算出两组分数的相关系数，然后再用Spearman－Brown的公式计算整份试卷的信度系数。具体计算步骤是：将两组分数的相关系数乘以2，再除以1加两组分数的相关系数。

每一个测试的实得分数（X）总是由真实分数(T)和误差(E)两部分构成的，用公式表示如下：

XT+E

如果我们讨论一组测验分数的特性时，可用方差代表具体分数，得到公式： S^2（x）S^2(t)+S^2(e)

公式中，S^2（x）是实得分数的方差，S^2(t)是真分数的方差，S^2(e)是误差的方差在测量理论中，信度被定义为：一组测量分数的真分数方差与中方差（实得方差）的比率。即：

r(xx)S^2(t)/S^2（x）

由于真实分数的方差是无法统计的，因此化为：

r(xx)S^2(x)-S^2(e)/S^2(x)

1-S^2(e)/S^2(x)

因此，信度也可以看做是总方差中非测量误差的方差所占的比例

信度的指标

一、信度系数与信度指数

大部分情况下，信度是以信度系数为指标，它是一种相关系数。常常是同一被试样本所得到的两组资料的相关，理论上说就是真分数方差与实得分数方差的比值，公式为： r(xx)r^2(xt)S^2(t)/S^2（x）

公式中r^2(xt)是真分数标准差与实得分数标准差的比值，称作信度系数，公式为： r(xt)S(t)/S(x)

可见信度指数的平方就是信度系数。

二、测量标准误

信度系数仅表示一组测量的实得分数与真分数的符合程度，但并没有直接指出个人测验分数的变异量。我们可以用一组被试两次测量结果来代替对同一个人的反复施测，于是有了信度的另一个指标，公式为：

SES(x)√1-r(xx)

公式中SE为测量的标准误，S(x)是所得分数的标准差，r(xx)为测验的信度系数，从公式我们可以看出测量的标准误与信度之间有互为消长的关系：信度越高，标准误越小，信度越低，标准误越大。

影响信度的因素

一、样本特征

1、样本团体异质性的影响

2、样本团体的平均能力水平的影响

二、测量长度

一般来说，在一个测试中增加同质的题目，可以使信度提高。

需注意的是，增加测验长度的效果应当遵循报酬递减原则。通过斯皮尔曼-布朗公式的导出公式可以计算出最少应增加的题目：

Kr(kk)*(1-r(xx))/r(xx)*(r(kk)-1)

K为改变后的长度与原长度之比，r(xx)为原测试的信度，r(kk)为测验长度是原来的K倍时的信度估计。

三、测验难度

理论上说，只有测验难度为50%时，才能使测验分数分布范围最大，求得的信度也最高。事实上，难度为0.50只适合于简答型题目，对于选择题目由于猜测因素，难度值应当提高，洛德提出在学习成绩中，为了保证其可靠性，各类选择题的理想平均难度为：五择一测，0.70；四择一测，0.74；三择一测，0.77；是非题。0.85

在实际情况下，如果某个测验适用范围广，其难度水平通常适用于中等能力水平的被试，而对较高水平的被试和较低水平的被试可能较易或较难，使得分数分布范围缩小，信度水平降低，因此一个标准化的测验，应根据不同能力水平的报告测验的难度，以作为选择测验的参考

四、时间间隔

时间间隔只对重测信度和不同时测量时的复本信度有影响，对其余的信度来说，不存在时间间隔问题。

注：我们对一套问卷的信度检验值（一般是指克隆巴赫阿尔法信度系数）有时会出现过低的情况，可能的原因有：

1、试卷本身设计不合理，不是围绕一个主题或是有矛盾的题目。如果试卷中有题目让完全相同的人选择不同的答案，试卷的信度会降低。

2、题目区分度过低，特别指有对错之分的题目。如果一道题正确率或错误率达到90%，可以从新审视题目设计是否合理。区分度过低的题目中真实偏差的成分较少，随机偏差的成分相对较多，试卷的信度会降低。

3、无关变量进入信度检验。除了重测信度，其他信度检验方法都只考虑有序变量，无序变量，如出身城市，喜好颜色等，如果我们没有对城市或颜色排序的话，带入信度检验意义难明，可能会导致试卷的信度降低。

4、题目选项反序。对有序变量，如果变量值之间序的意义相反，会降低甚至得出负的信度。比如检验老师对学生评分的信度，如果一个老师的评分以10分为最高分，1分最低，另一个以1分最高，10分最低。如果不经处理带入信度计算，信度会降低。

信度评估的方法

一、重测信度，又称为稳定性系数，它的计量方法是采用重测法：用同一测验，在不同时间对同一群体施测两次，这两次测量分数的相关系数即为重测系数。

重测信度所考察的误差来源是时间的变化所带来的随机影响。在评估重测信度时，必须

注意重测间隔的时间。对于人格测验，重测间隔在两周到6个月之间比较合适。

在进行重测信度的评估时，还应注意以下两个重要问题：重测信度一般只反映由随机因素导致的变化，而不反映被试行为的长久变化。不同的行为受随机误差影响不同。

二、复本信度，是以两个测验复本来测量同一群体，然后求得应试者在这两个测验上得分的相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度。两个等值的测验互为复本。

计算复本信度的主要目的在于考察两个测验复本的题目取样或内容取样是否等值。复本信度也考虑两个复本实施的时间间隔。

复本信度的主要优点在于：能够避免重测信度的一些问题，如记忆效果、练习效应等；适用于进行长期追踪研究或调查某些干涉变量对测验成绩影响；减少了辅导或作弊的可能性。复本信度的局限性在于：如果测量的行为易受练习的影响，则复本信度只能减少而不能消除这种影响；有些测验的性质会由于重复而发生改变；有些测验很难找到合适的复本。

三、内部一致性信度，主要反映的是测验内部题目之间的关系，考察测验的各个题目是否测量了相同的内容或特质。内部一致性信度又分为分半信度和同质性信度。

分半信度系数是通过将测验分成两半，计算这两半测验之间的相关性而获得的信度系数。测验愈长，信度系数愈高。同质性信度是指测验内部的各题目在多大程度上考察了同一内容。同质性信度低时，即使各个测试题看起来似乎是测量同一特质，但测验实际上是异质的，即测验测量了不止一种特质。同质性分析与项目分析中的内部一致性分析相类似。

四、评分者信度，是指不同评分者对同样对象进行评定时的一致性。最简单的估计方法就是随机抽取若干份答卷，由两个独立的评分者打分，再求每份答卷两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法，也可以采用斯皮尔曼等级相关方法。

四.试题的效度

效度是指考试有效性或正确性的质量指标，即是否考了要考的内容，试题难度、区分度是否适宜，考试最终是否达到了它的预定目的等。

测试效度(test

validity)亦称测试的有效性，指一套测试对应该测试的内容所测的程度。也就是说，一套测试是否达到了它预定的目的以及是否测量了它要测量的内容。例如：“Is

photography an art

orscience？Discuss．”这种题目以摄影的知识为前提和主要内容，用来考语言能力，就不具有效性。又如用听写来测量学生的听觉能力，其效度也是不理想的，因为书面记录有声语言不仅涉及学生的听觉能力，而且还与他们的书写速度、拼写能力、语法知识、记忆能力和对全文的理解能力等有关。

测试的效度一般可分为以下几类：

1）表面效度（face

validity）。指测试应达到的卷面标准，即一套测试题从表面看来是否是合适的。例如，若一次阅读理解力的测试包括许多受试者没有学过的方言词汇，则可认为这次测试缺乏表面效度。表面效度是测试出受试者正常水平的一种保证因素。

2）内容效度（content

validity）。指一套测试题是否测试了应该测试的内容或者说所测试的内容是否反映了测试的要求，即测试的代表性和覆盖面的程度。例如，如果某一套发音技能测试题仅仅考查发音所必须具备的某些技能，如只考单一音素的发音，而不考查重读、语调或音素在词语中的发音，那么，该测试的内容效度就很低。