心理测量学整理

更新时间:2023-11-27 23:21:02 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

心理测量学

第一章 心理测量概论 一 心理测量及其应用的普遍性 1 心理的可测性

早在两千多年前的战国时期,孟子就说过:“权,然后知轻重;度,然后知长短。物皆然,心为甚。”(《孟子·梁惠王上》)孟子的这句话明确地指出了人的心理是可测的。1918年,现代心理测量学的创始人之一、美国心理学家爱德华·桑代克(Edward Lee Thorndike)提出:凡客观存在的事物都有其数量。另一位美国测量学家威廉·麦柯尔(William A.McCall)进一步指出:凡是有其数量的事物都可以测量。

? 辩证唯物主义的观点:人的外显行为客观存在,可以感觉、知觉,进而可以测量。 ? 心理学的研究证明:可以通过测量人的外显行为而推测人的心理。

2心理测量的间接性

心理测量是一种间接测量。间接测量必须找准中介媒质。物理测量也有间接测量:测气温,其中介媒质:水银 ,而心理测量的中介媒质:人的外显行为,外显行为种类众多而且复杂多变,心理测量的间接测量难度更大。 3心理测量的定义

? 广义测量定义:测量是依据一定的法则使用量具对事物的特征进行定量描述的过程。 ? 心理测量定义:依据一定的心理学理论,使用测验对人的心理品质进行定量描述的活动。 4心理测量的工具及其特性

? 测验的本质:任何测量工具都是有参照点和测量单位的数字系统。在心理测量学中也把它叫做量表。 ? 量表的两要素:参照点、测量单位

? 心理测量量表两要素的特点:参照点是人为的;测量的单位要经过统计处理才能有统一意义,有恒定价值 5心理测量误差存在的普遍性

任何测量都是有误差的,误差的区别只在于误差的性质、误差的大小、误差的来源和误差控制度的难度上。在一定意义上说,研究心理测量的主要任务也是最富有挑战性的任务就是研究如何控制测量的误差。 (一)测量误差的类型

? 随机误差:所得值与实际值之间大小和方向都会随机变化的差异值。 ? 系统误差:所得值与实际值之间的那种大小和方向都不变的差异值。 ? 特点: 误差与实际测量值共居一体、混淆难分。

? 任务:将它们分离出来,评估它们的大小,研究控制办法。 (二)测量误差形成的原因 (1)心理品质的特殊性

? 内隐、抽象,不稳定,波动起伏,造成对目标认识不清晰,导致误差 ? 受测者未掌握正确作答技能,致使作答不能代表真实水平。 ? 受测者故意掩饰。致使评价出现误差。 (2)使用质量不高的测量工具

? 人的外显行为与人的心理品质只具备相关关系,所测外显行为不是欲测心理品质的代表性行为,测验项目只“刺激”出了欲

测心理品质的一部分行为,外显行为不清晰、不稳定 。

(3)施测过程和施测环境安排控制不好

? 施测过程没有统一要求,测试指导语没有统一版本,作答起始时间和长短不统一,测试时的内外环境令被试不能集中精力,

测试过程失控、纪律混乱,舞弊 。

(4)主试的不良品质

? 主试对所测心理品质的理解有误主试实施的程序有误评分标准掌握不准确 6心理测量误差的理论与技术概述

心理测量学假设:测量所得的观察分数X是一个包括三种分数的混合体,其中包括欲测心理品质的实际值,又包括测量的随机误差和系统误差两种误差值。心理测量学将欲测心理品质的实际值称为目标真分数,记为V。正如其名,目标真分数是测量者所追求的测量值。测量学将随机误差称为随机误差分数,记为E(随机误差之间相关为0,E=0),将系统误差称为非目标真分数,记为I。这两种误差分数都是测量者要严加控制乃至希望消灭的测值。测量学还将目标真分数与非目标真分数合在一起称为真分数,记为T。心理学又进一步假设:真分数T是目标真分数V与非目标真分数I的线性组合,观察分数X又是真分数T 和随机误差分数E的线性组合,即有:

T=V+I X=T+E 进而有 X=V+I+E

心理测量学还假设目标真分数、非目标真分数与随机误差分数都是相互独立的。由此推得到以下两公式:

公式中的符号分别代表各种相应分数的方差。分数的方差越大表示该分数在对被试的评价中所起的作用越

大。

心理测量学将真分数方差在观察分数方差中所占的比称为测量的信度,记为信度

rxx 越大意味着随机误差在观察分数中所占得比重越小。

,即

心理测量学将目标真分数方差在观察分数方差中所占的比称为测量的效度,记为心理测量的误差控制的任务: 努力控制测量的随机误差,提高测量的信度。

努力控制测量的随机误差和系统误差,提高测量的效度。 经典测量理论(Classical Test Theory, CTT)。又叫真分数理论 其他测量理论:项目反应理论(Item Response Theory,,TRT);概化理论(Jeneralizability Theory,GT) 二 测验的类型与功能 1

按所测心理品质分类 (一) 能力测验

A. 智力测验(Intelligence Test):测量人的一般认知能力水平高低的测验。智力测验的结果比较稳定。是测量理论与技术研究最

早涉及领域 .比较著名的智力测验有斯坦福—比内量表、韦克斯勒智力量表、瑞文推理测验等。 B. 能力倾向测验类型:

一般能力倾向测验:测量个体在多种能力上的潜在优势的测验。

特殊能力倾向测验:测量个体在音乐、绘画等特殊能力上的潜在优势的测验。 ? 能力倾向特点:依赖于先天,与生活经验有关,一般不受专门教学或训练影响。 ? 能力倾向测验性质:测值相对稳定,具有预测功能。 C. 成就测验(Achievement Tests):

结果。

? 成就测验类型: 学科成就测验、综合成就测验、诊断测验

从智力测验到能力倾向测验再到成就测验,各类能力测验所测心理品质的具体性越来越强,抽象性越来越弱,测量结果的稳定性越来越差。

(二) 人格测验(了解)

2 按对被试评价时所用的参照标准分类

? 对被试评价所用的参照标准:相对标准、绝对标准

? 应用相对标准的称作为常模参照测验,应用绝对标准的称作为标准参照测验 (一) 常模参照测验(Norm-Referenced Test)

? 定义:以个体在团体中的相对地位来评价个体发展水平的测验。 ? 性质:

执行可高可低的相对难度标准,难度的高低决定于团体本身的水平。 可能使一些高利害、高竞争性测验难度失控。 团体水平发生变化,常模参照测验要重新修订。

(二)标准参照测验(Criterion-Referenced Test)

? 定义:以个体水平是否达到测验领域某一固定标准来评价个体发展水平的测验。 ? 性质:

使用绝对标准,不因很多个体都已达到而提高标准,也不因很多个体都未达到而降低标准。 各种专业资格测验都属于标准参照测验。

3

按标准化程度分类(简答) 标准化测验:四个方面的标准化要求:

测验编制过程标准化,测验实施标准化,测验评分标准化,测验分数解释标准化

? 成就测验特点: 在特定领域为检测应试者对有关知识和技能的掌握程度而设计的测验。 教学和训练会明显改变成就测验的

(1) 编制过程标准化

? 标准化测验编制步骤(六步):测验目标分解、编制方案设计、命题征题、测试分析、分数体系设计与制作

测验使用指导书编写

? 编制质量的标准化:测验信度、效度要求、每个题目的质量要求 (2) 测验实施标准化:

? 对主试的要求、对被试的要求、对测试场所内外环境的要求、测试过程顺序的要求 (3) 测验评分标准化:

? 试题要有公认的科学答案、有统一规范的评分标准 (4) 测验分数解释标准化:

? 测验的报告分数要有明确的解释方法和解释依据。

? 常模参照测验:配有解释常模,可以确定每个分数在团体中的确切地位。 ? 标准参照测验:配有合格分数线以确定每个分数的合格与否 。 标准化概念说明:

? 标准化主要都是为了控制测量的随机误差和系统误差。

? 教育与心理测量中“标准化”可以理解为是一系列的严格标准,也可以理解为是一个过程 — 测验的标准化过程。 ? 实际应用的测验是否是标准化测验必须严格鉴别。 标准化测验特点:

? 编制要求严格,测验编制周期长,

? 人财物投入大,测验设计要求面向尽量大的被试群体, ? 使用的针对性、灵活性常常不能满足要求。 非标准化测验特点:

? 编制目的明确、测试对象熟悉、

? 内容设计针对性强、方法灵活多变、编程短

? 不能轻视自编测验的作用,同时也要努力提高自编测验的编制质量 4按实测手段分类

几种常见的计算机化测验:

(1)基于计算机的测验(Computer-Based Test,CBT)。

? 由计算机出题,要求被试在计算机前操作作答。各种基于计算机的测验对计算机的利用程度会有很大不同。除了计算机的形

式,基于计算机的测验的方法、理念与传统纸笔测验无本质不同 。

(2)计算机化自适应测验(Computerized Adapt Test,CAT)。

? 一种新的测验理念:改变传统测验千人一面形式针对被试的水平即时调题、即时施测、即时反馈、即时估算。同时提高测验

的效率和准确率 。实现条件:新的测验理论指导、使用计算机。优点明显,但技术上也还需进一步完善

(3)基于网络的测验(Internet-best Test,IBT)

? 基于计算机的测验或计算机化自适应测验采用网络的形式实施远程测试,则称其为基于网络的测验。基于网络的测验是当前

计算机化测验发展的最高形式 。

5其他分类

(一)最佳行为测验和典型行为测验

? 最佳行为测验:作答时必须尽能力找到最佳答案。

? 典型行为测验:作答时要根据自己平时怎么想、怎么做如实作答。 ? 能力测验是最佳行为测验,自陈式人格测验是典型行为测验。 ? 典型行为测验的误差控制更为困难 (二)个别测验与团体测验

? 个别测验应用:面向特殊被试或在测试中主被试间需不断交流的测验。 ? 个别测验特点:耗时费力,一般能用团体测验就不用个别测验。

? 教育测验大多采用团体测验,但也有例外。心理测验采用个别测验的要多一些。 (三)难度测验与速度测验 (四)文字测验与非文字测验 (五)主观题测验与客观题测验

三 心理测量发展简史 1 中国古代的心理测量思想 (一)个体差异及其可测性思想

? 孔子:“性相近,习相远。”;

? 孟子:“权,然后知轻重;度,然后知长短。物皆然,心为甚。” (二)人才的内涵及其测量方法

? 三国时的魏人刘劭 :“夫圣贤之所美,莫美乎聪明。聪明之所贵,莫贵乎知人。知人诚智,则众材得其序,而庶绩之业兴矣。” ? 他把人的行为表现概括为9种,称为“九征” 。提出“八观”和“五视”的观察方法识别人才。 (三)心理与教育测量的实践活动

? 孔子:将智力分成三个等级,即中上之人、中人和中下之人;不得中行而与之,必也狂狷乎?狂者进取,狷者有所不为也。 ? 董仲舒:“一手画方,一手画圆,莫能成。” ? 刘劭:《人物志》 ? 西周:“国学” 古代中国心理测量的特点 :

? 1.描述性的,定性的,而非定量的 ; ? 2.分类式的 ;

? 3.注重对人作整体的鉴定和评价,并倾向于和人的道德品质联系起来 ; ? 4.具有强烈的应用性质。 2 现代心理测量在西方国家的产生与发展 (一)心理测量的产生是社会的需要

? 工业革命成功后,对劳动力的需求急剧增加 ;19世纪,科学的发展和欧洲人道主义思想的广泛传播。 (二)心理测量的早期探索者

? 1.德国:冯特(W. Wundt) 2.英国:高尔顿 (F. Galton)

3.美国:卡特尔(James M. Cattell) 4.法国:比纳(A. Binet)和西蒙(T. Simon)

(三)心理测量的发展

心理测验运动从20世纪初兴起,20年代进入狂热期,40年代进入狂热期,40年代达到顶峰,50年代后转向稳步发展。在此期间,测验主要有以下几个方面的发展。

? 斯坦福大学推孟(L.M.Terman)教授1916年修订斯坦福-比纳量表 ; ? 桑代克(E.L.Thorndike)编制了第一个标准化的教育成就测验;

? 人格测验的先驱克雷佩林(E.Kraepelin),他最早用自由联想测验来诊断精神病患者。

第二章 测量信度与随机误差控制 第一节 测量信度概述 1什么是信度?

相同被试在不同时间或不同场合下重复用同一测量工具或等价(equivalent)工具测量所得结果的一致性(consistency)程度。 信度反映了测量结果中,由于随机误差因素所带来的方差变异大小。信度越高,随机误差方差越小,测量结果越稳定。 经典测量理论(classical test theory, CTT)假设:

个体在某个测量上获得的分数结果是由真分数(true score)和随机误差分数组成的。 一群被试的观察分数方差等于他们的真分数方

差加上随机误差方差。

为观察分数方差;

为真分数方差;

为随机误差方差

测量的信度被定义为观察分数方差中由真分数方差所解释的比例,由下式表示:

为测量的信度,由上式定义可以知道,测量的信度是一个0.00到1.00的非负值

然而,由于真分数方差无法直接计算得到,因此,需要通过前面两个公式,推导出在观察分数方差中误差方差所占的比例,或者叫真

分数方差未解释的比例,以计算信度,如下式:2信度的作用

(1 )信度反映了不同测量情境因素对测量结果的影响大小;

情境因素对测量结果影响甚大,表明观察分数的随机误差就很大,测量结果偏离真值的程度也就偏大 。 (2)信度可以用来评价个体分数的稳定性程度。

信度越低表明个体分数的随机误差越大,也就是说,个体观察分数偏离真分数越远,这样的测量工具得到的分数也就越不稳定。 二 测量信度的种类及评估方法 1重测信度

? 含义 同一个测量工具在两个不同时间对同一组被试施测所得结果的一致性程度。 重测信度主要考察了一个测量工具是否能够保证在不同时间测量结果的一致性,他反映了测量工具的结果受到时间间隔因素影响的大小。一般来说,重测的时间间隔越短,那么各种施测情境的变化就越小,重测信度系数就会越大。重测信度系数较大时,说明该测量工具前、后两次的测量结果比较一致。结果具有较好的跨时间上的稳定性。 ? 评估方法

重测信度的大小可以通过计算测量工具的重测系数(test-retest coefficient)或叫稳定性系数(coefficient of stability)来标志。具体来说,就是求取同一组被试在两个不同时间施测同一个测量工具所得结果分数的相关系数 ? 使用的条件

测量工具所测量的个体心理特质在时间上应该是相对稳定的。

测量工具所测量的个体心理特质应该不存在明显的练习效应和遗忘效应。

在两次施测间隔期间不应该进行专门的训练和培训,以保证重测信度反映的是随机因素的影响效应。 ? 使用重测信度时需要注意的问题

两次施测时间间隔的长短会影响重测信度系数估计值的大小,因此,在报告重测信度系数时应该报告间隔的时间长度。 应该根据已有的相关研究结论考虑所测心理特质本身的稳定性程度,以确定前后两次施测时间的间隔究竟应该多长比较合适时,不应该随便选择间隔时间的长短,

2复本信度

? 含义:两个平行的测验(复本测验)测量同一批被试所得结果的一致性程度。

复本信度反映了由于题目的不同以及时间间隔所导致的测量误差。平行测验或复本测验指的是两个在题目内容、数量、形式、难度、区分度、指导语、时限以及所用的例题、公式和测验等其他方面都相同或相似的测验。也就是用不同的题目测量同样的内容而且其测验结果的平均值和标准差都相同的两个测验。 ? 评估方法

复本信度的估计过程就是计算同一批被试在两个平行的复本测验上所得分数的相关系数,也叫作等价系数(coefficient of equivalence)。 测试设计:同时测试和延时测试。

同时测试是在同一个时间段内进行测试,而延时测试则是在两个时间段进行测试,同时测试可能会存在作答疲劳的效应,而延时测试则可能会存在学习或培训效应。 ? 使用的条件

要构造出两份或两份以上真正平行的测验;

计算复本信度需要对同一批被试测试两份平行测验,这就需要掌握一个合理的时间安排。

应该尽量在测试结果报告中,详尽地说明两次测试的时间间隔、测试顺序安排、测试过程中被试的有关测验经历等。

3内部一致性信度

内部一致性信度主要评价了测验各随机组成部分之间是否测量了相同的心理特质,因此,它反映的是题目内容的抽样一致性程度。 具体估计方法主要包括分半信度评估法、库德-理查森信度评估法、克龙巴赫Alpha系数评估法。 与重测信度和复本信度不同,在估计测验的内部一致性信度时,只要用同一个测验对一批被试测试一次。 1) 分半信度

含义:我们总是可以把一个测验的所有题目随机地划分成对半的两个部分,然后估计所有被试在这两个部分题目上得分的一致性程度,这样得到的测验一致性估计称为分半信度。

分半信度评价了测验两个随机组成部分的题目是否测量了相同的心理特质。

(二) 鉴别指数法

3区分度评价标准及其提高 (一)、区分度的评价标准

? 区分度的取值范围为[-1,1],区分度为负的(消极区分),题目性能不

好,这种题目对测验总分合成起着不良的干扰作用。1965年美国测量学家伊贝尔根据长期经验提出如下标准。

(二)、影响题目区分度的因素

? (1)题目难度 ? (2)被试群体的同质性

? (3)全卷各题所测心理品质的一致性。

? (4)题目本身的文字与内容的质量也会影响 题目的区分度 三 测验题目的猜测度与猜测控制

? 猜测度是指被试全凭随机猜测而答对题目的概率。猜测行为主要出现在客观题(如选择题、是非判断题、配对题等) 猜测度的控制 ? ①增加选择题选择项的个数(一般不少于四个) 。 ? ②增加干扰项的迷惑性。

? ③控制存在猜测行为的总题量,以保证猜测误差控制在较小范围。 ? ④如有特殊需要,还可采用警告、扣分等方式控制被试的猜测行为。

第五章 常模参照测验的设计与编制 一 常模参照测验概述

? 常模参照测验

? ?

是通过测试将受测者个体的心理发展水平与某一特定群体(测试对象总体)的心理发展水平做比较,从而确定受测者个体心理发展水平在这一特定群体中的相对地位的测验。

常模参照测验经常用于学业成就测验、能力水平测验中,也会用于人格测验中,由于他对个体相对地位的精细鉴别,更经常被用于各类选拔性考试中。

? 常模参照测验的设计与编制原则

? ? ? ?

? 常模

?

根据标准化样本在测验上的测试结果,在经过一定的统计技术处理之后,建立起来的具有参照点和单位的测验结果首先要有明确的测试目标领域,在该测试目标领域指导下编制的项目要具有充分的代表性和典型性。 测验项目的统计指标要求适中。

施测过程、记分方式和结果解释应该标准化,以保证每次测试的结果之间可以相互比较。 关于测试对象总体的足够大的代表性样本。

? 标准化样本

评价参照系统。

? 原始分数

? 被试在测验中通过累加题目得分而获得的测试分数叫做原始分数。

二 测验常模的种类与分数解释

? 为了便于确定个体的测验得分在标准化样本群体中的地位,原始分数经常会被转换成为某种导出分数。 ? 进行这种转换的主要目的有两个:

? ? ? ?

可以清晰地表示个体在标准化样本群体中的相对位置,从而可以在与其他人比较的基础上,对其成绩作出评价; 可以对个体在不同测验上的作答表现直接进行横向比较。

纵向转换,即把个体得分与不同年龄的发展水平进行比较,并转换成为相应的等级水平,以下将要介绍的发展性常模就是为此目的建立参照比较标准;

横向转换,即把个体得分与同一群体内其他人的分数进行比较,从而确定个体在群体内的等级位置,稍后将要介绍的群体内常模就是为此目的建立参照比较标准。

(一) 发展性常模

a)

心理年龄常模 i.

几个概念 1. 2.

心理水平与心理年龄

被试在某个心理测验上的得分所对应的标准化样本群体的年龄,有时需要加上月龄。 智商

心理年龄(MA)与实际生理年龄(CA)之比。

3.

ii.

比率智商

? 经常使用的分数转换方式有两个途径:

建构过程 1. 2.

首先是要获得不同年龄段标准化样本被试在测验上的总分平均数,并以此作为参照标准。

然后,某被试的心理发展水平,就可以根据其在该测验上的得分所对应的年龄段平均分数加以确定。

b) 年级当量常模 i.

年级当量:指的是被试在某个心理测验上的得分所对应的标准化样本群体的年级。

年级当量常模就是以年级为评价指标,通过年级和心理发展水平的对应关系建立起来的分数参照标准。 教育商数(Educational Quotient , EQ)指的是教育年龄除以实际生理年龄所得的商数再乘以100取整。 建构过程 1. 2. 3. 4.

v.

1. 2.

首先,抽取各个年级的标准化样本;

然后,计算各年级标准化样本在测验上的平均分数; 最后,以这些平均分数及对应的年级建构常模。

某学生在测验上的得分就可以与常模中的各个平均数进行比较,从而确定自己对应的年级当量水平。 不同年级的教学内容和目标经常是不一样的,因此,在进行比较时,要注意课程的教学特点;

虽然某学生可能在测验分数上已经达到更高的年级水平,这说明他在该门课程上的学习是非常优秀的,但这并不意味着他在该门功课上的水平与更高年级相应学生的水平是完全一样的,因为他们经历了不同的知识技能建构过程,更不能说明他已经具备进入更高年级学习的条件; 3.

即使是同一年级的不同学生之间的水平也很可能相差很大,不可能总在平均数附近。

ii. iii. iv.

需要注意以下几个方面的问题:

c) 发展顺序量表常模 i.

是通过年龄和典型行为特征的对应关系建立起来的评价参照标准,主要用于评价个体特别是儿童的行为发展特点和水平。

儿童心理学家发现,儿童的某些行为特点的发展有着固定的顺序,而且每个阶段的典型行为特征的掌握必须以前一阶段典型行为特征的掌握为前提。 建构过程 1. 2. 3.

首先是要确定各心理发展阶段的典型(关键)行为特征; 然后收集适合相应发展阶段特征的代表性行为作为测量指标;

儿童的心理发展水平,可以通过测量他在代表性行为上的表现所对应的年龄来评价。

ii. iii.

iv. 发展顺序量表与心理年龄量表 1.

顺序量表的建构过程,首先是要确定各发展阶段的典型(关键)行为特征,然后收集适合相应阶段特征的代表性行为作为测量指标。而心理年龄量表的建构,首先是收集一些项目,然后看他们是否能够区分不同年龄段,在此基础上筛选量表项目。 2.

虽然顺序量表有时也会报告分数来代表年龄水平,但这并不是最主要的,他更关心的是典型行为的描述和评价,并可能以此达到诊断的目的。

(二) 群体内常模

a)

百分等级分数常模 i. ii. b) i.

百分等级分数常模是基于分数及其百分等级的对应关系建立起来的参照标准。 百分等级分数是通过标准化样本中低于某个原始分数的人数百分比来表示的。 百分等级分数优缺点 1. 2. 3. 4. 5.

ii. c) i. ii.

他易于计算和理解,绝大部分的人均能理解。 百分等级几乎全球通用,易于被大家接受。 百分等级分数既可以用于成人也可以用于儿童量表。 既可以用于能力倾向类的量表,也可以用于人格类型量表。

百分等级分数最大的缺点,就是分数所标刻的单位不同,特别是分数分布的两端。

百分等级分数常模

百分等级更加适合于对标准化样本个体的相对位置进行排序,但不适合于说明个体分数之间的具体差异。 标准分数:表示的是在一个分布中,个体分数在平均数之上或是之下多少个标准差。 分数的线性转换或非线性转换 1.

通过线性转换得到的标准分数不会改变分数原来的特性,因此,原始分数可以进行的运算,标准分数也可以进行,不会因此导致结果的歪曲。

标准分数常模

iii. Z分数 1.

Z分数是通过原始分数减去平均数后除于标准差而得到。Z 分数为0说明该个体分数正好处于平均水平,Z 分数为正说明该个体分数高于平均水平,而 Z 分数为负则说明该个体分数低于平均水平。

iv. T分数 1. 2.

T分数=10z + 50

将z分数转换成T分数的范例

v. vi. vii.

CEEB分数:是美国大学入学考试委员会最早使用的标准分数。 1. 1. 1.

CEEB分数=100Z+500

平均数是100,标准差为15左右。 正态化标准分数的转换过程 a) b)

计算出标准化样本中处于各原始分数以下的人数百分比;

将该百分比与正态次数分布表中的百分比进行匹配,并获得对应的标准分数。

离差智商 正态化标准分数

– 经过正态化转换之后得到的标准分数,可以与线性转换的标准分数一样进行解释和比较。 – 与线性转换标准分数一样,为了报告的方便,正态化标准分数也可以进一步转换为T分数、CEEB

分数、离差智商等其他表达形式。

– 正态化标准分数的一个优点是在已知正态化标准分数的前提下,可以通过查正态分布表而得到以

人数百分比表示的相对地位值。

– 标准九分数

– 标准九分数转换对照表

3不同常模分数间的比较(背过)

三 测验常模编制与被试评价 1 常模编制的一般过程

?

发展性常模

? ? ?

?

? ? ? ? ?

标准化样本的抽取

在抽取标准化样本时,需要考虑以下几个因素:

(1) 在清晰界定测试对象总体的基础上,必须考虑样本的代表性,保证样本有足够的覆盖面。一般来说,要考虑到样本的年龄范

围、性别、地区、民族、教育程度、职业等基本特征。因此,在取样方法方面,就不能简单使用随机抽样的方法,而应根据这些可能影响测试分数的被试基本特征,对测试对象总体进行分层抽样。

关注的是不同年龄被试心理特质水平的典型行为表现及其区分

条目要求能反映被试群体的典型行为,项目具有足够的完备性、典型性和区分性。 结果报告更加关注诊断性信息的描述。 界定测试对象总体;

抽取数量足够大,具有充分代表性的样本群体,组成标准化样本 严格按照测验指导手册的要求,获取标准化样本的测试数据; 对测试原始数据进行整理,初步分析测验数据的分布形态;

选择一种合适的原始分数转换形式,将测验原始分数转换成具有普遍参照作用的导出分数系统。

群体内常模编制:更加关注测试结果分数的比较本身

(2) 在对测试对象总体进行分层抽样时,在保证总样本容量足够大的同时,还需要保证每个层的样本容量足够大,而且每个层之

间的人数分布比例是合理的,即与总体中各层人数的比例关系保持对应,这样才能保证建立的参照标准是比较稳定的。

(3) 由于现在教育改革、职业发展、信息交流等非常活跃,因此,一般需要每隔一段时间对取样总体的基本特征可能发生的变化

进行分析,必要时应该重新取样,对常模进行修订。

2常模资料呈现的一般方法

a)

转换表法 i. ii. b) c) d)

第六章 标准参照测验的设计与编制 1标准参照测验的定义 ? ? ?

戈莱塞(1971):“所谓标准参照测验,是根据某一明确界定的内容范围而缜密编制的测验,并且,被试在测验中所得结果,也是根据某一明确界定的行为标准直接进行解释的”。

当使用的标准是用内容材料定义的,即为掌握某领域知识和技能的比例,这时测验就被称为内容参照测验(domain-referenced 若已知测验分数和某个外部效标有关,则可用被试在效标上的表现直接解释测验分数,这种测验被称为结果参照测验(result-referenced test)。 2标准参照测验的编制

3标准参照测验的信度

标准参照测验一般将被试分为“掌握或未掌握”、“通过或未通过”等,有的人就从分类决策一致性角度来定义标准参照测验的信度。比如,使用两个掌握性平行测验,他们将同样的被试划为“掌握”的比率是否相同,划为“未掌握”的比率是否相当。

假如A和B是两个平行的标准参照测验,将同一批被试划分为掌握或未掌握的情况如表中所示,表中b和c代表两测验分类一致的人数,一致性比率记为P0,此时计算分类一致性信度的公式为:

i.

三个要素:原始分数、导出分数、标准化样本的特征描述。 简单转换表和复杂转换表。

将原始分数与转换分数的对应关系直接以图形的形式加以呈现,这种形式总是把分数转换与结果解释结合在一起。

剖面图法 剖析图法 文字语言解释法

其中N为被试总人数

4标准参照测验的效度

从绩效或结果入手验证效度

常模参照测验一般用测验与小标之间的相关系数作为从绩效或结果入手验证效度的指标,但相关系数大小受分数分布的影响,不适用于标准参照测验。 假设对100名应聘人员进行某个标准参照测验,2个月后记录他们的工作成绩。方格中的数为出现相应分数对的频数。三角形上顶点所指的位置是测验的划界分数(用粗线标示),左边有55人,右边有45人;菱形的左顶点所指的位置是工作是否成功的标准(用粗线标示),上边有60人,下边有40人,意味着不使用测验而全部录取被试(录取比例为100%)的成功比例为60%,我们称其为基础率。事实上,如果录取测验分数右边的45人(录取比例为0.45),则有7人属于“粗无接受”,但工作成功的百分比为84%,高于基础率。这种成功比例的增加可归因于测验的使用,即增益效度。一般而言,有效接受和有效拒绝的比例越高,说明

本文来源:https://www.bwwdw.com/article/nk4t.html

Top