心理测量学教案 word

更新时间:2024-05-24 11:30:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

第一章 心理测量概述

第一节 测量概述

一、测量的概念

1 测量 SS.Stvens: 就广义而言,测量就是按照一定的法则给事物指派数字。

或者:测量就是依据一定的法则,使用量具对事物的特征进行定量描述的过程。

2 测量的三元素:事物(实际是事物特征或属性)、法则 、数据(定

量描述)。数据的特征:区分性,序列性(等级性),等距性,可加性。

3 测量的精确性的影响因素:

(1)测量对象本身的性质:确定性,即一定条件下,客观事物的量保持恒定不变。随机性,事物的量随机改变。人的短时记忆量,人的反应时。模糊型:人格,心理健康。

(2)测量工具的精密性

4 测量的类型:物理测量、生理测量、社会测量(社会现象、人口普查、民

意调查)、心理测量(教育测量)

二、测量的要素 1 参照点

测量事物的量必须有一个量的起点,这个起点就是参照点,也叫零点。它可以分为两种:一是绝对的零点(参照点),其中的0即无,什么也测不到;二是相对参照点,人为(规定)确定的0点为起点,如0°C。最理想的参照点是绝对零。但心理测量中所用的参照点都是人为的,只能进行加减运算,因而测量的结果常常不能以“倍数”来解释。如不能说IQ = 100的人是IQ = 50的人的智力的两倍。

2 单位

好的单位的二个条件

1

葛操教授讲义---心理测量学

确定的意义:即同一单位对所有人来说意义相同。

相等的价值:即第一单位与第二单位之间的距离等于第二单位与第三单位之间的距离,即相邻两两单位点之间的差总是相等。 思考:下列是否属于测量,分析其三要素

? ? ? ? ? ? ? ? ? ?

量身高,量山高 学业考试 IQ测量

炼钢看火焰颜色测温度 歌手评定 作文评分

中医看病(望、闻、问、切)与西医看病 水表与电表

天气预报与地震预测 心理咨询

三、测量量表

1概念:确定事物的特征数量,需要选择具有确定的单位和参照点的数字

的连续体。这个有参照点和单位的数字的连续体就是量表。

2 量表的种类:量表是由人来制订的,依据单位和参照点的不同,量表的

层次也不一样。根据测量精度高低,斯蒂文斯(SS.Stvens)将量表分为四个水平,由低到高分别为:命名量表、顺序量表、等距量表和等比量表。 (1)命名量表 只是用数字来代表事物或对事物进行分类。

代号:18代表李明,身份证、工作证号等

类别:1=男,2=女; 1=工人,2=农民,3=知识分子,4=解放军,5=干部 命名量表中的数字没有任何数值意义,不能作量化分析。无大小意义,只表明类别。 无参照点和单位。无法比较大小或进行任何数学方法运算。 (2)顺序量表(等级) 不仅能够指代事物的类别,且能表明不同类别的大小、等级或某种属性的多少。主要用于分等论级和分类。数字仅表示等级并不表

2

示某种属性的真正量或绝对值。无参照点(没有绝对零点,也无相对零点)、无相等的单位。无法进行数学方法的运算。

(3)等距量表 存在大小关系。 无绝对零点,但存在相对零点和相等单位。可以进行数学加减运算,但不能进行乘除运算 。

(4)等比量表 是最精确的测量。大多是物理量表,有绝对零点和相等单位,可进行加减乘除运算。

而心理量表最高只能达到等距量表水平。 可以知道事物之间的某种特点上相差多少及它们之间的倍数关系。但心理测量的量表大都是在顺序量表上进行构建,只是在统计中转换为等距量表进行运算。

第二节、心理测量

一、概念及特点

孟子说 “权,然后知轻重;度,然后知长短;物皆然,心为甚。” Thorndike:“凡客观存在的事物都有其数量。” McCall:“凡有数量的东西都可以测量。”

1 心理测量:依据一定的心理学理论,使用测验对人的心理特质进行定量描述

的过程。

“就是通过观察人的少数有代表性的行为,对反映在人的行为活动中的心理特征,依确定的原则进行推论和量化分析的一种科学手段。”(郑日昌)。 著名的心理测验学家安娜斯泰西认为:心理测验实质上是行为样本的客观和标准化的测量”。

2 定义包含四个基本要素:一个测验要具备的四个条件

(1)行为样本:从从总体行为中抽取出来的,与欲测量的特质直接相关的一组行为进行测量。这样一组被抽取出来的、直接作为测量对象的行为称为行为样本(sample of behavior)。如同抽血化验的血样。外向性测量中抽取的10种反应外向行为的题目,100内的四则混合运算考试中出的20道考试题。 (2)标准化。为了使所有接受测量的个人所获得的分数可以公正地进行比较,

3

葛操教授讲义---心理测量学

测验条件对所有的个体都是相同的。标准化就是指测验的编制、实施、计分及测验分数的解释程序的一致性。具体包括: A 测验内容的标准化

B施测条件的标准化: 测验情境、指导语、测验时限均相同 C评分规则的标准化 D测验常模的标准化

标准参照测验、常模参照测验

(3)难度或应答率(成就测验):难度适中 (4)信度和效度:具有较高的信度和效度

3 心理测验的性质:a间接性:心理测验要测量的是心理特征,但它要通过

测量人的行为来实现,从行为测量中来推知心理特征。这就要找有代表性的少数行为作为全部行为的样本。 b相对性;c客观性。

4 心理测验的种类:

(1)按测验功能分:a 智力测验(一般认知能力测验), b 能力倾向测验 c.成就测验:已获得的学业成就,包括学科、综合; d.人格测验: 兴趣、态度、动机、气质、性格(又分为问卷法、投射法2种)。 (2) 按测验的对象特点分:

a个别测验 :优点:获得的信息多;容易建立融洽的合作关系;特殊被试(幼儿、盲人); 缺点:费时、复杂、对主试要求高。

b团体测验:优点:短时间搜集大量资料。缺点:被试的行为不易控制,容易产生误差。 (3)按测验材料分类 a.文字(纸笔)测验

b.非文字(操作)测验:可作为文化公平测验

(4) 按测验的目的分:描述性测验、诊断性测验、预测性测验。

(5) 按测验要求分:有最高作为测验和典型行为测验。前者要求被试尽可能作出最好的回答,而且有正确的答案。能力测验、学绩测验均属此类。后者要求被试按照日常习惯回答,答案无对错之分,所有人格测验均可称为典型行为测验。(6)按测验的性质分类

4

a.构造性测验 (客观化测验) b.投射性测验

5 心理测验的功能:

(1)从实际应用角度看:选拔人才、岗位安置、诊断、评价、辅助咨询。 (2)从理论研究角度看:搜集资料、提出和验证假设、实验分组。

二、心理测量工作者的素质要求及道德准则 (一) 心理测量工作者的素质要求

(1)心理测量工作的知识结构

基础知识: 专业知识:

(2)对心理测验的科学态度(树立正确的测验观)

(1)错误的测验观:测验万能论、测验无用论、心理测验=智力测验。

(2) 正确的测验观:

A测验是重要的心理学研究方法之一,是决策的辅助工具。

B心理测验作为研究方法和测量工具尚不完善。心理测验的最大问题是理论基础不够坚实。

C科学地看待测验,防止乱编滥用。

(二)心理测量工作者的道德准则

1 测验的保密和控制使用 测验信息和样题的公布

有助于消除公众对心理测验的神秘感及误解。有关测验的技术程序以及信度、效度和其他测验属性应向所有人公开,让受测者熟悉测验,以消除焦虑,保证测验结果的准确性。对测验结果的反馈 2 测验中个人隐私的保护

5

葛操教授讲义---心理测量学

第三节、心理测验的历史与发展

一、西方心理测量的历史与先驱 1 Francis Galton(1822-1911)

(1)1883年发表《Inquiries into humans faculty and its development》为考察人的才能,高发明了心理测量的方法。是第一个倡导心理测验的人。他于1884年在伦敦国际博览会上专门设立了一个“人体测量实验室”。他的这一举动是心理测验史上第一个大规模系统地测量个体差异的尝试。

(2)高尔顿发展了分析个体差异资料的统计方法,提出了相关的概念而且创造了粗浅的相关计算法。

2 James Mckeen Cattell (1860-1944)

(1)1890年发表《Mental tests and measurements》,这是在心理学文献中首次出现“心理测验”一词。

Psychology cannot attain the certainty and exactness of physical science,unless it rests on a foundation of experiment and measurements. A step in this direction could be made by applying a series of mental tests and measurements to a large number of individuals.The results would be of considerable scientific value in discovering the constancy of mental processes, their interdependence and the variation under different cricumstances.Test would be useful in training,mode of life or indication of disease

(2)提出心理学如果不建立在实验与测量的基础上,决不可能有自然科学之准确,

(3)提出测量要有统一的标准,并主张要与常模比较,才能充分实现其科学和实用价值。

3 Alfred Binet比内(1857-1911)

(1)1904年比内为了鉴别弱智儿童,他与西蒙合作编制成了世界上第一个科

6

学的智力测验--比内-西蒙量表。1905年,他发表了《诊断异常儿童的新方法》,介绍了该量表,历史上称为“1905量表”。从此,比内-西蒙量表宣告诞生。

1.眼睛是否随动的物体移动。 2.用触觉刺激唤起抓握反应。 3.用视觉刺激唤起抓握反应。 4.辨认食物。 5.搜寻食物。

6.执行简单的命令和模仿简单的手势。 7.认识物体。 8.认识图片。

9.列举图片中的人物和物体。 10.比较两条线的长短。 11.复述三个数字。 12.比较两个重量。

13.暗示。 show susceptibility to suggestion 14. 解说物体与人物的名称。 15.复述句子。

16.说出二物的不同点。 17.记忆图片中的物体。 18.靠记忆重画图片。 19.复述数字。

20.说出二物的相同点。 21.比较线的长短。 22.比较重量。 23.重量记忆。

24.说出同韵字。Produce rhymes /raim/ 25.填词。

26.用三个词造句。 27.对答问句。

7

28.交换长短针的位置。 29.剪纸。

30.抽象名词的定义。

(2)比内-西蒙量表自1905年发表后,比内和西蒙亲自主持过两次修订,一次在1908年,1905年量表主要强调的是判断、理解和推理能力,也就是比内认为的智力的基本组成成分。1908年版的量表删掉了1905年版中不合适的题目,增加了新题目,题目总数59个。所有测验题目按年龄分组,从3 ~ 13岁。测验的结果用“智力年龄”来表示智力水平。它表示一个儿童能完成哪种年龄水平的儿童所能完成的测验。1911年修订,增加成人组,比内这一年去世,54岁 美国心理学家Pintner说:“在心理学史上,假使我们称冯特为实验心理学的鼻祖,我们不得不称比奈为心理智力测量的鼻祖。

波林说:“19世纪80年代是高尔顿的10年,90年代是卡特尔的10年,20世纪头10年则是比内的10年,20年代是智力不变信仰降低的10年,30年代是因素分析的10年,40年代达到顶峰的年代。”(《实验心理学史》)

二、心理测验的发展 1.智力测验的发展(4方面)

最有名的是1916年出版的美国斯坦福大学的L.M.Terman推孟教授修订的“斯坦福-比内量表”这一量表首次使用了“智力商数”的概念,简称为比率IQ,是心理年龄和实际年龄的比值。

团体智力测验的发展:以R.M.Yerkes为首的委员会提出心理学为战争服务的问题。推孟的研究生欧提斯编制的团体智力测验, 后在次基础上发展出美国陆军用甲、乙两种测验。Spearman 的二因素论推动了智力结构研究。J.C.Reven编制了SPM、CPM、APM.

40年代开设,出现了有基于因素分析理论编制的测量多项能力的D.Wechsler韦克斯勒的WISC(1949),WAIS(1955) WPPSI(1967)。

能力倾向测验的发展:20年代起,开设编制特殊能力测验 “学业能力倾向测验”,职业咨询,人才选拔与安置。音乐、文书、机械、美术。

成就测验的发展:教育测验的鼻祖 E.L.Thorndike桑代克编制了第一个的标

8

准化教育测验,评定学生书写、作文、拼读、算术、计算、推理。美国许多测验机构College Entrance Examination Board,CEEB,Educational Testing service ETS,教育服务中心。

人格测验的发展:最早进行人格测验的是克雷培林,最早用联想法测量精神病人。1917年武德沃斯设计的“个人资料调查表”。 1943年首次出版哈撒韦(S R Hathawag)和麦金利(J C Mckinley)编制的目前影响最大的MMPI-明尼苏达多相人格调查表。R B Cattell的16PF,H J Eysenck的 EPQ

1920年问世的罗夏克墨迹图测验(RIT)和莫瑞(H A Murrau)和摩根(Morgan)的主题统觉测验(Thematic Apperception Test ,TAT)

2心理测验的发展趋势

三个:(1)信息加工心理学的兴起,出现了将实验法与测验法结合,产生

了信息加工测验;(2)计算机技术的发展,纸笔测验逐渐被电脑程序测验取代,大大提高了测验的效率。(3)针对经典测验理论的缺陷,出现了项目反应理论、概化理论等新的测验理论。

第四节、心理测验在中国(了解)

一、我国古代的心理测量

能力测量

孔子:中上之人、中人、中下之人

董仲舒:一手画方,一手画圆(分心测验) 刘邵:12种人才类型

抓周 七巧板、九连环 人格测量

孔子:狂者、狷者、中行 刘邵:12种性格类型

教育测量

葛操教授讲义---心理测量学

9

西周:小成,大成

汉代:太学考试(口试、策试、射策)

隋朝:科举考试,“连中三元”会元,解元,状元

二、中国心理测验简史(解放前)

1914年,Creighton比较中美儿童智力差异(广州,500人) 1917年,樊炳清介绍“比内-西蒙智力量表” 1918年,Walcott用推孟修正量表施测(清华) 1918年,俞子夷编制“小学生毛笔书法量表” 1920年,廖世承、陈鹤琴在南京开设测验课

1921年,廖世承、陈鹤琴合作出版《心理测验法》一书 1921年,费培杰将比内智力测验翻成中文

1921年,W A McCall指导北师大、北大、燕京大学、北京女子高等师范大学、东南大学师生编制了40多种测验,他说许多与美国的水平相当,有的更优。

1922年,张耀翔在北京将心理测验列为入学考试科目 1924年,陆志韦发表《订正比内西蒙智力测验说明书》; 1931年6月,在南京成立中国测验学会 1932年,《测验》杂志创刊。

1935年,沈有乾用“朋洛德人格问卷”测量中国学生。 1936年,陆志韦和吴天敏进行第二次修订比内西蒙智力测验。 1937年,周先庚使用“塞斯顿情绪稳定性测验” 1943年,林传鼎试用“普莱西X-O测验” 1948年,刘范试用“罗夏克墨迹测验”。

三 、中国心理测验简史(解放后)

1979年,林传鼎,吴天敏,张厚粲在武汉举办全国测验培训班; 1979年,龚耀先主持修订“韦克斯勒成人智力量表”; 1979年,林传鼎、张厚粲编制“少年儿童学习能力测验”;

10

第三章、效度

第一节、效度及其与信度的关系

一、 效度概述

1 效度(validity)是指一个测验或量表实际能测出其所要测的心理特质的

程度。

2 理解:

(1)效度是一个相对的概念:每个测量工具都有自己的目的;内隐特质

是通过外显行为间接测得的。

(2)效度是测量的随机误差和系统误差的综合反映。 (3)判断一个测量是否有效要从多方面收集证据 操作定义: 效度=SV2/SX2

与测验目的有关的真分数的方差与实测分数方差的比。

二、效度与信度的关系

1 信度高是效度高的必要而非充分的条件

一个测验效度高,其信度也必然高;但一个测验信度高,其效度不一定高。

2 测验的效度受它的信度制约

rXY<rXX

一个测验的信度必然比效度高,至少相等。

2

21

葛操教授讲义---心理测量学

第二节 效度的估计

一、内容效度

1 含义及应用范围

内容效度(content validity)是指测验题目对有关内容或行为取样的适

当程度,即一个测验实际测到的内容与所要测量的内容之间的吻合程度。

如:心理测量学期末考试卷的内容效度

因此,一个测验要有内容效度必须具备两个条件:

(1)要有定义完好的内容范围

(2)测验题目应是所界定的内容范围的代表性取样。

内容效度主要应用于成就测验,也适合于某些用于选拔和分类的职业测验。 但不适用于能力倾向测验和人格测验。

2 表面效度(surface validity):外行人对某个测验从表面上看好像是测某种心理特质的程度。并不是一种真正的效度。 人格测验要求表面效度不宜过高。 3 内容效度的确定方法

(1)逻辑分析法:专家判断根据自己的知识经验对量表的有效性(逻辑性)作

出判断,也称逻辑效度。

为使内容效度的判断过程更客观,一般采用下列步骤: ①确定测验内容的总体范围; ②编制双向细目表;

③编制评定量表,从测验内容所测的技能、题目对所定义的范围的覆盖率、

各种题目数量和分数的比例以及题目形式的适当性等方面,对测验作出总的评价。

(2)统计分析法:克伦巴赫提出:用两个测验复本来测同一批被试,若相关高,则内容效度可能高,但若相关低,则说明必有一个测验缺乏内容效度。 (3)再测法:前测→教学→后测

如果后测成绩优于前测成绩,说明该测验具有一定的内容效度。

22

二、结构效度

1 含义、特点与应用范围

结构效度(structure validity)是指一个测验实际测到所要测量的理论结构或特质的程度,或者说测验分数能够说明心理学理论的某种结构或特质的程度。 2 特点

(1)具有不同理论构思的测验,其结构效度是无法进行比较的; (2)结构效度有时很难获得;

(3)结构效度没有单一的指标,是由各方面的证据累积起来进行评价的。 主要用于智力和人格测验 3 结构效度的确定方法 结构效度确立的一般步骤: (1)提出理论框架;

(2)依据理论框架推演出有关测验成绩的假设; (3)用逻辑或实证的方法来证明假设。

Wechsler的WAIS:理论假设:智力是个体理解和应对其周围世界的总的才能。依据此,编制11个分测验,从11方面来预测个体的总的能力如何。因素分析结果发现测了三类共同因素:言语理解(知识、领悟、类同、词汇)、知觉组织(填图、木块图、图片排列、拼图)、记忆和注意集中度(算术、数广、数符)。 4 具体方法

(1)测验内部寻找证据法

? 分析测验的内容效度:若内容效度高,说明其结构效度也高; ? 计算测验的同质性信度:分半信度、α系数、KR20、KR21 ? 分析被试对题目反应的特点:

有无社会称许性的题目,如“当事情不顺我意时,我时常动怒。”对该题的回答,也许反映不了要测的性格。 (2)测验之间寻找证据法

相容效度:新老测验之间的相关(两测验测的是同一心理特质)。若相关高,则说明新测验可能有较高的效度。

23

区分效度:新老测验之间的相关(两测验测的不是同一心理特质),若相关低,则说明新测验可能有较高的效度。

因素分析法:对一组测验进行因素分析得出的因素符合理论的构思,说明效度高。 如对WAIS、 WISC,其结果都符合理论构想,一致。 (3)考察测验的实证效度法

根据效标把被试分组,考察其得分差异。

根据测验得分差异把被试分组,考察其所测特质(行为表现)的差异。 (4)实验法和观察法证实:观察实验前和实验后分数的差异也是验证构思效度的方法之一。

三、实证效度

1 含义、种类及作用

实证效度是指一个测验对处于特定情境中的个体的行为进行估计的有效性。 被估计的行为是检验测验效度的标准,简称效标。

所以,实证效度又称效标关联效度(criterion-related validity)。 ? 同时效度(concurrent validity):测验分数与效标资料是同时收集的。 ? 预测效度(predictive validity):先获得测验分数,隔一段时间后, 再收集效标资料。 2 效标

(1)效标与效标测量

效标(criterion)就是衡量一个测验是否有效的外在标准。

常用的效标:学业成就、临床诊断、实际工作表现、特殊训练成绩、不同团体的总体表现、先前有效的测验、等级评定。

观念效标:理论定义,有些效标往往是一种观念上的东西,称为观念效标。如“大学的成功,大学学习成就”

效标测量:操作定义,如大学第一年的平均成绩 (2)效标的特性 a.多样性:

一个测验可能有不同的观念效标,同一个观念效标又可能有不同的效标测量。

24

b.复杂性:

几乎每一种效标行为都由多种特质构成,包含复杂的成分。 c.特殊性:

即使一个普通的效标,在应用时也有特殊性。 d.时间性:

近期效标与最后效标

(3)效标测量的条件(好的效标的条件) a.有效性:效标测量能真正反映观念效标。 b.可靠性:有较高的信度 c.客观性:

效标测量必须能真正反映观念效标,防止效标污染。

葛操教授讲义---心理测量学

效标污染(criterion contamination)是指评定者知道被试的测验分数,因而影响到对效标的客观评定。 d.实用性: 经济实用

3 实证效度的确定方法 (1)相关法

测验分数与效标测量之间的相关系数。 (2)区分法

测验→工作→效标测量(工作成绩)

测验后,去工作一段,回过头再看:工作成绩分高低两组,如工作成绩高,测验得分也高;工作成绩低,测验得分也低,说明该测验是有一定效度的。 (3)命中率 测验成绩

工 作 表 现 合格 不合格

合格 不合格

总命中率=(A+D)/(A+B+C+D), 正命中率= A/(A+C)测验选出的合格者实

25

A C B D

际也合格的占总人数的比例

葛操教授讲义---心理测量学

第三节 提高测量效度的方法

一、影响测量效度的因素

1.测验的构成

测验长度与效度的关系:

r(Kx)y = K rxy /√K(1- rxx +Krxx) 2.测验的实施过程 3.接受测验的被试

常模团体的同质性影响到对被试测验得分的解释,进而影响到测验的效度。 测验偏倚(test bias)是指用不适用于被试的标准来解释被试的测验得分,因而造成解释的偏差。 4.所选效标的性质

测量行为与所选效标的相似性越高,效度越高。

测验分数与效标行为之间是否是线性关系,如果不是线性关系,求皮尔逊相关就会低估效度。

效标本身的测量越可靠,效度就可能越高。 5.测量的信度

二、提高测量效度的方法

(1)精心编制测验量表,避免出现较大的系统误差 (2)妥善组织测验,控制随机误差

(3)创设标准的应试情境,让每个被试都能发挥正常的水平 (4)选好正确的效标,定好恰当的效标测量,正确地使用有关公式

26

第四章 项目分析

项目分析包括定性分析和定量分析。定性分析包括考虑内容效度、题目编写的恰当性和有效性等;定量分析主要是指题目难度和区分度的测量。

对项目进行筛选和修订,可以提高测验的信度和效度。

第一节 测验的难度

一、难度(difficulty)

1概念:难度,指项目的难易程度。

在最高作为测验中,称为“难度”,而在典型作为测验中,则指“通俗性”。两者都是指在总体中,能够正确或确切回答某项目的人数。 2 难度的计算

(1)二分法记分项目的难度

通过率 P=R/N

极端分组法(上下27%) P=(PH+PL)/2 (2)非二分法记分项目的难度

P=X / Xmax

X为所有被试在该项目上的平均得分, Xmax为该项目的满分。 KP-1 (3)允许猜测的题,矫正难度 CP= 三选一, 四选一,五选一 p=0.53,哪个难? K-1

二、测验难度水平的确定

效标参照测验、掌握测验:不考虑难度; 选拔测验:难度=录取率;

27

葛操教授讲义---心理测量学

对于选择题来说,难度一般应大于猜测概率;

无论是速度测验,还是难度测验,一般都应防止被试得满分,因为满分的意义是不明确的。

大体而言,难度为0.50时最理想,此时项目具有最大的鉴别力。但在实际操作中,让所有项目难度都到达0.50困难很大,而且也不必要,一般只需使项目的平均难度接近0.50,而各个项目的难度在0.50± 0.20之间变化。 测验的难度:

整个测验难度大,正偏态,分数集中在低分端 整个测验难度小,负偏态,分数集中在高分端

第二节 测验的区分度

一、区分度的意义

区分度(discrimination)是指测验项目对被试心理品质水平差异的区分能力或鉴别能力。

项目的区分度是测验是否有效的“指示器”。

二、区分度的计算

1 项目鉴别指数法

(1)鉴别指数(index of discrimination,D)的计算 D = PH - PL 取值范围:-1~ +1 (2)极端组的划分 27%规则

一般情况下,取上下25%~33%均可。 样本少时,可以取50% 注意:

由于计算机的方便使用,可以上下50%作为划分高低组的标准,或者多分几组,对区分度和难度作详细分析。因为只取上下两端,只利用了一部分资料,浪费了

28

葛操教授讲义---心理测量学

很多信息,有可能得出错误结论。

(3)大小的确定:美国测量专家R.L.Ebel提出:0.19一下,差,淘汰,0.20-0.29尚可,需修改, 0.30-0.39良好,修改会更好, 0.40以上,很好。 2 相关法(项目-总分相关)四种相关,自学

三、区分度与难度的关系

难度 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 区分度 0 0.2 0.4 0.6 0.8 1 0.8 0.6 0,4 0.2 0

难度和区分度都是针对一定团体而言的。

一般来说,较难的项目对高水平被试区分度高,较易的项目对低水平被试的区分度高。

29

葛操教授讲义---心理测量学

第五章 测验的常模

第一节、常模团体与常模

一、常模团体

1 导出分数及分类 (1)原始分数与导出分数

原始分数(raw score):将被试的反应与标准答案相比较而获得的测验分数。原始分数本身没有多大意义。

导出分数(derived score):按照一定的规则,针对原始分进行统计处理后获得的分数。导出分数具有一定参照点和单位,可以相互比较。 (2)根据解释分数时的参照标准不同,可以将导出分数分为两大类: ? 常模参照分数

? 标准参照分数:包括内容参照分数,结果参照分 2 常模团体:

参照常模解释分数,通常是将被试的分数直接或间接地以在某个团体中的相对等级或相对位置来表示。这个用来比较的参照团体,称为常模团体(norm group)。常模团体是有具有某种共同特征的人所组成的一个群体或是该群体的一个样本。常模团体的分数分布,就是常模(norm)。

二、确定常模团体的注意事项

1 群体构成的界限必须明确

对每个常模团体的性质和特征的简短且明确的描述。 2 常模团体必须是所测群体的代表性样本

克服取样偏差,采用正确的取样方法:随机取样,系统抽样,分层取样。 3取样的过程必须明确且有详尽的描述

在测验手册中,有关取样的大小、取样方法、取样时间等的说明和描述,越明确、越详尽越好。 4 样本大小要适当

30

从统计学原理上说,样本是越大越好,但考虑到经济、实用,样本数量也不能无限扩大。样本大小可以根据以下几方面来确定:

常模总体的数目。总体数目小,则样本数目也小;总体数目大,样本数目也应大。一般来说,样本最好应有30~100人;如果是全国性常模,一般应有2000~3000人为宜。

总体性质。总体性质越复杂,样本容量就越大。 测验结果的精确度。精确度要求越高,样本量就越大。 5 标准化样组是一定时空的产物 6 注意一般常模与特殊常模的结合

第二节、常用的常模参照分数(norm referenced score)

主要有:发展量表、商数、百分位、标准分数四大类。

一、 发展量表

1 发展顺序量表(ordinal scales)

格塞尔发展顺序量表:运动水平、适应性、语言、社会性

格塞尔认为,婴幼儿的行为系统的建立是一个有序的过程,反映了神经系统的不断成长和功能的分化,因而可以把每个成熟阶段的行为模式作为智能诊断的依据。

2 心理年龄(mental age)(智力年龄)

? 指被试智力发展水平的年龄。单位是年(或岁)和12个等距的月。 ? 年龄量表最基本的假设是,随年龄的增长,所测量的特质有系统的改变。因此,不适用于成人。

3 年级当量(grade equivalents)

? 即年级常模,用年级代替年龄,指把学生的测验成绩与各年级学生的平均成绩比较,看他相当于几年级的水平。

? 年级常模的单位通常为10个月间隔。如5年级的分布为5-0到5-9。 ? 年级当量只适用于一般课程,不适合只学1~2年的课程。

? 年级当量只适用于解释本学年的水平,不适用于跨学年的。如一个五年

31

葛操教授讲义---心理测量学

级学生的年级当量为8,并不能说他已经掌握了8年级的课程。

二、商数(quotient)

1 比率智商

IQ=100(MA/CA) 缺点:

? 实龄是等距的,而智龄不等距(智力发展不是直线的)

? 计算成人智商时,以多大实龄作为除数?智力生长何时达到顶点? ? 不同年龄组,比率智商分数具有不同的标准差,因而相同的比率智商对于不同年龄具有不同的意义。

2 教育商数

EQ=100(EA/CA)

儿童所受的教育相当于某个年龄儿童所受教育的平均水平,则他的教育年龄就是几岁。

3 成就商数

AQ=100(EQ/IQ)

用于说明智力发展与教育发展是否同步。

三、百分位常模

1 百分等级(percentile rank) (1) 概念

某个分数的百分等级就是在一个群体的测验分数中,得分低于这个分数的人数的百分比。百分等级指示个体在常模团体中的相对位置。百分等级越低,个体所处的地位越低。 (2) 计算

未分组分数资料

100R-50 (R为该分在群体中的排序) PR=100-

N

32

分组分数资料

100 (X-L)f PR = —— ———— + Fb N i L为原始分所在组的精确下限,f为所在组的频数,Fb为L以下的累积频率。 (3)百分等级评价:a单位不等。若原始分正态,转化为百分等级后,靠近中央部分的分数间的差异被夸大了,两端部分转化后的差异被缩小了。b是一种顺序量数,只表示一种相对位置,不能用来说明被试间分数差异的数量。百分等级分别为20、30、40,只能说谁高,不能说差异程度相等。c百分等级相对于特定团体而言,参照团体变了,百分等级也会变化。 2 百分点

相对于某一百分等级的分数点叫百分点或百分位数。 内插法求百分等级与百分点之间的转化。

3 四分位和十分位数

都是百分位数的两个变式。百分点将分数分布分成100个等份。四分位数将量表分成四等分,相当于百分等级为25%(25)、50%、75%对应的三个百分点分成的四段。

十分位是将分数分成10个等份。十分位提供一个10级的等级量表,每一级包括10%的分数。还可以有千分位数、万分位数。

四、 标准分数(standard score)

1 Z分数

X –Xˉ Z=—————— S

不仅具有可比性,还具有可加性。

Z = 0 SZ = 1,正态分布下,范围在-3~+3约占总体的99.73%。

2 标准分的转化

33

葛操教授讲义---心理测量学

除了Z分数外,还可以把Z分数转换成T分数、标准九、标准十、标准二十、离差智商等。 转换方法:

? 线性转换:从正态到正态

? 非线性转换:从偏态到正态(通过百分等级-转换成正态曲线分布下的面

积)得到正态下的标准分。

3 标准分的变式 ? T分数

纪念Terman和Thorndike。

T=10Z+50 平均数为50,标准差为10的标准分。

? 标准九(stanine)

标准化九级分制,标准九=5+2Z,即平均数为5,标准差为2

? 离差智商(deviation IQ)

IQ = 100 + 15Z , IQ = 100 + 16Z(比内)

? CEEB分数(College Entrance Examination Board)

美国大学入学考试委员会分数 CEEB分数=500+100Z

? EPT分数

EPT分数=90+20Z,我国出国人员英语水平考试分数。 还有标准二十=10+3Z 、标准十=5.5+1.5Z等

第三节、呈现常模资料的方法

一、转化表

转化表的3个基本要素:原始分、导出分、常模团体的特征描述。 1.简单转化表

2.复杂转化表

二、剖面图

34

葛操教授讲义---心理测量学

第六章 心理测验的编制与实施

第一节 编制心理测验的基本程序

一、确定测验目的

1 明确测量对象

年龄、性别、职业、受教育程度、经济状况、民族、文化背景等。 2 明确测量目标

编制的测验是测什么的,即测什么样的心理特征或人格特点 必须有操作定义,目标要非常具体。

3 明确测量用途

二、制定编题计划

通常是一张双向细目表,指出测验所包含的内容和要测定的各种技能,以及对每一个内容和技能的相对重视程度。 例:小学自然常识测验编题计划

生物世界 资源利用 动力与机械 物质与能量 气象 宇宙 地球 合计

知识 3 2 2 5 2 2 2 18 理解 5 3 3 6 4 5 2 28 应用 6 3 4 8 3 4 2 30 分析 3 1 2 3 2 1 1 13 综合 2 1 0 2 2 0 1 8 评价 1 0 1 1 0 0 0 8 合计 20 10 12 25 13 12 8 100 35

三、编辑测验项目

1 收集测验资料 (1)资料要丰富 (2)资料要有普遍性 (3)资料要有趣味性 2 选择项目形式

纸笔测验还是操作测验?是客观题还是主观题? ? 概念和原理的记忆——简答题 ? 辨别和判断——选择题 ? 综合运用——论文题 ? 幼儿——口头测验

? 文盲、半文盲、聋哑——操作测验 ? 人多——团体测验 ? 人少——个体测验 3 编写测验项目

? 题目范围要与双向细目表一致;

葛操教授讲义---心理测量学

? 题目数量要比最终所需要的数量多,以便筛选或编制复本; ? 题目的难度应有一定的分布范围; ? 用词力求清楚明白。

四、试测与项目分析

? 试测 ? 取样

? 施测过程与施测情景 ? 时限可稍宽一些 ? 记录被试的各种反应。 ? 项目分析

? 质的分析:内容取样、题目的思想性、表达是否清楚

36

葛操教授讲义---心理测量学

? 量的分析:难度、区分度、备选项分析

五、合成测验

1 测验项目的选择 指标有三:

? 要选择那些能够测量所要测量的东西的项目; ? 难度 ? 区分度 2 测验项目的编排 ? 并列直进式 ? 混合螺旋式

3 编制复本

各份复本必须等值。等值要符合下列条件: ? 各份测验测量的是同一种心理特性。 ? 各份测验具有相同的内容和形式。 ? 各份测验的题目不应重复。

? 各份测验题目数量相等,难度和区分度大体相同。 ? 各份测验的分数分布(平均数和标准差)大致相等。 复本编好后,应再测一次,以确保各份测验的等值。

六、测验标准化

测验的标准化是指测验的编制、实施、评分以及分数解释都有统一的标准,以减少无关因素对测验的影响。 1 测验内容

指测验内容对所有被试都一样。 2 施测过程 ? 测验情景 ? 指导语

37

? 时限 3 测验评分

为使评分尽可能客观,有三点要求:

葛操教授讲义---心理测量学

? 对被试反应的及时和清楚的记录。特别是对口试和操作测验。 ? 要有一张标准答案或正确反应的表格,即计分键。 ? 将被试的反应和计分键比较,对反应进行分类。

4 测验分数的解释 ? 常模参照

? 标准参照:内容参照,结果参照

七、鉴定测验

1 信度 2 效度

3 测验量表与常模

八、编写测验说明书

? 测验的目的和功用;

? 编制测验的理论背景以及选择题目的根据和 测验的构成; ? 测验的实施方法、时限及注意事项; ? 测验的标准答案和评分方法; ? 测验的信度和效度资料; ? 常模资料。

第二节 测验题目的编制技术

一、命题的一般原则

1. 试题要符合测验的目的。

38

葛操教授讲义---心理测量学

2. 内容取样要有代表性。

3. 题目格式不要使被试产生误解。

4. 文句要简明扼要,既排除与解题无关的因素,又不可遗漏解题所依据的必

要条件。要避免使用艰深的字词。

5. 应有不致引起争论的确定答案(创造力测验、人格测验除外)。 6. 各个题目必须彼此独立,不可互相牵连,不要使一个题目的回答影响另一

个题目的回答。

7. 题目中不可含有暗示本题或其他题正确答案的线索。 8. 题目内容不要超出受测团体的知识和能力。 9. 所提问题应避免涉及社会禁忌与个人隐私。 10.施测与评分省时。

二、测题的种类及编制

? 固定应答型题目,即客观题,包括:选择题、是非题、匹配题等。 ? 自由应答型题目,即主观题,包括:填充题、简答题、应用题、论文题、

联想题、操作题等。

1选择题

题干 + 选项(正确选项与诱答选项) 多项条件选择题:

例如:已知小明的心理年龄是8岁4个月,实际年龄是9岁,其智商是多少?

(a)85 (b)90 (c)92 (d)92.6 (e)100 类别选择题

例如:艾森克是著名的_______心理学家。

(a)儿童 (b)工程 (c)管理 (d)人格 (e)社会 异类选择题

例如:下面哪位与其他人不属于同一类人?

(a)小布什 (b)普京 (c)胡锦涛 (d)希拉克 (e)科尔 多项是非选择题

39

葛操教授讲义---心理测量学

例如:下面两个陈述哪一个正确? (1)2008年奥运会在北京举行。 (2)美国首都是费城。

(a)1和2都对 (b)1对2错 (c)1错2对 (d)都错 因果条件选择题

例如:如果测验的真方差增加,但误差方差不变,结果是: (a)测验信度增加 (b)测验信度下降 (c)测验总方差减小

(d)测验的信度和总方差不变

选择题的优点:适用范围广;计分客观;题意明确。 缺点:编制诱答选项较难;答案固定,测量范围有限 编写选择题的原则:

? 题干所提的问题必须明确

? 选项要简短,必要的叙述或相同的修饰语应放在题干中; ? 每个选项的性质要一致; ? 选项最好按逻辑顺序排列; ? 选项之间不应有重叠; ? 诱答选项的错误不要太明显; ? 不要把选项夹在题干中间;

? 每题只能围绕一个中心,不能有歧义。 2 是非题

? 每题只包含一个概念,避免两个以上的概念在同一题中出现,造成题目

似是而非,或半对半错。

? 避免使用具有暗示性的特殊词语,如“绝对”、“完全”、“有时”、

“可能”等。

? 尽量采用正面肯定的叙述,避免反面陈述或双重否定的句子。如“生物

没有不是由细胞组成的。”

? “是”与“非”的题数应大致相等,且随机排列。

40

本文来源:https://www.bwwdw.com/article/juo7.html

Top