基于IRT理论的计算机自适应考试系统的设计与实现8

更新时间:2024-05-27 00:27:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

分类号 密 级

学校代码 研究生学号

工程硕士学位论文

基于IRT理论的计算机自适应考试系统的设计与实现

The Design and the Realization of Computerized Adaptive

Testing System Based on the IRT Theory

学位申请人 詹沐清 徐远纯 副教授

材料工程 计算机应用 信息工程学院 2009-4-30

导师姓名及职称 工程领域名称 研所

究在

方学

向 院

论文提交日期

工程硕士学位论文原创性声明

本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。

作者签名: 日期: 年 月 日

工程硕士学位论文版权使用授权书

本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权景德镇陶瓷学院可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密□,在 年解密后适用本授权书。

本学位论文属于

不保密□。

(请在以上相应方框内打“√”)

作者签名: 日期: 年 月 日 导师签名: 日期: 年 月 日

- 1 -

摘 要

随着教育测量理论和计算机网络技术的发展,中国的教育考试也正在发生着悄悄的变化,由传统的基于经典测验理论(CTT)的固定题目、同一试卷的考试向基于项目反应理论(IRT)的计算机化自适应测试(CAT)的方向转轨。计算机化自适应测试能针对不同考生的特质水平进行因人施考,且测试结果与样本的选择无关;它能更准确、客观地反映考生的实际能力水平,测试周期更短而不影响测试的可靠性,是主流的测试类型。

本文首先分析了CAT的现状及发展趋势,然后对IRT(CAT的理论基础)的主要概念进行了具体阐述,简要介绍了CAT的实现原理,对其主要流程及算法进行了详细的说明。

接下来,在IRT项目参数估计模型中采用M M L E/E M算法进行参数估计,对IRT项目参数估计模型进行了改进,与仅用MMLE算法相比可大大简化参数估计的计算工作量,简化程序,并提高了估计的精度。同时,为了解决网络传输出现阻塞的问题,加快网络传输速度,减少系统的响应时间,采用一种运用特征函数计算出难度系数的简洁适用的方法,对CAT考试系统抽题策略进行了改进。并且提出了自适应考试系统的分析和设计思路,以建立一个《C语言程序设计》课程自适应考试系统为例,本文分析了系统的总体结构、各模块的详细设计、以及系统设计和实现时需要考虑的有关问题和涉及的相关技术。并介绍了《C语言程序设计》课程自适应考试系统的实际实现过程。重点描述了改进IRT考试模块的实现。

本文的最后结合本系统不足之处提出了一系列的改进方案,并进一步提出了今后的研究方向。

关键词: 项目反应理论 计算机自适应考试 .net

- I -

Abstrct

With the development of educational measurement theory and computer network technology, there are some underlying changes in educational examination system in china, from traditional fixed testing based on Classical Test Theory (CTT) to Computerized Adaptive Testing (CAT) based on Item Response Theory(IRT). In Computerized Adaptive Testing (CAT),tests are automatically tailored to the proficiency level of the individual examinees,and the testing result is independent of examination items. CAT can measure the real competency of the examinees more exactly and with more impersonality, and shorten the time needed for the test but without affecting the reliability of the test. So,CAT will be the mainstream of the future examinations.

This paper first sets out to analyze the present status and the latest development of CAT, then formulates concretely the main comprehension of the IRT一the theoretical basis of CAT,and then gives an explanation to the implementing method of CAT and to the flow and arithmetic of CAT.

In the following part, the paper tries to improve the parameter estimation model of the IRT item by employing M M L E/E M method in the parameter estimation model of the IRT item. Compared with the method of just employing MMLE, the new method greatly reduces the work, simplifies the procedure and improves the accuracy. Meanwhile, in order to solve the problem of online blockade, speed up the online transmission and condense the time needed for the system to respond, this paper improves the strategies of the CAT system for selecting examination items by adopting a simple but useful method of using a peculiarities parameter to work out the degree of difficulty. This paper also designs a practical system---“C Program Design” Course CAT system and gives out some analyses to it. Moreover, this paper introduces in detail the system collectivity structure,fine design of the system modules,some other problems and the correlative technology, and deseribes the course of how to practically implement the forenamed system,and the stress on the implementation of the test module.

In the end, the thesis points out the problems of the system that need betterment, provides some solutions for improvement, and puts forward research direction for further study.

- II -

KeyWords: Item Response Theory Computerized Adaptive

Testing .Net

- III -

目 录

摘 要 ........................................................................................................................ I ABSTRCT ................................................................................................................ II 1 引 言 .................................................................................................................. 1 1.1 现有考试系统的现状 ........................................................................................ 1 1.2 计算机自适应考试系统的发展现状 ................................................................... 2 1.3本系统目标和系统技术要求 .............................................................................. 4 1.4 本文主要内容简介 ........................................................................................... 5 2 自适应考试系统理论及基础 .................................................................................. 6 2.1 项目反应理论(ITEM RESPONSE THEORY)概述 ...................................................... 6 2.2 自适应考试(CAT)系统的原理 ....................................................................... 14 3 基于IRT理论的CAT系统的分析与设计 ............................................................... 18 3.1 CAT系统的开发工具及运行平台 ...................................................................... 18 3.2 系统的可行性分析 .......................................................................................... 19 3.3 系统的需求分析 .............................................................................................. 22 3.4 基于IRT的CAT系统的功能模块设计 .............................................................. 24 3.5 数据库的设计 ................................................................................................. 29 3.6系统安全性设计 .............................................................................................. 33 4 基于IRT理论的 CAT系统的实现 ...................................................................... 35 4.1 题库的设计和建设 .......................................................................................... 35 4.2 用户管理模块的实现 ....................................................................................... 35 4.3考试模块的实现 .............................................................................................. 40 4.4 IRT考试功能模块的实现 ................................................................................. 44 4.5 IRT算法的改进 ............................................................................................... 47 5 系统测试与系统运行分析 .................................................................................... 55 5.1 基于IRT理论的CAT系统的使用测试 .............................................................. 55 5.2 系统运行分析 ................................................................................................. 55 6 总结与展望 .......................................................................................................... 60 6.1 总结 ................................................................................................................ 60 6.2展望 ................................................................................................................ 60

I

致 谢 ...................................................................................................................... 62 参考文献 .................................................................................................................. 63

II

工程硕士学位论文 1 引言 1 引 言

1.1 现有考试系统的现状

学习和考试总是紧密结合在一起的,随着学习方式走向电子化、远程化,考试也在实现无纸化。无纸化考试系统就是把计算机作为工具来替代人类的手工出题、发题、身份验证、监考、收卷、阅卷、统分和试卷分析等过程,使得考试更加严格、真实可信,从而达到降低考试成本,提高考试效率的效果。同时组织考试的机构通过计算机简化了发卷、收卷、评卷等考试过程,对考生的答题情况可利用软件进行分析,以便进一步反馈指导教与学的活动,从而更加方便地利用计算机来组织考试。

传统的测验,所有考生,不论学习水平高低全部要接受同一试题的检测,结果对水平低的考生来说,那些难度偏大的试题,根本无从下手,反而引起焦虑,不利于测试,反应不出对应的水平。而对于高水平考生来说,那些难度小的试题,又测不出考生的真实水平,徒然浪费时间和精力[1]。实践经验和理论分析都证明,当题目难度与考生水平相适应时,题目所提供的信息量最大,考生的积极性最高,测验效度也就最好[2]。

目前,计算机“无纸化考试系统”因为安全系数比较高,利于组卷及评阅,自动化程度高,无纸化资源消耗低,已在各种考试中广泛应用。但绝大部分考试系统只是简单的利用计算机作为工具,将试题输入计算机打印出来而已,或者仅仅是将笔试改为上机测试,最明显的例子就是将测试题目放在网上进行测试。

总体来说,现有的网上考试系统能够为广大被测者在一定的范围内提供一些便利,具有较好的性能,也得到了广泛的应用,相对于传统测试已取得了较大的进步。然而,由于技术限制和其它部分原因,很多现有的网上考试系统在考试内容和考试形式上,已经大大滞后于教学的其他环节。

目前远程教育的大部分考试系统中,不足之处还是很多,主要表现在以下几点:

1、考试设计没有科学性

现有的考试系统由于缺乏先进考试理论的指导,往往只是把大量的试题简单的罗列起来收集到数据库中,但是,这些题目大部分只是按科目分类,没有针对试题的难度信息,知识点信息以及学生对该题目的反映情况等信息进行分析处理,因此这种考试系统不能设计出合理的试卷。例如对所有考生要么偏难要么偏易,不能真实反映被测试者的实际水平,也把握不了试卷的精度和难度水平;试题过度地集中在某类知识点和某些章节等

1

工程硕士学位论文 1 引言 情况;由于收集不到学生对试题的反馈信息,就无法进一步对试卷进行彻底的分析,也就无法总结经验,为下一次考试提供有价值的参考。

2、考试实施开放性不足

网络技术的引入使得考试系统可以在不同地域同时进行,但其前提条件首先必须是在指定的地点,不在指定地点考试将无法进行;其次,考试时间也是固定的,考生必须在规定时间参加考试,而且要在规定时间内答完试题;最后,所有被测者所检测的题目都是一样的。学生的考试成绩在很大程度上受到心理、生理和外界环境的影响,因此不同场次的考试之间无法进行比较,不具有可比性。

3、考试技术手段单一

与传统考试相比,目前还是统一出题,统一试卷,统一时间和地点,人工改卷,试题库试题少、涵盖范围窄。人工改卷,也增加了考试成绩的主观性,不利于反映出学生真实水平。 1.2 计算机自适应考试系统的发展现状

以上提到的当前考试系统的这些弊端使得网上考试难以被广泛采用,限制了网上教学与测试的发展。很多考试正是考虑到这些问题和困难以及解决问题的困难性,至今仍然采用很落后的方式进行。

而造成以上问题的根本原因就是考试理论的不足,因此,为了解决这些问题,有人就提出了以先进的考试理论作为指导来组织考试,来提高考试效率和考试的适应性、科学性。从而导致了计算机自适应考试理论(Computerized Adaptive Testing,简称CAT )的大量研究与应用。

在当前众多的新型考试方法中,基于项目反应理论(item response theory)

(Hambleton&swaminathan,

1985;Hambleton,

Swaminahtan,

&Rogers,1991;Hulin, Drasgow, &Parsons, 1983;Lord, 1980[3,4,5,6])的计算机自适应考试是近年来将计算机技术应用于教育测量学并取得重大进展的考试方法。

在1979年,CAST——著名的计算机自适应考试系统诞生于美国军方实验室,这是首个全国范围的CAT;在信息产业中,美国络维公司在1991年成功地应用了CAT进行认证考试,首次使参加络维自适应考试的人数超过了百万人次。现如今在美国,计算机自适应考试理论己经在教育测验、职业测量、人事评测等领域中广泛应用,如美国研究生入学考试(Graduate Record Examination)、全美护士国家委员会资格考试(Nurse National Committee License Test)以及工商管理类研究生入学考试(Graduate for Management and Administration Test)等都已经采用了CAT考试方式。

针对参加测试人数的限制,许多学者进行了大量研究,国外现有一些

2

工程硕士学位论文 1 引言 大型自适应考试系统软件,如麻省理工学院心理学实验室研究设计的BIGSTEPS软件,可处理3300个项目和35000个考生的数据。美国教育测试中心和麻省理工学院的专家共同开发研究的BILOG软件,能处理3000个项目,尤其是被测者数量不限,很适合国内当前的大型考试分析。美国“测试系统公司”(ASSESSMENT SYSTEMS CORP0RATION)在全球计算机测试系统中首屈一指。该公司的FastSimpleTEST Professional是一套基于局域网和可视平台的多媒体在线测试软件,也可用于自适应测试。使用该软件测试可产生是非判断题、配对题、多项选择题(最多可达40个选项)等,同时支持音频、视频和图形等多媒体文件,还具有随机出题、实时随机、题目衍支、关键词查询、统计分析等功能。其中的功能模块具有暂停、点播或预览题目、跳越题目、局域网管理、显示题数、实时时钟、题目反馈、限定及格线等功能。有消息表明自适应考试是微软今后考试的主要类型[7]。

在我国,已经有大批学者和机构进行了CAT应用型的研究,自行进行了一些CAT测验,并取得了实际的运用效果,如北京理工在北京市计算机应用能力的考试项目“VB6.0程序设计”中已采用了CAT的考试设计方法。江西师大小学数学CAT研究[8]、华南理工大学的“数据结构”自适应测试系统的研究也取得了一定的成果。江西师范大学丁树良的“一个计算机化自适应考试系统”采用VB6.0和SQL 7.0开发。杨琳的基于Web的自适应考试系统采用SQL 7.0和ASP.net开发。使用的考试系统很多还是没有采用CAT的形式,但

目前国内CAT应用于考试系统的还不是很多,但对IRT的研究与应用逐渐得到了教育部门的普遍关注,也取得了一定的成绩,自上世纪九十年代初期开始,全国大学英语四、六级考试委员会一直致力于项目反应理论和“计算机自适应测验”的研究和开发[9],相信在不久的将来会实现这一突破。在不远的将来,CAT将成为所有重要考试的主要形式,在社会各个方面发挥重要作用。

但是,要真正彻底地实现计算机自适应考试,能作到在考试过程中,由考生对某一题目的难度来及时确定出相适应的考试策略,这还是有相当难度的。主要表现在[10]:

1、及时响应和大量统计的矛盾

这种方法是建立在大量计算和大量统计的基础上的,系统在考虑及时响应的时候会碰到高效地进行大量计算的问题。怎样才能在每一次完成作答之后计算出学生的能力水平并使考试过程适应考生的能力水平,同时又不影响到系统计算的及时性,这是目前最大的困难,也是亟待解决的问题。

2、难以确保参数估计的精度

3

工程硕士学位论文 1 引言 CAT最大特点就是基于参数估计,是由考生在上一个作答中的表现进一步来估计该考生的能力水平,此次的作答结果作为下一次估计的依据。这样,一旦某一次参数估计出现偏差,可能就会导致偏差越来越大,对至于最终的参数估计不适用。

3、系统的可靠性无法得到保证

当举行大规模的考试的时候,比如全国范围内的计算机等级考试、高考等,由于是基于网络的考试,一旦网络出现问题,后果将不堪设想。即使网络能确保不出现问题,如此大规模的考试要保证系统交互的及时性,网络流量和容量的要求也是非常高的。

CAT在理论上已经比较成熟,但在实际应用中,还是难以保证,需要在实践中不断验证和完善。

总而言之,目前国内的CAT研究还处于小规模应用或者是部分实现阶段,大规模投入使用还有待各方面研究有进一步的突破。 1.3本系统目标和系统技术要求

1、总体目标:

以科学的自适应考试理论为指导,结合先进的项目反应理论,设计、开发出高性能、适应性强的网上考试系统。

2、具体目标:

(1)、以大容量试题库为基础,应用IRT,实现计算机自适应考试; (2)、打破现有考试指定具体统一时间的限制,让学生在自己认为最佳状态时参加考试,使考试尽量真实地反映出学生的水平;

(3)、尽可能提供考试到考分查询的一系列全面功能; (4)、加强数据管理和维护,保证数据的权威性和一致性;

(5)、结合网络技术,打破地域空间限制,为系统的推广创造条件; (6)、增强系统后台管理能力。 3、本课题关键技术在于:

(1)、技术上,以CAI理论为基础,如何迅速根据考生以前的答题情况决定下一个或一批试题,即参数估计的大量计算问题;

(2)、如何在当前网络条件下,高效地保证系统的运行速度; (3)、如何保证题库设计的科学性。包括大容量试题库的收集、整理和分类。

4、该系统实现并投入使用后,预期有以下效果:

(1)、考试形式将改变。现有考试将不再使用统一试卷、统一时间、统一地点的方式,被测者可以自已决定何时何地进行测试,系统引导考生进入系统后,根据考生信息生成试题,再根据考生作答情况进行分析,给出

4

工程硕士学位论文 1 引言 下一道题目。因此,系统会根据考生答卷情况随时修改出题策略,理论上不会出现相同试卷,考生所花时间也会不同。但是,由于技术和环境的问题,目前还是不能做到在任何地点均可进行测试。

(2)、监考方式将改变。在新系统下,监考人员的任务简化为只需确认考生身份,因此,很大的区域可以只设一个监考人员,从而减少投入。

(3)、简化考务处理。在新系统下,可以大大减少人力物力的投入。 1.4 本文主要内容简介

本系统着眼于现有的网上考试系统的现状,分析其主要的不足,引入了计算机自适应考试系统的概念,力图使考试可以在任何时候、任何地点都可以进行,并且,考试过程和考试时间也根据学生的水平而有所不同,以使考试的方方面面都可以根据学生的不同而自适应调整的。

分析了引入自适应考试系统的困难,本文提出将IRT引入到系统的实现中,来帮助解决多参数复杂模型的准确估计和计算量大的矛盾以及保障系统交互性和可靠性的困难。

本文主要内容如下:

在第一章中,本文首先详细分析了现有考试系统的缺陷和不足,以作为本系统开发的主要依据,并提出了研究本系统的意义所在;

第二章介绍了计算机自适应考试理论的原理和主要的实现思路,重点介绍项目反应理论,及对开发的指导意义;

第三章对基于IRT理论的CAT系统进行总体设计与分析,对系统的各功能模块进行了设计,介绍了系统设计过程;

第四章采用M M L E/E M算法进行参数估计,对IRT项目参数估计模型进行了改进,采用一种运用特征函数计算出难度系数的方法,对CAT考试系统抽题策略进行了改进,介绍了基于改进的IRT理论的CAT系统的实现,对用户管理模块、考试模块、IRT考试模块进行了详细的阐述; 第五章对系统进行了测试及实例分析;

论文最后对系统的设计开发过程进行了总结,展望了自适应考试系统的发展趋势,提出了今后的研究方向。

5

工程硕士学位论文 2 自适应考试系统理论及基础 2 自适应考试系统理论及基础

2.1 项目反应理论(Item Response Theory)概述 2.1.1项目反应理论

CAT测试是建构在现代测试理论——项目反应理论(IRT)基础之上的,从试题库的建设到试题的选择再到最后的改卷,都是在IRT指导下进行的。CAT因此也被认为是现代测试理论对测试的最大贡献[11]。Hambleton和Swaminathan对项目反应理论作了如下定义:在测验情景中,通过定义被试的特征,即特质或能力、估计被试在这些特质上的得分(称作能力分数)、并运用这些分数来预测或解释项目以及答题情况,来解释和预测被试的作答[12]。特质(能力)和项目(试题)是IRT的两个核心概念。两者之间的关系是IRT的主要内涵。IRT和其指导下的计算机化自适应考试主要研究内容和理论支撑有:参数估计、测验等值、选题策略和终止规则。 2.1.2 项目反应理论的发展

当今主要有两种考试指导理论:(1)经典测试理论(CCT),(2)项目反应理论(IRT)。通常纸张考试和传统考试都基于经典测试理论,它是以信度、效度、区分度等统计特征量为中心的测试理论,它的主要问题是这些统计特征量与被测试的样本数据有关。被测试的样本不同,求得的统计特征量的数值也不同,这显然是不合理的。项目反应理论正是基于这种情况下出现的。它的最大的优点是项目参数的估计与被测试的样本无关。它根据被测者对问题的回答情况,通过题目特征函数的推算,来推测被测者的能力。项目反应理论研究中的一项重要工作就是确定项目特征曲线的形态,然后得出项目特征函数(item characteristic function;简记为ICF)。人们常说的项目反应模型通常就是指项目特征函数[13]。

项目反应理论的基本思想起源于上世纪30年代末至40年代初,在1948年,维克(Tucker)正式提出了“项目特征曲线”概念,把表征被测试者的能力或特质水平与其对一个测验项目的正确反应概率之间的关系描述为二维的曲线图。

1953年,美国教育测量学和心理学家洛德(Lord)提出了著名的正态卵形模型以及该模型的参数估计方法,并成功地将他的模型应用于实践。随后,在1958年,伯恩鲍姆(Birnbaum)提出了便于处理的逻辑斯蒂(Logistic)模型以及相应的统计计算方法,取代了洛德的正态卵形模型,进一步推动了项目反应理论的发展。

6

工程硕士学位论文 2 自适应考试系统理论及基础 自上个世纪80年代以来,项目反应理论在其各个方面,如测试设计、参数估计方法、测试等同化、自适应测试等方面,都取得了很大的发展。当前人们对项目反应理论的研究工作,主要在两方面,在理论方面侧重于连续变量测验资料和多维情况下的数学模型探索上;而在应用方面,则侧重于模型——资料拟合深度检验方法和参数估计方法的改进,以及项目反应理论在测试编制、测试参数等值、题库建设等实际问题上的应用。 2.1.3 项目反应理论的基本原理

大家都清楚,考试的目的在于用测验分数来将表达被测试者不能直接测量的内部潜在特质,从而推断和评估其能力水平。项目反应理论是建立在潜在特质理论的基础上的,它通过建立一定的项目反应模型来描述这种关系的。项目反应理论的最大特点是:它找到了一条项目特性曲线并且以多种数学表达式(即数学模型)来描述它和逼近它,形成了不同的项目反应模型[14]。显然,不同的数学模型对曲线有不同程度的逼近也含有个数不同的参数。项目特性曲线的数学模型一般来说均包含两方面的参数: [15]

一是用来刻画测验项目的特征的项目参数; 二是用来刻画考生特征的能力参数或称潜在特质。

根据以上参数,可以对测试项目的质量做出评价,也可以测算出单个考生自身在任一测验项目上的反应,从而估计出潜在特质的量数,即考生完成测验项目时所真正具有的能力或特质。从理论上说,彻底解决了经典测验理论无法建立测验项目参数之间与考生得分两者间函数关系的问题。 1、基本假设

项目反应理论的基本假设主要有三方面: (1)、潜在特质空间的单维性假设

所谓单维性假设,指测试只测量被测者的某一种能力(如阅读能力),而可以忽略其他能力对测试结果的影响(如判断能力)。也就是说,被测者对测试项目的反应只受一种能力水平的支配而不受其他能力水平的影响。

但实际上,任何测试都不可能是单维的。影响被测者对测试项目反应的因素,除了该测验所测量的能力或特质外,通常还包括测验情景、个性以及认知等方面的因素,如测验焦虑、外界环境等。因此,项目反应理论的关于测验的单维性假设并不是真正意义上的单维性假设,首先该因素是测试所要测量的能力或特质,并且在所有影响被测者反应的因素中占主导地位,且这种主导地位是唯一的,那么这样的测验可认为是单维性测验。

(2)、局部独立性假设

局部独立性假设是指对同一特质水平或能力的被测者能力而言,项目间不存在相关性。这与一维性假设一个道理,它是指被测者对测试中不同

7

工程硕士学位论文 2 自适应考试系统理论及基础 题目的反应在统计上是互不干扰的,是独立的。也就是说考生在其他题目上的正确反应概率不会影响到在此次测试中对某题目的正确反应概率。可以认为,被试者对某一测验项目的反应只与该测验项目本身的性质有关,不会受到其他测目反应情况的影响。

同理,在同一项目上各被试者的作答也是互不干扰的,仅由被测者的潜在特征决定,一个被测者的成绩不会影响别的被测者的成绩。

(3)、项目特征曲线假设

指考生对项目所作反应的概率遵循一定的函数关系,这种函数关系可以用项目特征曲线形式展示出来,是对考生某项目的正确反应概率与其能力之间的函数关系所作的模型。 2、项目反应模型

不同的项目特性曲线假设对应着不同的项目反应模型,当前应用最多的二级评分的单维非线性项目反应模型,以伯恩鲍姆提出的逻辑斯蒂模型为代表。多维模型及连续性模型比较复杂,目前都还处于研究阶段。下面着重介绍两种二级评分项目反应模型:最优量表模型和逻辑斯蒂模型。

(1)、最优量表模型

最优量表模型是古特曼提出的,所以又称为古特曼模型。古特曼认为,对于一个测验项目,如果被试者的相应能力或特质θ达到或超过了难度水平b,那么被试者就能对此项目作出正确反应,反之则不能。如图2—1所示,古特曼模型的相关被试曲线是一条阶梯曲线,图中的b通常被称为项目难度。

图2-1 古特曼模型

在实际测量中,大量的分析和统计结果表明,大多数情况下,即使被试者的能力或特质水平θ达到或超过了某个水平b,被试者也不一定能对难度为b的项目作出正确的反应;反之亦然。所以,古特曼模型存在很大的局限性,在实际中很少应用。

(2)、逻辑斯蒂模型

8

工程硕士学位论文 2 自适应考试系统理论及基础 逻辑斯蒂模型是伯恩鲍姆于1958年提出的。他假定的项目特性曲线如图2一2所示。

图2-2 逻辑斯蒂模型

项目特性曲线反应的是各种特质水平的被测者(一般用θ表示),对某一测试项目的正确反应概率(一般用P(θ)表示)。一定特质水平或能力的被测者对某一项目的正确反应概率与无其它因素无关,只由该项目的质量决定。

通常情况下,被测者的特质水平可看作连续变化的,因此,反映各特质水平上被试者的答对概率的连线就必然成一条平滑的曲线。因为特质越高的被试者答对概率越大,因此这条曲线是一单调递增函数曲线。经研究,被测者的答对概率与其特质水平之间的关系是非线性的,即当特质水平θ大或小到一定程度以后,答对概率P(θ)随之变化的速度显著变小。经研究发现,这种曲线的形状,是一条以其拐点为中心的如图2-2所示的S型曲线。

通常情况下我们可采用项目难度、项目区分度和猜测参数三个指标来描述某一测验项目的质量。从图2-2中可以看到,项目特性曲线下部的渐近线离坐标轴的零点存在一点距离,这就充分说明由于存在猜测因素,特质水平或能力很低的被测者仍有可能碰运气答对。该项目的猜测参数,通常用c来表示,它是凭猜测答对该题的概率。在前面我们提到,项目特性曲线是一条以拐点为中心的曲线,因而其拐点在纵轴上的投影正好落在c与1的中心上,即拐点的纵坐标为(1+c)/2。这表明特质水平为b(拐点在横轴上的投影)的被测者在排除猜测因素不计的情况下,与答对、答错该项目的概率恰好彼此相等。因此b一般被定义为项目的难度参数。项目特性曲线拐点处的斜率反映了曲线的陡峭程度,这与项目划分被测者特质

9

工程硕士学位论文 2 自适应考试系统理论及基础 水平的能力有关。很显然,曲线越陡,答对概率P(θ)对特质水平的变化就越敏感,即项目区分被试者水平的能力越强。因此,曲线拐点处的斜率被称为项目的区分度参数,通常用a表示。

用来描述项目反应模型的数学函数称为项目反应函数。根据以上的分析可以得出,项目反应函数就是描述被测者答对概率P(θ)与项目的参数a、b、c和被试者的特质水平θ在数值上的关系。逻辑斯蒂模型得名于伯恩鲍姆选择用来描述项目反应模型的数学函数是逻辑斯蒂拱形函数族。根据参数的不同,特征函数可分为单参数、双参数和三参数三种模式,它们的数学表达式分别为:

单参数模式: 1 ? e ? D( θ ? b) (2-1)

P(?)?11? )双参数模式: P ( ? ? Da( θ ? b) (2-2)

1?e1三参数模式: P ( ? (1 ? c θ ?b) (2-3) ? ) ? c) ?Da(1?e

其中:D=1.702为量表因子常数;D:受测者能力值;P(θ):能力为θ的人答对此题目的概率。a:题目的区分度,即特征曲线的斜率,它的值越大说明题目对受测者的区分程度越高。b:题目的难度,即特征曲线在横坐标上的投影。c:题目的猜测系数,即特征曲线的截距。值越大,说明不论受测者能力高低,都容易猜对本道题目。

项目反应理论具有以下优点: (1)、题目参数估计更为准确。 (2)、全面解决考试等值问题。

(3)、定义了信息函数这一综合质量指标,作为更科学地挑选题目的标准。

(4)、适合编制自适应考试系统。

通过对比,可以发现二参数模型和三参数模型两者之间有着非常紧密的联系。如果用P2来表示二参数模型,用P3来表示三参数模型,则有P3=C(1-P2)+P2,该公式表明被测者回答项目正确的概率由两部分构成。一部分是由于考生理解该项目,知道该项目正确应答的P部分,它是由考生能力决定的;另一部分是考生对该项目并不理解,只是由于猜测、推断等原因,偶然地给出正确应答的C(1-P2)部分,它是由于偶然因素(如运气)所造成的。在计算机标准化考试试题中,一般是四选一的单项选择题目。这就必需要考虑到存在考生偶然猜测成分因素。因此一般情况下均以三参数模型为基础来构造计算机自适应考试系统。

10

工程硕士学位论文 2 自适应考试系统理论及基础

图2-3 二参数和三参数模型的比较

从图2-3可以看出:当测试项目可以通过猜测等因素而作出正答的可能时,选用三参数模型比二参数模型更适宜。 3、项目信息函数和测试信息函数的意义

对于一个给定的项目(项目参数一定),它对不同被试的能力水平的分辨能力如何呢?或者说,被试者对一个项目作答后能带给我们关于被试者能力水平的信息有多少呢?被试者作答一个项目的得分反映其能力水平的精度有多高呢?为了回这一问题,项目反应理论引入了一个项目信息函数。项目信息函数(item information function,简称IIF)在测验的发展与编制上,以及试题好坏的诊断上,扮演着举足轻重的角色,因为它能反映出试题对能力估计正确性的贡献量的大小。[16,17]

项目信息函数的定义:

?Pj(?)]2??Ij(?)? (2-4) Pj(?)[1?Pj(?)][根据上述定义,我们可以计算出:

二参数项目反应模型的项目信息函数为:Ij(?)?1.72a21?Pj(?)]. jPj(?)[三参数模型的项目信息函数为:

为了帮助学生理解项目信息函数的意义,我们仍采用数值方法来讨论项目信息函数。

(1)、就某一个测试项目而言,当项目参数一定时,I(?)只是?的函数,因此它可用来描述测试项目对不同能力水平的被试者进行测试的有效

11

1.72a2j(1?cj)Ij(?)? (2-5) [c?exp(1.7a(??b))][1?exp(?1.7a(??b))]2jjjjj工程硕士学位论文 2 自适应考试系统理论及基础 性。在经典测验中将测验的效度用于所有被试者,而不考虑其能力水平。

(2)、当?一定时,某一测试项目所能提供的信息量只取决于项目参数。

图2-4 区分度对信息函数的影响

图2-4(??1,b=0.921,c=0.2)表明:项目区分度参数越大,项目信息函数值也越大。

图2-5 (??1,b=0.921,a=2.0)表明:猜测参数越大,项目信息函数越小。

图2-5 项目猜测参数对信息函数的影响

从图2-6(a=2.0,b=0.921,c=0.2)可以看出:同一个项目在测验高、中、低水平的被试者时,它所提供的信息量是不一样的。当被试能力参数接近项目难度参数时,信息函数取得极大值。可实质上是,只有当被试能力水平略大于项目难度时,提供的信息量最大,且测验结果的效度和信度以及被试接受测验的积极性均可大提高。这就是我们在自适应测试中选择试题提供理论的依据所在。

12

工程硕士学位论文 2 自适应考试系统理论及基础

图2-6 同一项目中信息函数与被试能力水平的关系

由上述分析,不难计算出信息函数为最大时的能力参数为:

1?max?bj?ln[0.5?0.51?8cj] (2-6)

1.7aj通过以上分析,我们可以得出一个结论,即项目信息函数是反映试题优劣的一个综合指标。

若我们假设被试参加各个项目的测试是相互独立的(不同测试项目之间没有相互影响),则当测试中包含n个项目,且每个项目j的项目信息函数为Ij(?),各测试项目总的信息函数为测试信息函数:

nI(?)??Ij(?) (2-7)

j?1测试信息函数表示了对于各种上千个不同被试,测试整体的测量精度。信息函数的可加性表明:组成测验的各个项目的质量越高(项目信息函数越大),它所提供的信息量也越大,从而根据整个测验所获得的数据资料而估算出来的被水平也越精确、越可靠。由此可见,测验信息函数是反映测验有效性的一个客观而精确的指标。 4、参数估计

每一个项目的选取都不是随意的,它是根据被测者先前的答题情况采用某种选择策略而进行的。具体步骤是首先根据对考生的能力进行估计,再挑选当能力值为θ时,具有最大信息值的项目max I(θ)。现代测验中估计能力参数θ的方法中,最为普遍使用的方法是最大似然估计法[18]。

若以 =1;答错, 其中: n:题目数

13

表示能力为θ的受测者对题目j的反应为 =0)的概率。则

(若答对,

(2-8)

工程硕士学位论文 2 自适应考试系统理论及基础 :受测者答对第i题的概率 :受测者答错第i题的概率

公式2-8通常称为似然函数,我们要对每一个反应向量( 式2-9)逐次迭代,求出能力的极大似然估计值

其中:

为第t+1、t次迭代的能力估计值。

; (2-10)

求出相应的θ值,使似然函数的值为最大。我们以Newton-Raphson法(公

(2-9)

; (2-11)

(2-12)

D:1.702 i:题目编号

:第i题的区分度、难度、猜测系数 :受测者答对第i题的概率 :受测者答错第i题的概率

:受测者的反应(答对为1,答错为0)

采用极大似然估计法估计受测者能力值的最大好处是简便实用,它比较适合于题目较多的情况。在本系统我们采用专家意见和极大似然法相结合的办法确定受测者能力。

2.2 自适应考试(CAT)系统的原理 2.2.1 什么是CAT

CAT是用项目反应理论建立题库、由计算机根据被试能力水平自动选择测试题目并最终对被试能力做出估计的一种新型测试。它有别于传统的纸面测试,它的试题呈现和被试者对试题的解答都是通过计算机完成的;CAT与一般的计算机化测试又有所不同,计算机在测试过程中不只是呈现题目、输入答案、自动评分、得出结果,而且要根据被试对试题的不同回答,自动选择最适宜的下一测试试题,最终达到对被试能力做出最适当的

14

工程硕士学位论文 2 自适应考试系统理论及基础 估计,因此,CAT是“因人施测”的。

比较早应用自适应测试的例子是1912年Binet所作的智力测验的研究。随后一度中断好久,直到60年代中期,洛德在教育测验服务社期间进行了比较完整的通盘研究。因为洛德感觉到,针对高水平与低水平的考生而言,固定长度的测验无法有效地满足这些考生能力估计的需求,而CAT则能解决这一问题,因此极力投入这一研究之中。洛德认为:如果被挑选用来施测的试题都能针对每位考生能力提供最大的参考讯息的话,则缩短测验的长度(即减少施测的题数)应该不会降低对每位考生能力的精确测量。从理论上来说,每位被试者所接受的施测试题,应该都是不同的试题组。计算机化自适应测试具有以下其它测验无法相比的优点:[19,20]

(1)、它可以因人而异地选择试题,试题针对性强,能够用较少的题目、较精确地估计被试者的能力水平。

(2)、它可以由被试者自由选择测试的时间,不必规定统一测验的时间。这是因为计算机化自适应测试是因人而异的,不同的被试者面对的试题是不一样的,因此没必要因害怕泄露试题而规定统一的测验时间。

(3)、有音频、视频和图像文件,使用多媒体技术,可产生各种生动、形象的情景,使测验呈现方式能满足多种测验目的,同时更能激发被试者的测验动机。

(4)、能第一时间了解测试结果,并能在短时间内通过网络将测试结果传送到所需的各个地方。

2.2.2自适应考试(CAT)系统的原理

难易适中的试题,对估计考生能力的精确性最为有效。一份试卷的试题难度,很难满足或适合每位被试者的能力水平,而自适应测试方式则解决了这一难题,它能做到试题难度随考生能力不同而调整。而最适合在自适应测试中作应用的,便是项目反应理论。CAT是在项目反应理论基础上发展起来的一种测试,它是一种在项目水平上进行分析的测试。

在CAT过程中,呈现给被试者的试题顺序,是依据被试在前一个试题的作答情况的表现情况来作决定的。根据被试者先前的表现好坏,下一个要呈现给被试者作答的试题,便是对被试者能力估计精确性最有贡献的最大讯息量的试题。这样一来,测试的长度便可以缩短,并且也不会牺牲任何的测量精确性;因为对于高水平的考生,没有必要给他相当容易的试题进行测试,而对于低水平的考生,也没必要给他难度非常大的的试题进行测试,因为这些试题对他们的能力水平的估计而言,只能提供极为有限或丝毫没有帮助的讯息。因此,实施计算机化自适应测试,不仅可以做到因材施测的精确估计考生能力的地步,也可以节省许多施测时间和成本,可

15

工程硕士学位论文 2 自适应考试系统理论及基础 说是至少事半功备,一举两得。

在开始进行计算机自适应测试之时,先由计算机终端机随机呈现一组测试试题,在考生作出反应之后,计算机便根据这些反应资料,估计出考生的初步能力估计值;然后,计算机会根据这些初步能力估计值,从现有的题库中挑选出最能对能力水平的估计发挥最大贡献力量的试题(通常这些试题的讯息量也是最大),再呈现这些试题给考生作答;这样,随着被试做的题目增多,计算机对他能力的估计精度越来越高。这种施测过程一直继续下去,直到事先预定的施测题数已测完,或某种预定的能力估计值的测量精确性己获得为止。

具体的自适应考试模型设计如下[21]:

(1)、起点问题:我们把难度平均值为中等或者是教师直接手动生成的试卷作为初始项目,当被试者完成该初使项目后,得出试卷中每道试题的答题正确率,并统计整套试卷的答题正确率,如果该值偏高(高于某一预先设定的值),则认为对于这一考生群体来说本套试卷平均难度值偏低;如果正确率偏低(低于某一预先设定的值),则认为对于这一考生群体来说,本套试卷平均难度值偏高。

(2)、能力估计:该系统采用最大似然估计法通过被试者的似然函数区最大值来求被试者的能力参数θ:

L(x1,x2,x3,...,xn|?)??Pj(?)jQj(?)j?1nx1?xj n

?lnL(x1,x2,x3,...,xn|?)??[xjlnPj(?)?(1?xjlnQj(?))]j?1 ln( ? n ) ? max(ln ? ) (2-13) (3)、项目选择(选择题目):当被测者完成作答后,系统对此次作答进行测试项目分析,得出考生的能力参数θ,再根据能力参数θ来计算考生群体的能力值P (θ)。本系统采用项目反应的Logistic模型中的双参数模式:

?Da(θ?b) 1 ? e , (2-14)

P(?)?1其中,a和b分别取该套试卷的平均难度值和平均区分度值。把计算得出的能力估计值P (θ)作为下次出题时的难度参考值,在出题算法中运用。

(4)、终止原则:一般情况下,自适应算法是针对单个考生而言的,因此针对该考生的测试必须有一个结束的过程,这就需要用到终止原则。而在本系统中,不考虑单次考试的自适应,而是把本次考试结束后分析得到的修改建议保留到下一次系统组卷时使用,因此不考虑终止原则。自适应考试流程描述如下图2-4:

16

工程硕士学位论文 2 自适应考试系统理论及基础

图2-7 自适应考试的流程描述图

根据图2-7 看出,出题者根据组卷策略确定不同类型试题的难度值生成试卷,被试者答题。出题者再根据答题的结果判断被试者能力,然后再计算新的难度值,如此循环。在本系统中,不存在单次考试的自适应,而是把本次考试得到的参数修改保留到下一次系统组卷时使用,因此不考虑终止原则。

17

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

3 基于IRT理论的CAT系统的分析与设计

3.1 CAT系统的开发工具及运行平台

(1)、操作系统:Windows 2000 Server/Advanced Server/NT Server

微软公司的Windows系统不仅在个人操作系统中占有绝对优势,已在网络操作系统中也是具有非常强劲的力量。这类操作系统配置在整个局域网配置中是最常见的,但由于已对服务器的硬件要求较高,目前的稳定性能不是很高,所以微软的网络操作系统一般只是用在中低档服务器中。在整个Windows网络操作系统中最为成功的还是要算Windows NT 4.0这一套系统,它几乎成为中、小型企业局域网的标准操作系统,一则是它继承了Windows家族统一的界面,使用户学习、使用起来更加容易;再则已有的功能也的确比较强大,基本上能满足所有中、小型企业的各项网络需求。虽然相比Windows 2000/2003 Server系统来说在功能上要逊色不少,但对服务器的硬件配置要求要低许多,可以更大程度上满足中、小企业的PC服务器配置需求。

(2)、开发工具:VisualStudio.net2005环境

.NET——微软的说法是“.NET被定义为:是为简化在第三代因特网的高分布式环境下的应用程序开发,基于开放互联网标准和协议之上的,实现异质语言和平台高度交互性,而构建的新一代计算和通信平台。”[22]也就是微软以服务的方式递交软件的一种策略。.NET推出的初衷是为了使现有的WWW不仅是一个信息发布平台,而成为一个拥有超强计算能力的智能平台。Internet发展到现在,通过HTML、ASP等技术可以把界面轻松的送到Web上,但是直接把函数发布到网上,从而使客户像浏览页面一样轻松地调用还不太可能。各种不同的编程语言、实现平台、底层硬件都增加了这个问题的复杂程度。DCOM、CORBA等就是具有函数发布的雏形系统。它们在小范围内效果很好,但一旦面向Web,就力不从心了。.NET就是为解决这些问题而推出的一套解决方案,他通过三个组件:.NET框架、Web服务、.NET企业服务器来实现这一目标。Microsoft.NET将创造出真正的分布式网络服务,它能够整合并协调为数众多的辅助程序,为消费者提供独到的服务——而这正是今天的网站所梦寐以求的。Microsoft. NET将推动新一代因特网的发展。它将真正地让人们可以在任何时间、任何地点、通过任何设备得到信息。.NET框架实际上是未来的.NET战略平台。它是所有.NET应用的基础框架,提供创建、部署和运行.NET应用的环境。.NET框架也是异构平台互通的关键。任何支持.NET框架的硬件系统

18

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

将能够无缝地进行对话,或者对未来的.NET应用而言,不用考虑应用的执行平台,而仅考虑.NET框架。

作为网络系统开发工具,ASP、JSP、PHP均有各自的优点和不足,但综合来看,微软公司ASP.NET有强大的技术支持和运行平台(Windows),用它开发的软件,无论在运行、调试、移植等方而均具有较大优势,因此本系统选择使用ASP.NET作为软件开发工具。

运行环境

(1)、服务器端运行环境

B/S(Browser/Server)模式,是C/S(Client/Sever)模式发展到一定阶段后的产物。它以Web技术为基础,将传统C/S模式中的服务器部分为数据库服务器和Web服务器,从而变成三层结构。B/S结构本质上也是C/S结构,但不同的是在B/S模型中,客户机上运行的应用程序是浏览器。客户机要访问数据库时,就要向Web服务器发出请求,Web服务器通过数据网关与数据库相连,负责与数据库的数据进行交换。

B/S模式系统的运行规模、稳定性等特性主要取决于服务器端的配置和网络系统的配置,如果采用三层B/S模式,则需要WEB服务器和数据库服务器两个服务器,本系统考虑到硬件投入等综合因素,建议在小规模企事业单位使用时可将WEB服务和数据库服务综合于一台性能较好的服务器上,以降低成本。

(2)、客户端运行环境

B/S模式的系统是一种“瘦客户端”方式,即客户端计算机只须安装操作系统和浏览器,接入网络,无须作任何特殊处理即可实现系统访问。 3.2 系统的可行性分析

本研究为考试系统设计与实现的研究,是一个实践性很强的应用课题,从考试试题类型的通用性角度来讲是一个比较新颖的提法。

目前在社会的各行各业流行着各种各样的考试系统和试题库,但调查发现,成熟、通用、可靠、方便的题库管理与在线考试系统比较少,特别是利用局域网或校园网资源编制的网络通用题库管理与考试系统几乎没有,因此,此课题具有很大的挑战性和实用性。

第一个方面是随着网络技术的快速发展,几乎所有的大学都已经拥有自己的校园网,我们学校的校园网建设得较好,校园内机房、教室和宿舍区内都可以上网,为学生和教师提供了方便的网络教学条件。

第二个方面是传统的教学方式与考试系统效率低,而且无形之中增加了教师的负担,使教师还必须耗费大量时间出卷、阅卷与辅导答疑等。

第三个方面是现成的网络资源被弃置,没有真正发挥网络资源应有的

19

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

作用。这一切都要求我们必须利用网络资源建立教学系统,考试灵活性大大提高。

第四个方面是传统的考试方式已经不能适应现代考试的需要,它的弊端也日益暴露出来,主要如下:

(1)、要出一份质量高的试题,需要查阅大量的资料和题库,从这些资料和题库中选取合适的试题组成试卷。对于出好的试卷还需排版,工作量很大,浪费人力和物力。

(2)、人们常按自身的习惯行事,很难完全考虑考生情况,很难总体上考虑试卷的难易程度等,也就是说所得到的试卷并一定能令人满意。

(3)、以往的出卷方式很容易泄题,试题的保密性得不到保障。 3.2.1操作可行性

传统考试方式的不足之处日益为人们所认识,人们迫切需要一种新的考试理论与方法,这是基于计算机的自适应考试具有可行性的最大动力。也就是说,社会需求将把基于计算机的自适应考试从理论研究推向实际应用。国外近几年的能力水平考试有的已经开始使用基于计算机的自适应考试即说明了这一点。尤其让人感到意味深长的是美国在我国的“微软认证”考试就是采用基于计算机的自适应考试。这在一定程度上不能不引起我国教育界对深入研究基于计算机的自适应考试的重视。

教育部实施的“校校通”工程正在逐步落实。这为实施基于计算机的

自适应考试奠定了坚实的物质基础。 3.2.2经济可行性

现在是网络高速发展的时代,随着计算机技术和互联网的逐步普及,现在上网已经不再是难事,普通人都能满足上网的要求,大学已经能满足正常使用电脑,同时,许多大学生都已拥有个人电脑。利用网络技术提高教学考试效率,改变传统的考试方式,减少人力物力的浪费,提高网络利用率。

鉴于目前,使用电脑的可行性,关键在软件开发的经济可行性。由于目前的编程工具已经十分成熟,开发一套网络考试系统,在经济上的花费已大为减少。再者,本系统有很好的现实意义,能被教学机构所采用,能够产生很好的经济效益。 3.2.3 技术可行性

目前大多数网上教学系统较为流行的做法是基于ASP和脚本语言,将动态网页和数据库结合。但是由于ASP本身的局限性,使得系统有一些不

20

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

可克服的缺陷。ASP.NET 技术是当前最强有力的网站开发工具之一

[23,24]

ASP(Active Server Pages)是微软公司用来建立动态网页的解决方案。它是一种服务器端的指令环境,用来建立并执行交互式WEB服务器应用程序,您可以使用ASP来结合服务器端指令、HTML网页及COM组件,换句话说,ASP程序包含“脚本语言程序”(Scripting Language)、“嵌入HTML” (Embeded HTML)、“COM组件调用” 等3个部分,前者由VBScript、JScript(微软版本JavaScript)、PerlScript、Python等程序语言撰写而成。也正由于ASP程序可以嵌入HTML,因此,现有的HTML文件(扩展名为.htm)很快便可以转换成ASP程序(扩展名为.asp)。

ASP程序只能在WEB服务器端执行,它的工作流程是:先由客户端发出HTML请求到WEB服务器,WEB服务器根据客户请求向数据库服务器发出数据查询请求,数据库服务器将返回查询结果到WEB服务器,再由WEB服务器将结果转换成HTML文件返回给客户端,等浏览器端收到HTML文件后,便会将执行结果显示在浏览器上。

ASP的强大功能都可通过调用内置对象来实现。

图3-1 ASP工作流程示意图

ASP提供的内置对象使用户更容易收集通过浏览器请求发送的信息、响应浏览器以及存储用户信息。有了这些对象可以使ASP的功能更强大。所谓对象就是一段封装的完整的软件模块。这些对象之间通过属性来传递参数,在设计ASP时经常需要调用各种对象来实现开发动态数据库访问的功能。ASP有七个内建对象:Request、Response、Server、ASPError、Application、Session和ObjectContext。

21

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

表3-1 ASP的内置对象 对象名称 Response对象 说 明 这个对象可用来决定何时或如何将输出由服务器端传送至浏览器端 Request对象 这个对象可用来获取由浏览器端返回服务器端的数据,如浏览者输入的窗体数据、存储在浏览者机计算机的Cookie等 Server对象 ASPError对象 这个对象提供了服务器最基本的属性和方法 这个对象可以让您取得Script发生错误的信息(IIS5.0才支持此对象) Application对象 当有数个浏览者同时存取网页时,这个对象可用来记录不同浏览器端共享的变量,因为无论有几个浏览者同时存取网页,都只会产生一个Application对象的实例 Session对象 这个对象也是用来记录浏览器端的变量的,但和Application对象不同的是Application对象记录了所有浏览器端共享的变量,而Session对象则是记录了个别浏览器端专用的变量 ObjectContext对象 这个对象用来链接ASP和Microsoft Transaction Server ActiveX组件与ASP内置对象相似。但使用Active ServerPages时,二者有重要区别。组件在使用前必须明确创建。同前面讨论的内置对象一样,Active Server Pages组件也可以扩展脚本功能。组件与对象的不同在于其主要用于专门任务。 3.3 系统的需求分析 3.3.1功能需求

要求建立后台数据库,内含一个试题样库,教师可以在题库中添加、编辑和删除试题;教师可以增加新的考试科目;可以充分利用题库中的试题,由系统随机组卷,并能在指定时间内发布试卷;学生参加完考试即能得到答案,并分析考试中答错的题目;教师能得到学生考试后传送到系统的反馈信息,可方便地对成绩进行查询和分析,同时对学生考试中出现的错误进行统计,以便今后的教学。此外,还应具有良好的用户界面,操作方便,尽量减少误操作率。具有安全保密机制。

1、前台功能要求

? 前台用户注册,登录功能

? 用户普通考试功能,系统设置,成绩查询功能 ? 用户IRT考试功能 2、后台功能的要求

22

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

? 教师登录功能

? 添加,删除,修改题库 ? 添加,删除,修改用户功能 ? 组卷功能 ? 系统设置功能 3、对主页的要求 ? 实用 ? 操作简便 ? 时效性 3.3.2性能需求

1、硬件环境

主机系统: Intel或者兼容机,Pentium 166MHz或者更高 内存: 512M 硬盘空间: 40G 显卡: 显示适配器 2、软件环境

操作系统: windows 98/ME/2000/xp 数据库: SQL Server 2000 Internet信息服务器:IIS 6.0 Office 2003 软件 3.3.3遇到的问题

1、题库参数的确定

该题库来源于本校的C语言程序设计题库,没有现成的数据可供使用,

需对各个题目的参数加以设置,鉴于目前题目的精确度测试还不够,参数需加以优化设置,才能使题库最为合理。

2 、IRT系统性能问题

由于该系统利用IRT理论来实现试题的抽取,涉及到复杂的算法,时间复杂度较大。进行IRT考试时,都要进行反复的迭代,重新计算做过的每一道题目的参数,从而估计用户的能力值。因此将会消耗掉很大的带宽和服务器上的资源。 3.3.4 系统的主要设计思想

1、以学生为中心

系统本着为客户服务的理念,时刻为用户(学生)着想,能极大的方

23

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

便用户的使用,使界面更加友好,最大限度的体现用户至上的理念。同时该系统在功能上注重个性化设置,主要体现就是以IRT(项目反应理论)指导系统开发,以克服传统考试模式中,无视学生能力的差异性,所有的学生都使用同一张试卷,不能动态的根据学生能力量身定做合适的试卷,不能最大限度的测试出学生的能力水平。

2、题库是关键

考试系统中题库的设置重要性不言而喻,其中题库的数量要足够的多,能尽可能大的覆盖所有的知识点。题库设置的关键是题目参数的确定,考试能力的测试是建立在准确有效的题目参数上的,因系统使用三参数的Logistic模型,故确定这三个参数非常之重要,即试题的难度、题目区分度、猜测度。在此根据专家数据库的方式,参照模型进行参数设置优化。

3、系统的实用性

由于该课题来源于教学实践过程中,有很强的实有价值。根据本校的教学实际情况,采用C语言作为测试课目,该试题库来源于景德镇陶瓷学院信息工程学院《高级语言程序设计》课程建设组编的高级语言程序设计习题集。由于IRT还处于测试阶段,考试分为普通的随机抽取试题和IRT测试两种类型,用户可自由选择。

4、系统的可扩展性

目前学校的教务管理系统已经投入使用,为更好的整合资源,提高系统集成能力,尽量的使该系统能与教务管理系统对接,使教务管理更加完善。

3.4 基于IRT的CAT系统的功能模块设计 3.4.1总体模块设计

根据系统功能的要求,CAT考试系统分为3个模块。即学生在线考试系统和教师管理系统和管理员系统。可以将系统分解为几个功能模块来设计,各功能模块之间的关系如图:

24

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

图3-2 模块关系图

1、前功能要求

前台用户注册,登录功能

用户普通考试功能,系统设置,成绩查询功能 用户IRT考试功能 系统功能模块 2、后台功能的要求 教师登录功能

添加,删除,修改题库 添加,删除,修改用户功能 系统设置功能 系统管理员管理功能 数据库备份 系统用户管理

该子系统实现学生的网上考试过程,主要包括:

①、考生登录——该子系统接受考生输入的个人身份信息,进行验证,允许合法考生进入考试系统,进行考试。

②、计时答卷——考生进入后,系统计时开始,考生进行答卷。 ③、试卷提交——包括考生在规定时间内主动提交试卷和考试时间己到,系统强迫提交试卷。

④、自动判卷——考生交卷后,系统自动判卷,把分数显示给学生。 ⑤、成绩记录——把考生获得的成绩插入到数据库成绩表中。

25

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

图3-3系统结构图

3.4.2 普通考试模块功能设计

1、随机抽取试题

随机抽取试题采用在SQL中简单的存储过程来实现。通过对数据库中

试题表的随机重新排序,组成一个随机的试题顺序表,然后从中抽出前50道或者更多的试题。

2、题目显示

由于试题是动态生成的,故本系统中采用动态生成控件,然后将题目具体以选择题为例,先在界面上放置一个panel控件,以便将题目信动态的绑定到选项中去。从而为下一步的计算成绩做好铺垫。

息所相关的控件都放置在该控件内。题目信息用Label控件,选项用RadioButtonList控件,在试题库中抽到a、b、c、d 内容,动态的添加到数组列表ArrayList中去,然后将该ArrayList绑定到RadioButtonList

26

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

上,就实现了试题的动态显示。

3、显示记录成绩

在显示记录成绩中,我们首先要找到用户在题目中的选项,然后与题库中的标准答案对比,若正确则记分。其中查找用户选择的答案,通过题目的RadioButtonList名称采用FindControl找到SelectedValue即可。

评分完成之后,按用户的用户名,题目类型,分值插入成绩表中去。

3.4.3 IRT考试功能模块

整个考试系统主要分为前台和后台两个部分,后台包括试题库、管理维护与统计分析等;前台则向用户提供各种形式的自适应考试。

在自适应考试过程中,系统必须解决以下三个问题:①、如何开始,即按何种策略选择第一题;②、如何进行下去,当考生完成一道题以后,如何选择下一道题;③、如何结束,即确定考试结束的终止条件。针对上述三个问题,本系统拟采用如下施测方案:[25,26]

1、试验性探查阶段

系统采用这样的初始选题策略:如果被试参加过测验,则根据历史记录确定受测者的初始能力值,以此确定此次的开始题目;若被试没有参加过测验,则由被试自行决定自己的能力程度,选择测试的起始题目。

在初始难度确定后,本系统首先将10道题目作为一组测试项目,当被试做完10道题目后,如果被试的回答情况全对或全错,则选取一道极难或极易的题目,以使这个阶段能实际终止。如果在再次选择10道题目以后,被试的回答情况仍为全对或全错,则说明题库中的试题对于被试而言太难或太易,无法测出被度的真实水平,此时则终止测验,并向被试反馈预测结果。

如果被试的答题情况有对有错,则利用极大似然法初步估计其特质水平θ,结束试验性探查阶段。 2、后继选题策略

在初步估计出被试的能力水平后,如果选取下一道试题,才能精确地估计被试的能力水平呢?

项目信息函数是直接反映测验分数对被试能力水平的估计精度的指标。项目信息函数越大,对被试能力水平的估计就越精确。一个项目所能提供的信息量,在项目质量参数已知的情况下,也并不是固定不变的。它的取值取决于所测被试的特质水平。也就是说,同一个项目在测验高、中、低水平的被试时,它所能提供的信息量是不一样的。在项目质量参数不变的情况下,项目信息函数的取值是随所测被试的特质水平的不同而变化的,而且所测被试的特质水平越近试题难度,信息函数的取值越大。

27

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

因此,如果已知一个被试的某项特质水平,且测量该特质水平的题库也已建成,那么就可以为该被试选择一系列能提供最大信息量的项目。

选题原则确定后,每做一道题目,系统都根据被试的反应利用极大似然法估计被试的能力值,继续选择施测题目,增加信息量,直到满足测验终止条件。

3、测验终止策略

施测到什么时候结束,取决于我们对测量精度的要求。因为题目信息量的累加和就是测验信息函数值,而估计的标准误差就等于信息函数平方根的倒数。随着施测题目的增加,信息量的累加值也不断变大,当这一累加值达到指定要求时,测验即可终止。但是用这种方法容易造成测验过长,尤其对于两种极端能力水平的被试而言,因而这种方法的效率较低。因此,我们采用以下两种方法相结合:

①、当测验项目达到一定的数量之后,测验就自动终止,这种方法的优点是易于实现,且对每个测验项目的使用率作较精确的统计;缺点是对不同被试的特质参数的估计精度不同,而且要确定一个合适的长度一般来说并不容易。

②、比较被试特质参数最后两次的估计值,当这两个值之差小于某一预先给定的数值之时停止。这种方法得到的被试能力水平的估计精度与指定信息函数值的方法十分接近,但所使用的测验项目数量要少得多。

我们使用的测验终止策略是以上两种策略的结合,即只要满足其中一个条件测验即终止。

图3-4 logistic 反应模型

28

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

图3-5 IRT测试流程

3.5 数据库的设计

3.5.1 SQL Server 2000数据库简介

数据库(Database)是按一定的结构和规则组织起来的相关数据的集合。是综合各用户数据形成的数据集合,是存放数据的仓库。数据库技术目前是计算机处理与存储数据的最有效、最成功的技术;计算机网络的特点则是资源共享;数据+资源共享这两种技术结合在一起即成为在今天广泛应用的网络数据库(也叫WEB Database)。

网络数据库是指:以后台数据库为基础的,加上一定的前台程序,通过浏览器完成数据存储、查询等操作的系统。[27]简单的说,一个网络数据库就是用户利用浏览器作为输入接口,输入所需要的数据,浏览器将这些数据传送给网站,而网站再对这些数据进行处理,例如,将数据存入数据库,或者对数据库进行查询操作等,最后网站将操作结果传回给浏览器,通过浏览器将结果告知用户。

29

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

SQL Server是微软公司开发的一个关系数据库管理系统,以Transact_SQL作为它的数据库查询和编程语言。T-SQL是结构化查询语言SQL的一种,支持ANSI SQL-92标准,它由SQL Server中具有存储检索数据功能的客户端组件组成。SQL Server使用分层通信体系结构,将应用程序与基础的网络和协议层次分离。这种体系结构就可以支持在不同的网络环境中部署相同的应用程序。

SQL Server采用二级安全验证、登录验证及数据库用户帐号和角色的许可验证。SQL Server支持两种身份验证模式:Windows NT身份验证和SQL Server身份验证。SQL Server为公共的管理功能提供了预定义的服务器和数据库角色,可以很容易为某一特定用户授予一组选择好的许可权限。SQL Server包含了客户端组件和服务器组件,可以在不同的操作平台上运行,支持多种不同类型的网络协议如TCP/IP、IPX/SPX、Apple Talk等。SQL Server在服务器端的软件运行平台是Windows NT、Windows9x,在客户端可以是Windows3.x、Windows NT、Windows9x,也可以采用其它厂商开发的系统如Unix、Apple Macintosh等。 3.5.2 ASP与数据库访问[28,29]

ODBC基于SQL(Structured Query Language),并把它作为访问数据库的标准。这个接口提供了最大限度的相互可操作性:一个应用程序可以通过一组通用的代码访问不同的数据库管理系统。

ADO(ActiveX Data Object,ActiveX数据对象)是一组优化的访问数据库的专用对象集,它为ASP提供了完整的站点数据库访问解决方案。ADO对象在服务器端执行,并向客户端提供含有数据库信息的内容,客户端也可以根据指定的权限返回参数来对数据库进行读写等操作。ADO的特点就是执行速度快、使用简单、低内存消耗且占用硬盘空间小。

因为ADO是通过ODBC来对数据库进行访问的,所以它可以连接各种支持ODBC的数据库,如Access、SQL Server、Oracle、Informix等。在使用ADO之前要先在ODBC中添加相应的数据库驱动程序,并创建相应的DSN(数据源名)。ADO中包含许多对象,其中Connection对象和Recordset对象主要用于控制数据库存取,要建立一次数据库访问首先要创建一个Connection对象,然后用基于这个Connection对象的Recordset对象来完成对数据库的操作。

在ASP中主要的ADO对象有三个,分别是Connection、Command以及RecordSet,这三个对象又分别有一些子对象。

30

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

表3-2 ADO的对象

对象名称 Connection对象 说 明 提供对数据库服务器的连接,在数据库与应用程序之间建立联系,然后再将Recordset和Command对象来查询、请求、增加或更新数据。Connection对象代表了一个打开的同OLE DB数据源的连接,它有点类似于client/server数据库应用中同Server间的真实网络连接,我们可以独立于任何其它对象建立一个Connection对象。注意,在引用一个Connection之前首先要创建这个Connection对象。 Recordset对象 虽然使用Connection对象的Execute方法已经可以实现对数据库的各种操作,但是在编程中我们更常用的还是RecordSet对象,ADO中的内置对象RecordSets是数据库访问的主要接口,它指向数据表中的一个记录集,它有点类似于C语言中指针的概念,在任何时刻一个RecordSets对象只能指向一条记录。 Field对象 每个Recordset对象中都有一个由Field对象组成的Fields集合,其中每个Field对象都代表Recordset中的一个字段 Command对象 主要作用是进行数据库的查询。其工作方法是将采用SQL标准的查询语句指定到Command对象的CommandString属性,然后执行查询动作,数据库服务器响应后,将查询结果存储在Recordset对象中供用户使用。 ASP通过ADO,ADO再通过ODBC访问数据库获得数据信息,然后再返回结果送到客户端浏览器。ADO(ActiveX Data Objects)支持WEB程序开发人员可以通过Internet存取数据库,即可以在客户端在线实现对数据库的访问、即时更新等操作。这样的结果是使得WEB站点与数据库的集成更为紧密。ADO可以在任何支持COM以及OLE的服务器端操作系统上使用。但数据库是各种各样的,要实现对所有数据库的存取,就要用到ODBC,通过ODBC驱动程序,ADO就可以兼容各种数据库系统,包括Microsoft自身的Access、FoxPro、SQL Server以及Oracle、Informix、Sybase等公司的数据库服务器,而且具有统一的处理界面。 3.5.3数据库表结构

数据库表student(学生表)如表3-3所示: 表3-3 数据库表student(学生表) 字段 说明 类型 备注

31

工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

Stu_id Stu_pwd Login dpt Stu_name Stu_email rule 学生ID号 用户密码 是否已考试 院系 学生姓名 学生MAIL 学生权限 Char Char Bit Char Char Char char 为学生学号 不能为空 1已考试0未考试 可以为空 可为空 要符合Email的格式 赋予学生权限 数据库表teacher(教师表)如表3-4所示: 表3-4 数据库表teacher(教师表) 字段 Id Uid Pwd Username department 说明 自动增长 类型 Int 备注 主键,防止用户ID冲突 用户自定义ID 用户密码,不为空 用户姓名 用户所在院系 用户ID号 Char 密码 用户名称 院系 Char Char char 数据库表choice(选择题)表3-5所示 表3-5 数据库表choice(选择题) 字段 ID TRY_DIFF TRY_CENT TRY_SUBJECT a b c d

说明 主键 试题难度 分值 题目内容 a项 b项 c项 d项 类型 Int float Float Varchar Varchar Varchar Varchar Varchar 32

备注 唯一标识 [-3,3] C语言题目 工程硕士学位论文 3 基于IRT理论的CAT系统的分析与设计

TRY_KEY C_PART IRT_a IRT_c 答案 题目章节 区分度 猜测度 Int int Float Float (1,2,3,4)表示(a,b,c,d) 1,2,… 数据库表blank(填空题) 如表3-6所示 表3-6 数据库表blank(填空题) 字段 ID C_SUBJECT C_ANS C_DIFF C_PART 说明 用户的唯一标识 试题题目 试题答案 试题难度 章节 类型 Int Varchar Varchar Float Int 备注 关键字,自动增长 填空题目 答案 [-3,3] 1,2,3, … 图3-6 主键表student外键表st_score

3.5.4 存储过程设计

增加填空题:add_blank

添加程序设计题目:add_program 插入学生成绩:insert_score 3.6系统安全性设计

Internet是一个开放的网络环境,正是这种开放性导致了其潜在的不安全性,所以系统的安全性是一个必须要考虑的问题。系统中保存着许多“敏感”的信息,如学生的成绩、教师的工作量、用户的登陆密码等等,为此,

33

本文来源:https://www.bwwdw.com/article/v5p7.html

Top