外语教育评价综述

更新时间:2024-01-23 00:11:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

外语教育评价综述

英语测试与评价简介

教育评价学:

教育评价学是教育科学的一个重要分支学科。教育评价是从教育测量活动中发展出来的。始于1934年至1943年\教育评价之父\美国心理学家泰勒(Tyler, r) 人的\八年研究\。

As has been documented by many scholars, objective testing began in China during the Han dynasty (Spolsky, 1995). Such testing was used in Imperial China to select the highest officials of the land (Arnove, Altback & Kelly, 1992; Hu, 1984; Lai, 1970), which were probably the first civil service examinations ever developed in the world. Imperial Examination科举考试

? the Four Books and Five Classics (四书五经) were basic examination

materials: The Great Learning (大学), The Doctrine of the Mean (中庸), The Analects (论语), and The Mencius (孟子). The Five Classics were: Classic of Changes (易经), Classic of Poetry (诗经), Classic of Rites (礼记), Classic of History (书经), and Spring and Autumn Annals (春秋). ? to know of books and courtesy (rites) (知書達禮)

? the lowest preliminary examinations in the district (解试: Xie shi), the

second examination (乡试: Xiang shi) in the provincial capital, and the third (会试: Hui shi) in the capital of the empire with a ? nal re-examination in the imperial palace (殿试).

? Sheng Yuan (生员), cultivated talent (秀才: Xiou Cai), “recommended

men” (举人: Jiu Ren)—“provincial graduates”. presented scholars (进士: Jin Shi)—metropolitan graduates, “Zhuang Yuan” (状元), “Bang Yan” (榜眼), and “Tan Hua” (探花).

传统意义或是狭义的“课程评价”是指“对课程计划、课程标准、教材在改进学生学习方面的价值作出判断的活动或过程,一般包括对课程目标体系的评价、对课程计划的评价、对课程标准的评价、对教材的评价等核心内容,它的实施一般是由受过专门培训的评价人

员借助于专门的评价方法和技术而进行的” (周卫勇2002:1)

广义的“课程评价”包括“对学生心理特征、学习方法、学习效果等的评定,对教师教学行为、个性特征的评定,对教学技术应用的评价”(丁朝蓬2003:6-7)。

根据Brown(2001)的系统化课程设计理论,课程设计要素包括:需求分析(needs analysis)、目 标 制 定(objectives)、目 标 检 测(testing)、教材编写(materials development)、教学实施(teaching)以及教学评价(program evaluation)。该课程设计模式阐明了“评价”在教学系统中的核心作用。在论述“评价”这一要素的作用时,Brown(2001:217)指出:“课程设计和实施的各要素是互相关联的,所以图中均采用双向箭头,而且这些要素都指向一个不断进行的活动,

即评价。”

英语教学和英语测试(testing)/评价(assessment)--Testing, Assessment and Evaluation

评估和评价概念的混乱首先来源于翻译的混乱,assessment与evaluation孰为“评价”,孰为“评估”,国内翻译不尽相同。有的将assessment翻译为评估(龚亚夫,罗少茜,2002;罗少茜,2003;Upshur,2001;彭金定,2004),而目前多数学者是将assessment翻译为评价,将evaluation翻译为评估,如董奇主编翻译的教学评价系列(中国轻工业出版社出版),外语教学与研究出版社出版的汤姆森教师丛书。但尽管翻译不同,尽管有的把两个概念交替使用,认为评价或者评估是指通过不同的渠道收集学生的相关资料,将这些收集到的资料与预先设置的标准进行比较,并基于这些信息做出决策或判断的过程(Montgomery,2004:8),人们对assessment与evaluation两者概念的区分认识基本相同。赞同区分两者的学者认为,评价是基于学生是否达到了目标所设置的标准而进行的决策过程,而评估则具有批判的含义,是基于对多种材料的评价而做出的判断(Eby, 1997)。Hart(2004)认为,评价是收集有关学生的信息的过程,所关注的是“我们如何发现学生正在学习什么”,而评估是对评价信息进行解释和判断的过程,所关注的是“学生正在学习他们想让他们学习的东西吗?”可以看出,评价指通过多种渠道收集有关学习过程、语言能力、态度、参与、认知发展等方面的信息,借以促进学习和教学,而评估是广义上分析评价数据的过程,是对教学和学习的总体的价值判断,如高校本科教学评估、课程评估等。

---http://www.zshunj.cn/article/789_3.html

---语言测试和它的方法_刘润清、韩宝成.pdf : P2

---语言测试和它的方法_刘润清、韩宝成.pdf : P3

Testing

Testing often takes the “pencil and paper” form and it is usually done at the end of a learning period. The result is often expressed by a mark(60,75,90,etc), a grade (A,B,C,D) or a ratio(7/10,85/100,95/120). Students’ test scores are compared with each other and sometimes ranked for selection purposes.

What is a test?

A test, in simple terms, is a method of measuring a person?s ability, knowledge, or performance in a given domain.

Assessment on the other hand is an ongoing process that encompasses a much wider domain. (Brown, 2003: P3)

Assessment

Assessment involves the collecting of information or evidence of a learner’s learning progress and achievement over a period of time for the purposes of improving teaching and learning. It is not based on one test or one task, nor is it expressed by a mark or grade, but rather in a report form with scales or levels as well as description and comment from the teacher.

Rea-Dickens (2000: 376) suggests that:

‘... assessment is the more inclusive term: it refers to the general process of monitoring or keeping track of the learner's progress. Testing is one kind of assessment, one which is typically used at the end of a stage of instruction to measure student achievement. Assessment is a broader concept: it is part of the whole educational process of teaching and learning...?

Evaluation

Evaluation involves making an overall judgment about one’s work or a whole school’s work. It produces a global view of achievement usually based on many different types of information, such as observation of lessons, students’ test scores, teachers’ assessment reports, course documents, or interviews with students and teachers, etc.

Assessment Purposes:

◇ Discover learners? achievements ◇ Evaluate learners? progress

◇ Check upon teachers? performance ◇ Motivate students, not to frustrate them ◇ Provide motive for learning, etc

In general, the purpose of assessment in language teaching and learning is to discover what the learners know and can do at a certain stage of the learning process, to a certain extent.

And in the past, the assessors could be administrators, teachers, sometimes, maybe the parents. However, students can be assessors who can assess

themselves (and teachers? teaching in some occasions. But the roles of the variety of assessors are more or less different.

It is very clear that all the people involved in education have some reasons to consider assessment necessary:

Administrators need to know whether the programmes they have planned are working well.

Teachers need to know what has been done and what needs to be done next Parents value the feedback about their children?s performance from the teachers and the school.

Students need to know what they have accomplished, be aware of what they need to work on next and build up their confidence from what they have achieved.

(Blum, 1984: 3-6) 12 characteristics of effective teaching were identified: 1. Instruction is guided by a preplanned curriculum. 2. There are high expectations for student learning. 3. Students are carefully oriented to lessons. 4. Instruction is clear and focused.

5. Learning progress is monitored closely.

6. When students don?t understand, they are retaught. 7. Class time is used for learning.

8. There are smooth and efficient classroom routines.

9. Instructional groups formed in the classroom fit instructional needs. 10. Standards for classroom behavior are high.

11. Personal interactions between teachers and students are positive. 12. Incentives and rewards for students are used to promote excellence.

The ?Learner Centered Curriculum? is one of a number of terms used to refer to approaches to language teaching which are based on the belief that learners are self-directed responsible decision makers. Learners are seen to learn in different ways and, to have different needs and interests. Language programs and the teachers who work in them should therefore set out to provide learners with efficient learning strategies, to assist learners identify their own preferred ways of learning, to develop skills needed to negotiate the curriculum, to encourage learners to set their own objectives, to encourage learners to adopt realistic goals and time frames, and to develop learner?s skills in self-evaluation.

外语言测试的发展:

近一个世纪,国外语言测试的发展经历了三个。斯波尔斯基 ( Spolsky)将这三个阶段称之为

前科学阶段(1940s前)、 心理测量与结构主义相结合的阶段(1940s-1970s中期,discrete-point assessment分离式测试)和心理语言学与社会语言学为基础的阶段。

----参考:语言测试的历史演变及发展趋势.pdf

从外语测试的发展过程来看,它可以划分为四个阶段: 1) 第一阶段:科学前阶段(pre-scientific period)。1940s前这个阶段,语言测

试根本谈不上具有什么科学性。外语教学采用传统的语法翻译法,它的试题一是母语与外语互译;二是作文。评分由任课教师进行,这完全是主观性的测试方法。

2) 第二阶段:结构主义语言学和心理测量统计学相结合的听说法阶段。它主要

采用分离式的试题,也就是一套包括测试单项语言知识和技能(如语音、句型、词汇、结构)的试题。

3) 第三阶段:转换生成语法与认知心理学相结合的认知法阶段,它主要采用综

合性试题。

4) 第四阶段:社会语言学与心理语言学相结合的功能法阶段,它主要采用交际

性试题类型。

? Background: Historically, language-testing trends and practices have followed the changing winds of the teaching methodology.

In the 1950s and 1960s, under the influence of behaviorism and structural linguistics, language tests were designed to assess learners? mastery of different areas of the linguistic system such as phoneme discrimination, grammatical knowledge and vocabulary. Tests often used objective testing formats such as multiple choices. However, such discrete item tests provided no information on learners? ability to use language for communicative purposes.

In the 1970s and early 1980s this led to an upsurge of integrative tests such as cloze and dictation, which required learners to use linguistic and contextual knowledge to reconstitute the meaning of written or spoken texts. Since the early 1980s, with the widespread of Communicative Language Teaching (CLT), assessment has become increasingly direct. Many language tests often contain tasks which resemble the kinds of language-use situations that test takers would encounter in using the language for communicative purposes in everyday life. The tasks typically include activities such as oral interviews, listening to and reading extracts from the media, and various kinds of authentic writing tasks which reflect real-life demands. Today, test designers are still challenged in their quest for more authentic, content-valid instruments that stimulate real-world interaction while still meeting reliability and practicality criteria.

The best way to evaluate students? performance in a second language is still a matter of debate. Given the wide variety of assessment methods available and the lack of consensus on the most appropriate means to use, the best way to assess language performance in the classroom may be through a multifaceted or eclectic approach, whereby a variety of methods are used.

Discrete-point(分离式测试)/ integrative assessment:

Since the 1960s, the notion of discrete-point assessment, that is, assessing one and only one point at a time, has met with some disfavor among theorists. They feel that such a method provides little information on the student?s ability to function in actual language-use situations. They also contend that it is difficult to determine which points are being assessed. In the past testing points have determined in part by a contrastive analysis of differences between the target and the native languages. But this contrastive analysis was criticized for being too limiting. About 20 years ago an integrative approach emerged, with the emphasis on testing more than one point at a time.

There is actually a continuum from the most discrete-point on the one hand to the most integrative items or procedures on the other. Most items fall somewhere in between.

以布龙姆菲尔德 (Bloomfield) 为首的美国结构主义语言学家第一次提出语言是一套形式结构,是一套习惯。以斯金纳( Skinner) 为首的美国行为主义心理学家认为:语言行为是一连串的刺激—反应过程。因而,语言就是要获得操作这套符号系统的技能,训练对刺激做出正确反应的一套语言习惯。在语言测试方法上,形成了心理测量—结构主义语言测试,设计了分离式测试。主张分离式测试方法的学者认为:应该考查语言的应用 ,而不是有关语言的问题; 考查的结构,应该是口语中确实使用的结构。分离式测试通常把语言测试按照语言技能分成若干部分,例如听、说、读、写4个部分,分别进行测试。分离式测试非常讲究测试的科学性,注重应用教育统计学对题项及整份试卷进行评价。当今我国英语测试 ,采用分离式测试的较多。

----参考:语言测试的历史演变及发展趋势.pdf

Direct/ indirect assessment:

A direct measure samples explicitly from the behavior being evaluated, while an indirect measure is contrived to the extent that the task differs from a normal language-using task. There is an increasing concern being voiced that assessment need to be developed that directly reflect the traits are supposed to measure.

交际式语言测试

麻省理工学院的乔姆斯基 (Chomsky) 在1965年提出了语言能力和语言行为的概念。1972年,社会语言学家海姆斯 (Hymes)提出了交际能力的概念,认为使用语言不但要能够按照语法规则产出形式合格的句子,而且还应具有在不同的语境中合理使用这些句子的能力,于是就有了交际测试。

交际语言测试的主要特征是: ① 重点是意义; ②语境化; ③语言活动带有可接受的目的性; ④ 同真实情况一样的语言; ⑤ 使用真实的语言材料; ⑥ 文本处理有真实性; ⑦ 反应结果不可预见性; ⑧ 以互动为基础; ⑨ 考生在真实心理状态下展示语言能力; ⑩根据交际结果判断成绩。

教育评价的分类

有:学生评价、教师评价、教学评价、课程评价、学校与教育机构评价、教育政策与教育项目评价等方面。如果按劳教育层次加以区分以可以分为基础教育评价、高等教育评价、职业技术教育评价及成人教育评价等方面。按照评价的价值取向分类,可以分为:目标取向的评价、过程取向的评价和主体取向 (发展性教育) 的评价。

教育评价的主体

教育评价的主体可分为\个体评价\与\社会评价\两种不同的类型。

两种不同类型的教育评价:\形成性评价\与\总结性评价\

教育评价就其目的不同,通常分为\形成性评价\与\总结性评价\两种类型。

王蔷等编写的《英语教学法教程》认为,有三种评价:criterion-referenced assessment (目标参照性评价), norm-referenced assessment(常模参照性评价)和individual-referenced assessment(个体参照性评价)。关于\个体参照性评价\该书是这样定义的:个体参照性评价是以学习者过去的(学习)表现如何,或他(她)的个人(学习)能力的估计怎么样为基准做出评价的。(individual-referenced assessment is based on how well the learner is performing relative to his or her own previous performance, or relative to an estimate of his or individual ability.)例如,一位学了好几个月的课程后,只能说几句英语的学生,经过另一个月的学习后,他能比较流利地说英语(即使是有些地方不那么准确),我们可以肯定地说他取得了很大的进步。

形成性评价(formative evaluation)是通过诊断教育方案或计划、教育过程与活动在存在的问题,为正在进行的教育活动提供反馈信息,以提高实践中正在进行的教育活动的质量的评价。一般说来,形成性评价不以区分评价对象的优良为目的,不重视对被评对象进行分等鉴定。总结性(summative evaluation) 与此不同,它是在教育活动发生后关于教育效果的判断。一般地说,它与分等鉴定、做出关于受教育者和教育者的决策,做出教育资源分配的决策相联系。学生的毕业考试、教师的考核、学校的鉴定都是总结性评价的例子。这两种评价的不同点如下: 第一、评价的目的、职能(或者说期望的用途)(expected uses) 不同。布鲁姆指出,形成性观察的主要目的是决定给定的学习任务被掌握的程度、未掌握的部分,它的目的不是为了对学习者分等或鉴定,而是帮助学生和教师把注意力集中在为进一步提高所必需的特殊的学习上。总结性评价\指向更一般的等级评定\。总结性评价与教学效能的核定联系在一起,它为关于个体的决策、教育资源投资优先顺序的抉择提供依据。

第二、听取报告的人不同。形成性评价是内部导向的,评价的结果主要供那些正在进行教育活动的教育工作者参考。总结性评价是外部导向的,评价报告主要呈递给各级制定政策或采取行政措施的依据。 第三、所覆盖教育过程的时间不同。由于形成性评价直接指向正在进行的教育活动,以改进这一活动为目的。因此,它只能是在过程中进行的评价,一般它并不涉及教育活动的全部过程。总结性评价考察最终效果,因此它是对教育活动全过程的检查,一般在教育过程结束后进行。

第四、对评价的结果概括化程度的要求不同。形成性评价是分析性的,因而,它不要求对评价资料作较高程度的概括。而总结性评价是综合性的,它希望最后获

得的资料在较高的概括化程度。

除上述区别外,形成性评价与总结性评价在评价的准则、标准、方法等方面也有些区别。事实上迄今为止,在教育范围内进行的评价,最大量还是总结性评价。

形成性教学评价的理论依据:认知心理学理论和多元智力理论

多元智力理论(The Theory of Multiple Intelligences)是由美国哈佛大学教授、发展心理学家加德纳(Howard Gardner)于20世纪 90 年代提出的。加德纳认为“智力并非像传统智力定义所说的那样是以语言、数理或逻辑推理等能力为核心、以整合方式存在的一种智力,而是彼此相互独立、以多元方式存在的一组智力。人除了言语——语言智力和逻辑——数理智力两种基本智力以外,还有视觉——空间智力、音乐——节奏智力、身体——运动智力、人际交往智力、自我内省智力、自然观察智力和存在智力。他认为,每个学生不同程度上拥有上述 9 种智力, 智力之间的不同组合表现出了个体之间的智力差异” (转引自 《中国教育报》2003 年 12 月 18 日)。

形成性教学评价的概念和意义

形成性评价(formative assessment)是对学习过程及其结果的评价,并通过这种评价来影响学习过程。这一术语由斯克列汶于 1967 年首次使用,布卢姆则把它的应用范围加以扩展成为一种教学评价类型。他认为: “形成性评价,就是在课程编制、教学和学习的过程中使用的系统性评价,以便对这三个过程中的任何一个过程加以改进。 既然形成性评价是在形成阶段中进行的, 那就要尽一切努力用它来改进这一过程”(布卢姆等, 1987: 228)。 形成性评价的宗旨主要在于为教学提供频繁的反馈从而帮助学生改进学习, 却 “不带有任何要评价成绩的联想” (同上) 。这是它和终结性评价(summative assessment)的区别所在。教学评价专家大都不否认终结性评价的作用,并认为形成性评价更有益于促进学习。终结性评价是对学生学习的结果进结论和判断,或者用于证明和选拔。

A UNESCO report as early as 1978, argues that:

“There should be a much greater emphasis on formative assessment than is found in the school sector” (Skager, 1978).

--参考English Language Literature Review-in Teaching Learning and Assessment for Adults.PDF

Most of our classroom assessment is formative assessment: evaluating students in the process of “forming” their competencies and skills with the goal of helping them to continue that growth process. The key to such formation is the delivery (by the teacher) and internalization (by the student) of appropriate feedback on performance, with an eye toward the future continuation (or formation) of learning.

Summative assessment aims to measure, or summarize, what a student has grasped, and typically occurs at the end of a course or unit of instruction. A summation of what a student has learned implies looking back and taking stock of how well that student has accomplished objectives, but does not necessarily point the way to future progress. Final exams in a course and general proficiency exams are examples of summative assessment.

(Brown, 2003: P5)

形成性评价的设计原则:

1) 主体性原则。学生是评价的主体,所有评价活动的宗 旨在于促进学生进一

步有效学习 , 让学生积极参与评价。

2) 过程性原则。评价是教与学过程中的基本成份,应贯穿始终,评价既要与新

《 课程要求》相吻合,又要与学生的交 际能力与学习策略的发展一致。 3) 多元性原则。形成性评价方式有观察、问卷调查、访谈、学习档案、测试、

活动记录等多种方式。评价主体上既有教师评价、学生自我评价,也有学生伙伴间的相互评价。其内 容既有对学生掌握和运用基础知识的能力水平的评价,又评价学生在学习过程中的情感、态度、策略等。

4) 发展性原则。评价的作用在于教学而不是区分学生的优劣,促进学生发展的

评价不能只对学生的学习情况做简单的好坏之分,重要的在于强调其形成性的作用,注重发展功能。

5) 开放性原则。形成性评价的目的是促使人的全面发展,采取形式多样的评价

方法和手段, 让每个学生的个性和素质都得到提高,无论是课堂表现观察、作业记录、测验、问卷调查等都是在自然的状态和开放、公开性的环境中进行的,评价结果对教师、同学、家长和其它教师开放。

我国现代外语教学的现状

1) 教学大纲缺乏对于语言能力的明确描述 2) 用考试题的形式代替语言练习? 3) 评价目的、内容、方法、形式单一

《英语课程标准》提出评价的建议:

评价是英语课程的重要组成部分。科学的评价体系是实现课程目标的重要保障。英语课程的评价应根据课程标准的目标和要求,实施对教学全过程和结果的有效监控。通过评价,使学生在英语课程的学习过程中不断体验进步与成功,认识自我,建立自信,促进学生综合语言运用能力的全面发展;使教师获取英语教学的反馈信息,对自己的教学行为进行反思和适当的调整,促进教师不断提高教育教学水平;使学校及时了解课程标准的执行情况,改进教学管理,促进英语课程的不断发展和完善。英语课程的评价体系要体现评价主体的多元化和评价形式的多样化。评价应关注学生综合语言能力的发展过程以及学习的效果,采用形式性评价与终结性评价相结合的方式,既关注结果,以关注过程,使对学习过程和对学习结果的评价达到和谐统一。

一、 体现学生在评价中的主体地位 二、 注重形成性评价对学生发展的作用 三、 注意评价方法的多样性和灵活性 四、 注重评价结果对教学效果的反馈作用

五、 终结性评价要注重考查学生综合运用语言的能力 六、 注意3一6年级英语教学评价的特殊性 七、 注意处理教学与评价的关系

八、 各级别的评价要以课程目标为依据

----参考《英语新课程标准》

发展趋势:

(1) 外语测试逐渐成为一门独立的学科 (2) 标准化外语测试普遍使用 (3) 交际语言测试受到重视 (4) 提倡形成性评价

Current Issues on Testing:

The effect of new theories of intelligence on the testing industry; the advent of what has come to be called the \assessment and the increasing popularity of computer-based testing

重要概念:

评价——assessment,它是总称,是总的评估.

测试——test,它是assessment的一种做法,是要有目地,有计划地检验学生掌握到何种程度.

形成性评价——formative assessment 终结性评价——summative assessment 反拨/导向作用——backwash 有效性/效度——validity 可靠性/信度——reliability 可操作性——practicality

表现性评价—Performance assessment

表现性评价有时又叫非传统评价(alternative assessment)或真实性评价(authentic assessment)。

替代性评价--- alternative assessment

测试的种类:

水平考试——proficiency test,如公共英语等级考试,高考.它们只有大纲,没课本参照.

成绩考试——achievement test,如期中考,期末考,中考.它们是以教材为依据的,考查学生在教材范围内掌握的程度.这种考试会导致功利心,如猜题.其实猜题是不道德的,因为在猜题过程中,教师会在无意之中压缩教学范围,这对学生不公. 诊断性考试——diagnostic test,这是小项目的测试,如课堂中dictation, dialogue performance, making sentences, composition writing 等.

分班考试——placement test,它是为了分层教学,也为了更好地了解学生,区分度较高.这种考试在外国比较普遍,在中国就不了.

直接性/间接性考试——direct/indirect testing,直接性考试如写一封信,听对话或独白后填空,间接性考试如以填空的方式让学生解题来考查学生是否会写信了. 分部分的考试/整体化考试——discrete point(即听力,口试,阅读,写作分开)/integrative testing(即我们中国流行的综合卷)

成绩参照/标准参照的考试——norm referenced/criteria referenced testing,成绩参照 的考试如托福,三好生评比,操行考评.其目的是使人进步,优点是通过分等级可鼓励一部分人,缺点是一定要有人不及格.标准参照的考试是指只要达到某标准,人人皆可优.

客观性考试/主观性考试——Objective/subjective testing

机考——computer adaptive testing ,如托福,机动车驾驶员考试,错了,再给你类似的另一题,对了,就给你稍难的,一步步前进到所要求的程度.其优点可避免漏题,当然,它也有时间限制.

交际性考试——communicative testing

英语测试与评价的主要作用

了解学生现有语言水平,发现和诊断语言学习中的问题,

检查和评价学生在某一阶段或某一课程学习中对所学内容的掌握情况, 主要是测量学生英语语言知识和综合运用英语的总体水平,

主要是预测学生是否具有学习外语的天赋或潜在能力(aptitude test),

评价和测试设计的原则: 有效性(validity) 可靠性(reliability) 可操作性(practicality) 公正性(fairness)

区分性(discrimination

---新课程初中英语教学评价:

http://www.xxdoc.com/view-all-zd3za2zd3zefzbdzcczd1za7zc6zc0zbczdbzd3zebzb2ze2zcazd4-p0-o4.html#download

各种评价手段

1. 教师观察(Teacher observation) 2.日常记录(Anecdotal records) 3.评价表(Checklist)

4.访谈/座谈(Interview/Conferences)

5.自我/相互评价表(Self/Peer evaluation questionnaire) 6.读书笔记(Reading journals) 7.多媒体(Multimedia)

8.项目和演示(Projects and presentation) 9.学生档案(Portfolio)

-----http://english.cersp.com/pingjia/xingcheng/200705/2180_2.html

外语测试的分类: 1.按测试目的分类。

(1)学业成绩测试(achievement tests)。成绩测试用来检查学生在整个学习阶段掌握外语知识、技能和能力的程度,如期中测试、期末测试等。 (2)水平测试(proficiency tests)。水平测试不是依据某一种教学大纲或某一套教材所规定的内容来进行测试,而是根据从某种实际需要而拟定的标准命题,需要什么就考什么,如我国的出国水平测试(English proficiency test,简称EPT)。 (3)能力倾向测试(aptitude test)。能力倾向测试是指对学生学习某种外语的潜在能力和素质的一种测试。

(4)诊断测试(diagnostic test)。“诊断”的本意是指“在检查病人的症状之后判断病人的病症及其发展情况”。外语教学中的诊断性测试则是指对学生在学习外语的过程中出现的薄弱环节进行考查,以弥补以往的不足,调整教学,提高外语教学质量。

2.按评分标准分类。

(1)主观性测试(subjective test)。主观性测试的评分标准是不确定的。正确的答案可能有几个,评分易受评分人的主观影响而显得不稳定,如外语与母语互译和作文等题就是这样。同一份试卷由几个人来评分会得到不同的分数,难以可靠地测定学生真正的外语水平。 (2)客观性测试(objective test)。每道题只允许有一个正确的答案,不受评分人员的主观情绪和偏见的影响,还能由电子计算机阅卷、评分,如是非题、多项选择题等。

3.根据测试的着重点不同分类。 (1)速度测试(speed test)。速度测试用以测试学生外语听、说、读、写能力的熟练程度,要求在规定的时间内完成量多但难度较小的试题。 (2)能力测试(power test)。能力测试用以测试学生掌握知识的深度,题量较少但有一定的难度,需经过一番思索、推理后答题。 4.根据测试命题的方式分类。

(1)分立式测试(discrete—point test)。分立式测试源于结构主义语言学理论,各种语言都能从结构上分成许多小的语言单位进行测试。分立式测试是指对四种言语能力(听、说、读、写)和语言知识(语音、语法、词汇)进行分门别类的测试。

(2)综合性测试(intergrative test)。综合性测试指的是对学生的语言知识和言语能力进行整体的综合性的测试,如完型填充和听写等。 (3)交际性测试(communicative test)。交际性测试是测试学生在现实生活中为交际运用英语的能力,如阅读、提示作文等。 5.按评定成绩时的不同参照对象分类。

(1)常模参照性测试(norm—referenced test)。常模参照性测试指的是把某一学生的考试成绩与集体的考试成绩相比较而确定其在集体中所处的相对位置。如他的外语期中考试得全班第一名,则是把他的成绩与他所在班级中所有成员相比较的结果。

(2)目标参照性测试(criterion—referenced test)。目标参照性测试就是在测试之前就规定分数的标准,按标准评定学生的成绩。如满分为100分的外语成绩,一般把80分以上定为好,80分以下60分以上定为中,60分以下定为差。 6.按测试的规模分类。

(1)个人测试(individual test)。指一次只测试一个考生。 (2)集体测试(group test)。一般指班级或年级为单位的测试。 (3)大规模测试(large—scale test)。如我国的会考和高考。 7.根据测试的形式分类。

(1)口试。指的是以口头形式进行的测试。 (2)笔试。指以书面形式答题的测试。 事实上,一种测试可以从不同的角度给以不同的称谓。如我国一年一度的外语高考可以说成是笔试、大规模测试、常模参照性测试、综合性测试(包括分立式测试)、学业成绩测试、水平测试等。

外语标准性测试的指标

1.效度(validity)

效度指的是一种测试所能取得某些目标的有效程度。效度还可分为内容效度、结构效度、卷面效度和效标关联效度。 (1)内容效度(content validity)。内容效度指的是测试反映出具有代表性的课程内容的程度,即测试的内容是否具有代表性,是否充分概括了所学的内容。假如我们想评估学生为交际运用外语的能力,却给他们做一份只用语法知识便能回答的多项选择试卷,其效度就很低。我们只有测试考生在真实的情景中运用外语的能力才能取得评估学生为交际运用外语的能力的效度。要想提高测试的内容效度,须遵循以下几个步骤:①由各科有经验的教师或专家根据教学大纲分别列出教材内容的各项重点和所要测量的各类学习结果;②各项教材内容重点和学习结果的分数比例可根据教学时数、专家意见等来确定;③编制命题双向细目表;④依照命题双向细目表的具体规定来编拟试题。 (2)结构效度(construct validity)。结构效度就是指测试分数能够在理论上用某种结构来得到证明。简要地说,就是测试的理论基础是否正确。“水平”(proficiency)是一种结构,“为交际运用外语的能力”是一种结构。实际上,某

一种测试就是某种结构的有效的解释。一般的水平测试包括语法判断题、阅读理解题和听力理解题三个部分。包括这三个部分或与这三个部分相关的测试,我们就可称之为“水平”测试。

(3)卷面效度(face validity)。卷面效度与师生对测试的反应有关,如试卷清晰与否?这种试卷能否比较理想地评估学生?试卷难否?这些都需要通过与师生的交谈或用问卷调查方可获得。

(4)效标关联效度(criterion-related validity)。效标关联效度就是指寻找一种能够反映测试有效的客观标准(即效标),进而考察这次测试与效标之间的相关程度。相关程度愈高,则测试的效度愈好。这里,效标是检查测试效果的参照标准,而如何获得一个比较适合的效度标准则更重要。我国现在实施的标准测试,其试题多,覆盖面广,是经过有关专家和权威机构认可的效度好的测试。它可以作为另一次测试的效标。

效标关联效度还可以分为同时效度和预测效度。这两种效度的主要区别在时间的间隔上。 ①同时效度(concurrent validity)。同时效度指的是一次测试的成绩与时间间隔不长的另一次测试获得的效标之间的相关程度。如对初中毕业升高中、高中毕业升大学的学生进行一次外语摸底测试,以便按外语水平分班编组。入学测试分数高的学生其摸底测试分数也高,入学测试分数低的学生其摸底测试分数也低,这说明,入学测试具有很高的同时效度。②预测效度(predictive validity)。预测效度指的是一次测试的成绩与时间间隔较长的另一次测试获得的效标之间的相关程度。但应注意,测试与效标的间隔较长而且效标在后。例如,学生在进入大学学习半年、一年外语以后,我们可以通过计算高考与大学一年级外语成绩之间的相关系数来评估高考的预测效度。如果高考很有效的话,那么在高考中得分高的学生至少在大学一二年级的学习应倾向于更有效。这里,大学一二年级的外语成绩就成了衡量高考效果的一种效标。

效标关联效度的相关系数(r)最大值为+1.0,表示测定值完全反映了所要测试的目的和要求;最小值为-1.0,表示测定值与所要测试的目的要求完全相反;效度值为0,则表示测定值与所要测试的目的要求毫无关系。-1≤r≤1,例如:某校想要检验毕业生英语的测试效度,就在近几年来高考英语试卷中选择较好的一份作为标准,在这批高中毕业生中进行测试。随机抽出10名学生并且列出这两次测试的成绩,看毕业生英语测试的效度如何。

相关系数的计算公式为:

其中N为考生数,Σ表示连加和

x为一个变量分数(如本例的高中毕业考分数) y为另一个变量分数(如本例的高考分数)

由于N=10 故自由度df=N-2=8 查相关系数显著性的临界值表得:

r(8)0.05=0.5494.由于r=0.533<0.549=r(8)0.05.则P>0.05.根据相关系数显著性统计决断规则,表明r值无显著意义,即英语毕业考预测效度差。 2.信度(reliability)

测试的信度指的是测试分数的一致性或可靠性,是测试结果能够反映考生稳定水平的程度。如果我们用一根橡皮带来量一个人的腰围,就显然缺乏信度。由于橡皮带富有弹性,第一次测量与第二次测量的结果一定会存在着差异。同样我们昨天用一张试卷测试一学生得82分,而今天用同样一张试卷测试同一个学生,结果得62分。两次测试学生得分结果很不一致,这种测试的信度就很值得怀疑了。相反,几次测试结果学生得分相同或趋向一致,那么这种测试的信度就很高。 影响测试信度的因素较多,如举行测试的场所、评分的方法、评估的一致性,还有考生的健康、动机、焦虑、疲劳、猜题的运气、学习迁移等等,这些都值得注意。如有一位教师用录音机来测试学生的外语听力,但由于考场外面的街道嘈杂声,教室里的许多学生就不能听精确。影响测试信度的因素越少,测试就越具有一致性。

估计测试的信度有许多不同的方法。

(1)再测估计信度(test—retest estimate of reliability)。再测估计信度就是对一组学生进行测试,间隔不久后再用同一份试卷对他们进行测试,然后计算两次测试分数的相关系数。两次分数的相关系数愈高,信度也就愈高。在大规模的标准性测试中,要求信度值不低于0.9,甚至达0.95以上,课堂测试则只需0.70~0.80。 再测的时间间隔是个变量,信度的估计值会因第二次再测的时间长短而有所变化。如果两次测试的间隔时间很短,第二次会因学生的记忆力而影响信度的估计值。

(2)复本信度(alternate—form reliability)。复本信度是一种等值测量(measure of equivalence),指的是在同一天用两套试卷(具体题目不同,内容、类型相同)对同一组考生进行测试,然后算出两次得分的相关系数。 (3)内在一致性的测量(measure of interna1 consistency)。内在一致性的测量指的是在一次测试成绩的内在因素中求得一致性。在实际生活中,像再测信度和复本信度需要对同一组学生进行第二次测试,这是比较难办到的。我们只能用一次测试成绩计算其相关系数。下面介绍三种较常用的方法: ①折半法(split-half method of estimating reliability)。折半法就是把试卷按奇数或偶数一分为二,并分别计算这两部分的得分一致程度,测试后再用相关系数公式计算两半测试分数之间的相关系数r,最后用斯皮尔曼-布朗(Spearman-Brown)公式加以校正。校正公式为:

例如:设以6道题对5个学生(N)进行测试,得分如下表所示,求测试的信度:

首先,计算每个考生在奇数题与偶数题的总得分:

第二步,计算奇数题与偶数题得分之间的相关系数,根据计算得

第三步,用系数校正公式计算全测试的信度

可见测试的信度值太低。信度偏低,我们可以增加试题量或选择项的量,增加多少,可按公式计算:

其中A=增加试题量与原来试题量之比

例如,上面的试卷信度偏低,只有0.21,现想提高到0.90,看需增加多少试题量。

即应增加原试题的33倍,6×33=198题。 ②α系数(coefficient Alpha)。半分法是假定两半测试分数的方差(variance)相等。如试题的等效性无法保证时,就可用α系数法来求一次测试的信度值。当试题为简答题、论文题或一份试卷中既有选择题又有非选择题,就可用α系数法来求信度。

其中n=题数

例如:设以6道题(n)对5个学生(N)进行测试,得分如下表所示,用α系数法求这次测试的信度:

第一步,计算考生在各题得分的方差,然后对这些方差求和。先求5个

③库德·理查森估计信度法(Kuder-RichardsonEstimates)。如果试题全

其中n为试题题目数

q为答错人数的比例(q=1-P)

例如:设以10道选择题对10个学生进行测试,答对一个给1分,答错1个给0分,得分结果如下:

故Σpq=0.00+0.00+0.00+0.09+…+0.16 =1.36

前面谈到效度和信度是标准性测试的两个非常重要的指标。它们之间的关系是一种辩证的关系,有联系又有区别。一方面,有信度的测试不一定有效度,如多项选择题的信度很高,因为测试的结果比较稳定;但如果要用此来测试学生活用词汇的能力,那么这种试卷就缺乏效度。当然没有信度的测试也就谈不上效度。 3.实用性(practica1ity)

测试实用性的一个主要问题就是管理问题(administration)。教师如果课前没有充分准备就去上课,效果肯定很差。测试也一样,它需要事先进行一番精心的规划、设计等。诸如测试的时间要多久?需要哪些设备(录音机、语言实验室、幻灯、投影)?如何评分?需要多少人员?花费多少?总之,测试既要经济又要实惠。 4.难度

外语标准性测试的难度指的是一份试卷的试题应包含有不同难度的试题。难度适中的试卷有利于拉开距离。太难,学生都答不出;太易,学生都能答对,这样就难以区分学生之间的水平差异。难度常用难度指数来表示,标准性测试的题目难度要求在0.3-0.7之间。难度指数标准低于0.3,表示试题偏难;若高于0.7,则表示试题难度偏易。如果是问

大,则题目较易,反之,则较难。假设某试卷的第一题满分值为5分,所有

5.区分度(discrimination)。

区分度指的是测试成绩能区分考生外语水平的程度。区分度好的题目,能把不同水平的学生有效地区别开来,以便择优录取。

试题区分度的指数计算可用“两端分组法”,就是把考生总分由高向低排列,即从最高分开始向下取27%的人作为高分组,从最低分开始向上取27%的人作为低分组。

例如:假设高分组6人,低分组6人,第7小题高分组有4人答对,低分组有3人答对,求试题7的区分度。

D=0.67-0.50=0.17

可见试题的区分度太低。

两端分组法所得区分度的评价标准:

References:

[1] 语言测试和它的方法_刘润清、韩宝成.pdf [2] 语言测试的历史演变及发展趋势.PDF [3] 课堂教学评价.PDF

[4] 关于大学英语教学改革的思考-评价与教学.PDF [5] 认知与语言测试-桂诗春.PDF [6] 语言测试综述.pdf

[7] 语言测试与语言教学.PDF

[8] TEACHING ASSESSMENT & EVALUATION.PDF

[9] Language Assessment Principles and Classroom Practice-H.D. Brown.pdf [10] Foreign Language Assessment _handout.doc

[11] English Language Assessment and Chinese Learner 2010.PDF [12] Language testing and assessment (Part 1).PDF [13] Language testing and assessment (Part 2).PDF

[14] English Language Literature Review-in Teaching Learning and Assessment for

Adults.PDF

[15] Assessing Listening - Brown.PDF [16] Assessing Reading - Brown.PDF [17] Assessing Speaking - Brown.PDF [18] Assessing Writing - Brown.PDF

[19] Assessing Young Language Learners.PDF [20] assessment of second language teaching.PDF [21] Classroom Assessment & Grading that work.PDF [22] Formative Assessment.PDF

[23] Student-Centered Classroom Assessment.pdf

本文来源:https://www.bwwdw.com/article/3l7o.html

Top