阅卷评分系统的建立

更新时间：2023-10-23 09:53:01 阅读量：综合文库文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

行测阅卷评分的标准推荐度：
相关推荐

编号专用页

论文编号：

评阅记录：阅卷人评分备注

阅卷评分系统的建立

摘要

客观评价一次考试或者考核成绩成为确定人才培养最终效果的重要依据。很多时候，我们的各项成绩确定往往需要多项指标共同确定，我们需要全方面的考虑评委的打分特点，因为每个评委都有自己的评分主观性，不可能绝对按照评分标准来评分，因此也就会产生由于评委个人原因而产生的偏差。

针对问题一，我们需要建立一个随机分配模型。将所有论文随机排布，同时，我们将评委随机分为三人一组，然后将每一份试卷随机的分发给随机分的三人小组。当第一次分的所有小组都拿到试卷后，再重新随机分组，再一次随时分发给每一组一份试卷。如此类推，直到所有试卷分发完毕。

针对问题二，我们采用了可视化的分数回收模型，并且同时需要建立一个规范标准分模型。先将所有试卷的三次打分成绩进行收集并且整理归类。通过一名评委的打分年数，得到每个评委的评分可信度，继而得到相应的权值。然后将每篇论文的三个评委的打分进行横向分析比较，给每个评委的评分定下一个权值，最后加权求和的结果作为一篇论文的最终成绩。

针对问题三，需要建立一个修正加权模型，通过对多次最终评分和各个评委打分的情况，统计每个评委在多次评分过程中的准确评分平均数，建立合适的隶属函数。最终根据隶属函数修正每个评委评分可信度，然后再修正所有评委之前定下的权值，通过最终得到的修正后的权值进行加权求和得到分数。

针对问题四，我们建立了数据积累和自动更新模型。我们提出使用标准分来充当一个相对评价量。标准分以平均分为参照点，以标准差为度量单位，将原始分化为具有同一计量单位的分数，这样更能体现评分的公证性和合理性，尽力去掉或减少评卷老师不同带来的成绩的差异和干扰和减少同一份试卷高分和低分的个人情绪干扰。

关键词：随机分配、权值、隶属函数、标准分、系统自修正

1 问题重述与分析

1.1 问题重述

信息化条件下，如何较为客观评价一次考试或者考核成绩成为确定人才培养最终效果的重要依据。很多时候，我们的各项成绩确定往往需要多项指标共同确定，以建模竞赛为例，假设有n篇论文提交，m个阅卷评委，要求每一篇论文需要被多个（以3个为例）阅卷评委审阅打分，现实的情况是，不同的阅卷评委的评分标准不尽相同，有的评委阅卷比较严格，每一分都有自己的想法；也有的评委评分比较随意，所有的分都差不多，等等。

问题一：建立一个合理的分配模型，首先确定每一位阅卷评委的具体阅卷论文是哪些？

问题二：建立一个可视化的分数回收模型，实时收集专家打分，如何将三个成绩规范为一个标准分？最后形成每一篇论文的最终成绩。

问题三：在评分过程中，由于不同专家评分特点或是其他原因导致多个（以3个为例）成绩差异较大，此时如何修正模型？

问题四：你有没有更好的评分策略，提出自己的想法并修改模型。比如在问题一中如何人工调控来让误差尽可能减小。 1.2 问题分析

本题研究的评分系统问题，而解决这个问题的核心在于如何制定一个准确的评分法则，更进一步来说，是确定三个评委分数的权值系数。

对于一个系统来说，它的一些参数应该是由实际的数据统计得来的。因此我们可以通过一定量的数据，寻找其统计学规律，确定系统所需的参数值。这样的参数是由实际数据得来的，因此应对其进行一定的处理。我们数据一共随机选取有1200篇论文，60个评委进行具体讨论。

对于问题一，为了更加公正的随机分发，因此对于所有的论文采用rand随机函数混排。对于所有的n篇论文共计n次评分次数平均分配给60个评委，同时将m个评委随机分为m/3=20个小组，将1200篇论文随机的抽取20份分发给20个小组，然后再重组20个小组，再次分发20份论文。直到全部分发完毕为止。

对于问题二，在问题一的基础之上，我们已经将所有论文分发完毕。然后对于每个评委的历次评卷分数进行纵向的标准化处理，得到每个评委的评卷标准值。对于每篇论文的3个评委进行分析，确定每个评委的评分权值，加权求和的结果作为一篇论文的最终成绩。

对于问题三，将每个评委的评分特点纳入评分系统考虑的范畴，统计每个评委在多次评分过程中的准确评分平均数，当评委评分与论文最终得分小于一个确定的比对偏差时，我们认定为一次准确评分，建立合适的隶属函数。最终根据隶属函数修正每个评委评分可信度，然后再修正所有评委之前定下的权值，通过最终得到的修正后的权值进行加权求和得到分数。

对于问题四，对于问题三的优化，每位评卷老师所评试卷的均值和方差都不相同。单独考察一个评卷老师，他所给出的所有试卷的分数，只能代表每份试卷在他心目中的地位，或者说是他所改的试卷在他心中的一个排序，体现在分数上只表示两份试卷的差异性。

但是现在的问题是，绝大多数的试卷的改卷老师都不完全相同，由于改卷老师个人

喜好的差异性，用不同阅卷老师给出的原始分数来比较两份试卷的优劣，恐怕就没有多少可比性，这样来比较当然有失公允，所以要体现评分的公证性和合理性，必须考虑下面两个问题：第一，尽力去掉或减少评卷老师不同带来的成绩的差异和干扰；第二，尽力去掉或减少同一份试卷高分和低分的个人情绪干扰

2 模型假设与符号说明

2.1模型假设

(1) 每个评委或者评卷小组评卷效率相同； (2) 假设论文评分都是以100分为满分； (3) 每篇论文评阅所需时间基本相同； 2.2符号说明

wi X Aij Gi Vi 第i个评委的评分权重第i个评委的评分第j个老师给第i份试卷的原始分第i个评委的最终评分误差第i个评委评分可信度，-Vi∝Gi 标准评分起评分 xi

3 模型的建立及求解

3.1模型一：随机分配模型

首先，我们对选定的1200篇论文编号1—1200，运用vc++软件，用rand函数对其进行随机排布。将60个评委三个一组随机组合，得到20个评委组合，60次分配之后，即可完成1200篇论文的随机分布。见图1（相关程序代码见附录一代码1，其中A,B,C,D,E……R,S,T代表20组评委，1—1200的数字代表论文编号）

图1 论文随机分配图

3.2模型二：可视化的分数回收模型

大量统计资料表明，大型选拔性竞赛，考生总体成绩合理有效的分布应该是成对称正态分布或正偏态分布。多人在一定规则约束下对一份试卷进行评定时，由于评卷教师都是长期任教，进行了严格培训与选拔，充分讨论了评分标准，模拟评卷，规范评卷行为，统一基调。由于所有阅卷人员都是独立自主按照评分标准评阅论文，那么所评成绩服从正态分布。即X~N（μ，σ2）。

由模型假设，设X是考生作文的评分，则应有评分的分解式：

X=μ+ε

因为

EX =μ, Eε =0， D ε =σ2

那么一篇论文的评分X的数学模型：

X=μ+ε

ε~N（0，σ2）然后，我们需要对评委的历次评分进行纵向统计分析。可以看见每一名评委的评分过程如图2。

图2 评委阅卷流程

首先对第i个评委历次评分做标准化处理，这样可以避免起评分不同以及高低分差值不同对最终结果的影响。然后制定统一的起评分和高低分差值，利用标准化数据还原得到标准统一的数据，将所得数据与选手最终得分的数据相比较，得到每个评委的评分可信度，继而得到相应的权值。

该结果跟所建立的典型情况具有很好的符合度。

对于A,B,C评委，通过上述方法得到其与最终评分的误差为 A B C -0.0583 -0.0159 0.0170

由于可信度与评委最终评分误差Gi成反比。因此B评委可信度最高，C评委可信度次之，A评委可行度最差。由此求得三位评委评分权值为：（相关程序代码见附录一代码2）

w1=（1?|G|?11)/2=0.286

|G1|?|G2|?|G3|w2=(1?|Gw3=(1?|G2|?1)/2=0.385

|G1|?|G2|?|G3|3|?1)/2=0.329

|G1|?|G2|?|G3|若三个评委给某篇论文评分为：

A B 80 85

该篇论文最终得分为：

C 86 B?w1?B1?w2?B2?w3?B3=83.819

3.3模型三：修正加权模型

因为在模型二中，我们已经得到了每位评委所有的60次打分情况。所以可以根据这六十次的结果进行进一步修正加权。首先引入隶属度区间分布函数的概念。

x~~定义如果有函数U(A,x)=μ(A,u?x)=

????(A,u)duL~~,其中?(A,u)是模糊数

~~~A的隶属度函数;L为 u在 - ∞到 x处的 Lebesque测度,则称 U(A,x)为模糊数A的隶属

度区间分布函数。容易得到：

a?(ā,a?u?b)???(ā,u)dub

因此建立模糊集模型。构造两个模糊集——绝对公平模糊集和绝对不公平模糊集。建立准确评分标准——当评委评分与最终评分差值小于4分，记作1次准确评分。统计评委60次评分经历中准确评分占总次数的百分比，当值大于95%时，该评委完全属于绝对公平模糊集；当值小于20%时，该评委完全属于绝对不公平模糊集；取值趋于两阈值之间时将该值作为该评委的隶属度。（注：两阈值是由实际数据仿真测量得来）然后根据所选评委的隶属度不同确定不同的评分求和权值。将选择的三位评委的加权分数相加即可得到某篇论文的最终分数。

3.4 模型四：标准分模型 3.4.1标准分模型

既然每一位老师给出的分数是体现不同的试卷在他心中的排名的差异，那么如果把分数整体平移也不会改变这种差异性。我们做如下调整，将每位评卷老师的均值平移到同一个基点。这个基点选取所有老师均值的均值（记为xi ，i=1 2，3，…，n）。每位老师方差的不同导致每位老师所给出的分对总分的贡献度是不同的，因此我们采用方差压缩的思想把所有老师的离散度（即方差，记为x0）调整到同一水平，这个水平我们选取所有老师方差的均值（记为＆i ）。然后对所有老师所给的分数进行调整。记aij为第j个老师给第i份试卷的原始分，那么经过这次调整后的分数aij为：

b?a

这样调整后，所有老师的均值都相同，方差也都相同，从而去掉了不同的老师评卷的干扰。这时如果某份试卷任意换一位评卷老师，分数也不会相差太远。 3.4.2 评分输入代码

该模型直接将本次评分记录存入该评委的评分记录文件中计算出该评委评分新的权值，从而使得评分系统拥有了自我更新和修正功能。该模型设计了基于VC++6.0的用户操作界面可供操作使用。其操作界面截图如下：（相关程序代码见附录一代码

图3评分操作界面

3.4.3 模型的优点

1、该系统同样需要一定数据量的积累才能够很准确的给出分数。在统计之初，该模型评分标准采用了模型二中三个评委横向分析的方法。

2、该系统同样具有自修正功能。

3、该模型不会受到太多评卷老师主观的影响，打出来的成绩接近真实水平，诚实可靠。

4 模型的评价与修改

模型一首先进行了任务的分配，采用rand随机函数的随机分配法则，其作用是有效的避免了论文评价过程中可能出现的造假现象，并且增加了论文评价过程中的公平度。并且将所有论文公平的随机分配给了所有评委，有效的完成了现实要求。

模型二分配完评分任务后，我们首先着眼于每个评委，希望通过对其以往评分数据的分析，找到其评分特点，根据评委的评分特点进行了加权，然后通过加权的方法进行分数的确定，公平性和全面性得到了体现。并且合理的得出了每份论文的成绩。

模型三采用了修正加权模型，很好修正了模型二的不足。因为模型二中只用阅卷的评分来做权值函数，减少评分老师经验带来的不同干扰，但忽视了评委个人主观性对分数的影响。模型三的修正，使与平均分偏差大的分数，所占权值小，修正了每个分数

的权值，保证减少了因评委个人打分随意行所带来的干扰。

模型四是采用标准分模型，因为每一位老师给出的分数是体现不同的试卷在他心中的排名的差异，将每位评卷老师的均值和方差平移到同一个基点，这样调整后，所有老师的均值都相同，方差也都相同，从而去掉了不同的老师评卷的干扰。这时如果某份试卷任意换一位评卷老师，分数也不会相差太远。这样就可以更加合理排除阅卷老师不同所带来的干扰。

5 参考文献

[1]徐子仪，标准分在数学教育评价和管理中的应用，黄冈师范学院学报，2001，10. [2]薛毅，《数学建模基础》，科学出版社，2011

[3] 万中,梁文冬,卢宗娟，《模糊数的隶属度区间分布函数》，重庆理工大学学报，2011年1月

[4]方开泰，实用多元统计分析，华东师范大学出版社，1986

[5薛定宇，陈阳泉，《高等应用数学问题的Matlab求解（第二版）》，北京：清华大学出版社，2008

附录一

代码1 论文随机分配的C程序

分配系统程序： #include #include #include #define P 40

#include #include #include #define P 40

int Rand(int X,int Y)//生成随机数 {

int temp; if(X>Y) {

temp=X; X=Y; Y=temp; }

return rand()%(Y-X+1)+X; }

void main() {

int arr[1200]; int a[60][61]; int i,j,k; int num=0; int r; int temp; int t[P]; int x[1200-P]; srand((unsigned)time(NULL)); for(i=0;i<1200;i++) arr[i]=i+1;//将数组赋值1~100 for(i=0;i<1200;i++)

{

r=Rand(0,1199); temp=arr[i]; arr[i]=arr[r]; arr[r]=temp; }//数组乱序 for(i=0;i<60;i++) a[i][0]=i+1;

for(i=0;i<60;i++) { for(j=0;j<20;j++) { a[i][j+1]=arr[num]; num++; } } for(i=0;i

arr[i]=t[i]; num=0; for(i=0;i<60;i++) { for(j=0;j<20;j++) { a[i][j+1+40]=arr[num]; num++; } } for(i=0;i<60;i++) { printf(\专家编号：%d\\n\\n\ printf(\所批试卷编号：\ for(k=0;k<60;k++) printf(\ printf(\ } }

代码2 权值计算程序 clc;

yy1=xlsread('D:\\b.xls','sheetA','A2:A61'); yy2=xlsread('D:\\b.xls','sheetB','A2:A61'); yy3=xlsread('D:\\b.xls','sheetC','A2:A61'); yy4=xlsread('D:\\b.xls','sheetD','A2:A61'); yy5=xlsread('D:\\b.xls','sheetE','A2:A61'); yy6=xlsread('D:\\b.xls','sheetA','B2:B61'); yy7=xlsread('D:\\b.xls','sheetB','B2:B61'); yy8=xlsread('D:\\b.xls','sheetC','B2:B61'); yy9=xlsread('D:\\b.xls','sheetD','B2:B61'); yy10=xlsread('D:\\b.xls','sheetE','B2:B61'); y1=(yy1-mean(yy1))./std(yy1); y2=(yy2-mean(yy2))./std(yy2); y3=(yy3-mean(yy3))./std(yy3);

y4=(yy4-mean(yy4))./std(yy4); y5=(yy5-mean(yy5))./std(yy5); y6=(yy6-mean(yy6))./std(yy6); y7=(yy7-mean(yy7))./std(yy7); y8=(yy8-mean(yy8))./std(yy8); y9=(yy9-mean(yy9))./std(yy9);

y10=(yy10-mean(yy10))./std(yy10);

% xlswrite('D:\\c.xls',y1,'sheet1','A2:A61'); % xlswrite('D:\\c.xls',y2,'sheet1','B2:B61'); % xlswrite('D:\\c.xls',y3,'sheet1','C2:C61'); % xlswrite('D:\\c.xls',y4,'sheet1','D2:D61'); % xlswrite('D:\\c.xls',y5,'sheet1','E2:E61'); z1=75+12.5*y1; z2=75+12.5*y2; z3=75+12.5*y3; z4=75+12.5*y4; z5=75+12.5*y5; z6=75+12.5*y6; z7=75+12.5*y7; z8=75+12.5*y8; z9=75+12.5*y9; z10=75+12.5*y10; w(1)=mean(z1-z6); w(2)=mean(z2-z7); w(3)=mean(z3-z8); w(4)=mean(z4-z9); w(5)=mean(z5-z10);

代码3 基于VC6.0的评分输入界面程序：

#include

float weight[6]={0,0,0,1,0.3,0}; void main() { int n1,n2,n3; float judge[6],grade; printf(\一号评委评分在90分左右，且分布随机\\n二号评委准确度较高\\n\ printf(\三号评委评分只有60 75 90三个档位，但评分合理\\n\ printf(\四号评委评分在60分左右，且分布随机\\n\ printf(\五号评委评分随机分布在60~90分之间\\n\ putchar(10); printf(\请选择三位打分的评委。以空格隔开，回车结束（1~5）：\\n\ scanf(\ printf(\请输入三位评委的评分：\\n\

}

scanf(\if(weight[n1]==0&&weight[n2]==0&&weight[n3]==0) grade=(judge[n1]+judge[n2]+judge[n3])/3; else {

weight[n1]=weight[n1]/(weight[n1]+weight[n2]+weight[n3]); weight[n2]=weight[n2]/(weight[n1]+weight[n2]+weight[n3]); weight[n3]=weight[n3]/(weight[n1]+weight[n2]+weight[n3]); }

grade=weight[n1]*judge[n1]+weight[n2]*judge[n2]+weight[n3]*judge[n3]; printf(\论文最终得分为：\\n%f\\n\

本文来源：https://www.bwwdw.com/article/osuf.html

相关文章：

正在阅读：

阅卷评分系统的建立10-23

当代大学生恋爱问题调查问卷03-14

西方心理学史考试重点05-15

对幼儿园集体教学活动有效性的思考09-18

通辽亲子活动公司哪家好？12-26

2011年-2010年最新标准、规范目录汇编05-13

普通车床数控化改造设计(CA6132)08-18

2021年民主评议党员情况的报告08-16

小学三年级学生期末评语集06-04

瑞典留学residence permit申请经历分享09-19

上一篇：质子交换膜的研究进展下一篇：2006年北京市中小学教师资格认定考试《教育心理学》真题