学生成绩分析数学模型

更新时间:2023-06-08 16:26:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

仅供参考

科学全面的学生素质评价体系

摘要

随着现代科学技术的迅猛发展,社会对人才提出了越来越高的要求。用人单位更强调人才的综合素质,而不仅以学习成绩论成败。社会上人才观念的这一变化,凸显了提高大学生综合素质的重要性。客观、科学地全面评价学生,是对学生个体的认可、也是对学生鼓励;激励先进,勉励后进,是营造良好学风的关键之一。如何全面、客观、科学地评价大学生的综合素质能力,建立一套科学合理的素质评价体系则是解决这一问题的重中之重。本文采用层次分析法,构建了一套评价普通高校大学生综合素质的指标体系,希望能够在大学的教育教学管理中提供借鉴。

本文首先通过分析附件中的612名学生四个学期综合成绩,发现成绩会根据试题的不同导致分布状态的变化,利用SK 法,Q-Q图检验为负偏态分布。所以首先利用转化函数将所给的成绩进行标准化使得标准化后的成绩能够满足统一的正态分布曲线,去除了试卷难度对于学生的影响。

然后在对学生学习的评估中,利用了Virsul Foxpro语言最基本的赋值语句对学生的综合素质结果进行复制后我们有运用了建立方差分析法、聚类分析法、对学生成绩坐了进一步的分析与判定。

在计算过程中,我们运用了SK法、Q_Q图、析法,在探讨过程中,我们发现假设在学生学习情况不变的情况下excel中的方差分析法、以及聚类分都能得到可行性的科学评估值,可以很好的反应学生的动态的进步情况,而SK法、Q_Q图只能单方面的反应,并不全面。最后,我们对我们所建立的模型进行了客观的比较,并对其应用前景进行了

展望。 关键字:

2 问题的重述

正确地、科学的评价学生的学习状况对于学校的教学工作至关重要,它是学生认识自己的前提条件,是激励学生努力学习不断进步的动力,同时也是教师培养学生的参照基础。然而,现行的评价方式单纯的根据“绝对分数”评价学生的学习状况,忽略了基础条件的差异;只对基础条件较好的学生起到促进作用,对基础条件相对薄弱的学生很难起到鼓励作用。

在本题中,附件给出了612名学生连续四个学期的综合成绩。要求我们做到以下三点:

1.根据附件数据,对这些学生的整体情况进行分析说明;

2.根据附件数据,采用两种及以上方法,全面、客观、合理的评价这些学生的学习状况;

3.根据不同的评价方法,预测这些学生后两个学期的学习情况。

3 问题的分析

1、首先我们通过原始数据可以做出其基本的统计量和直方图。考虑到在学

仅供参考

生成绩评价中会收到试卷难度等因素的影响。所以必须得构造转化函数将所给的成绩进行标准化使得标准化后的成绩能够满足统一的正态分布曲线,去除了试卷难度对于学生的影响。

2、在学生整体成绩评估中,我们可以分析学生成绩平均值和稳定度的关系、

分析学生成绩段人数、分析学生整体进步度、分析基础成绩对于总成绩的影响。

3、对于构造模型对学生学习状况进行合理有效的评估,我们可以利用方差分析法、聚类分析法以及层次分析法这三个模型进行评价。

4模型的假设

1、假设每个同学的学习能力基本不变 2、假设每个学生处于相同的考试环境中

3、假设附件中所给数据为学生真实考试成绩,不存在作弊问题 4、以后两个学期与前面四个学期采用同样的记分方式

5、在模糊预测模型中我们假设两个学期学生的学习状况是不变的

5符号的说明

P: 学期 M: 学生序号 D::总评价的分

他主要符号将在模型建立的时候详细说明

6模型的建立

5.1 数据标准化

为了避免现行评价方式中仅根据“绝对分数”评价学生学习状况,设计出一种新型的发展性目标分析法,必须考虑到基础条件的差异,学生原有的学习基础,也注意到学生学习的进步因素。

首先注意到题干中所给出的数据为学生四个学期的分数,由于在实际中,如果单单注意绝对分数的话,由于试卷的难度的不同,会导致单纯通过题干给出

仅供参考

的数据信息进行分析肯定是不准确的。

根据教育学与统计学的理论,一次难度适中信度可靠的考试,学生的成绩应接近正态分布。也就是说,当学生的成绩接近于正态分布时,说明此次考试基本达到了教学要求。判断成绩是否接近正态分布最直观,最有效的方法就是将成绩分布曲线与均值和方差相同的正态分布曲线加以比较。

如果是负偏态分布,则说明试题总体难度偏高;如果是正偏态分布,则说明试题总体难度偏低;如果是陡峭型分布,则说明试卷中难度中等的度量占比重太大。

这样首先做出所给数据中四个学期成绩的方差分析和原始成绩的统计分析,其中实线表示正态分布的曲线,直观的说明所给成绩为偏正态分布。这样我们的目标就变为构造一种变换使学生每个学期的成绩符合相同的正态分布曲线,这样也就能将试卷难度等影响消去,才能对所给的每个学期的成绩相互之间进行比较。 方差分析:单因素方差分析

SUMMARY 组 学期1平均成绩 学期2平均成绩 学期3平均成绩

观测数 求和

44402.2

612 22525

45516.6

612 10084

44780.1

612 9827

平均 72.552651185 74.373545888 73.170258611

方差 90.251045421 112.30517151 81.238387361

仅供参考

学期4平均成绩

方差分析

差异源

612 SS 2372.2741196 237495.34183

239867.61595

45938.579721 df

75.063038759 MS 790.75803988 97.174853449

104.90480951

F 8.137476022

P-value 2.166326607E-05

F crit 2.6085441047

组间 组内 总计

3 2444 2447

仅供参考

其次对原始数据进行SK检验得: Sk Ku

这样通过以上的分析,我们可以发现,直方图在标准正态分布曲线的右边,且Sk<0,则都属于负偏态分布,说明试题的总体难度是偏低的。而且根据Ku值渐渐变大可以发现试题中中等难度的题目越来越多了。根据其平均值和方差可知:学生在第四学期的平均成绩最高,其次是第二学期,第一学期和第三学期的平均成绩略低一些;但是从方差来看,第一、三学期低于第二、四学期,这从上图中也可以明显看出,第一、三学期学生的成绩分布要比第二四学期学生的成绩分布要集中。

那么下面我们构造一种方法使得每个学期学生转化后的成绩符合相同的正态分布曲线。

定义:xi0(i=1,2…n)为n个学生的某一学期的原始成绩。

yi ln(100 xi),这样就可以将一个偏正态分布转变成了yi满足的正态分

第一学期 第二学期 第三学期 第四学期

-1.236 -1.919 -1.944 -2.928 2.5 7.043 8,142 14.479

布,由于该函数单调递减函数,原始成绩高的反而变得成绩低了,为和传统保证一致,进行以下变换xi1

2y yi。这样就能得到一个满足标准正态分布的数据了。

下面通过坐标的偏移拉伸使得其满足相同分布的正态分布。

xi的方差为:

1

2

(xn 1

i 1

1

n

1i

x),得到xi

122

xi x

11

,这样均值就偏移

到了x=0处,且标准差为1。作出X2的直方图如下:

仅供参考

利用Q-Q图检验其正态性得:

说明其具有良好的正态性,那么数据的标准化和检验均告完成,这样就去除了试卷难度等客观因素导致成绩分布不合理产生的误差。下面就可以根据已得到的标准化数据对于学生成绩进行评估。

以上所述为整体分析,我们又用Excel处理了原始数据——B题附件,由于数据的庞大,为了简化模型,利用系统抽样随机选取其中的十名同学进行分析。 系统抽样步骤: 1)共有612名学生,从学生编号为1的同学开始,每隔60名抽取一位同学; 3)得到结果:选取第1、61、121、181、241、301、361、421、481、541、 601位同学。

仅供参考

如:

总体评价。共分A,B,C,D四个等级,A级最高。

为了使结果数字化,利用Virsul Foxpro语言最基本的赋值语句结构:变量名列表 = 表达式 >>clear A=90 B=80 C=70 D=60

根据显示结果, 表2: 为了更好的、全面的客观分析每一位同学的全方面的综合成绩,在把每位同学的综合素质评价转化为分数后,为了得到更全面的学生评价,我们用下一种方法——聚类分析法重新分析现有数据:

聚类分析又称群分析、点群分析,是定量研究分类问题的一种多元统计方法。

仅供参考

人类认识世界往往首先将被认识的对象进行分类,因此分类学便成为人类认识世界的基础科学。在社会生活的众多领域中都存在着大量的分类问题。以前人们主要靠经验和专业知识做定性分类处理,致使许多分类带有主观性和任意性,不能很好地揭示客观事物内在的本质差别与联系,特别是对于多因素、多指标的分类问题,定性分类更难以实现准确分类。

聚类分析包括很多种方法,系统聚类法是最基本、最常用的一种,此外还有有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等,不同的方法适合解决不同类型的问题,本文主要采用的是最常用的系统聚类法。

聚类分析用于系统类群相似性的研究,其实质上是寻找一种能客观反映样品或变量之间亲疏关系的统计量,然后根据这种统计量把样品或变量分成若干类。常用的统计量有距离和相似系数。在距离中,我们主要使用间隔尺度:

间隔尺度: 是用连续的实值变量来表示的,是由测量或计数、统计所得到的量。如:经济统计数字、抽样调查数据、身高、体重、年龄、速度、压力等。

不同类型的变量,其距离和相似系数的定义方法有很大差异。用得较多的是间隔尺度,因此只采用间隔尺度的距离和相似系数的定义。

N位学生p学期形成形成的原始数据资料矩阵中,每一行表示一个学生,每一列表示一学期的成绩。因此,两个样品的相似性可用矩阵中两行的相似程度来刻划;两个变量的相似性可用矩阵中两列的相似程度来刻划

1. 距离定义:将n个学生看成p维空间中的n个点,两个学生间相似程度可用p维空间

中两点的距离来度量。

612

L=

i,j=1

(xixj)

2

下面用matlap编程来求解

function[sol,eval]=fitness(sol,options) L=sol(1)

eval=squ((x-y)﹡2)

initpop=initt=ializega(612,[02],fitness,[],initpop[1-612])maxgenterm612,normgeomselect,

仅供参考

根据以上表格可以得出各个距离段的人数分布表以及条形图

通过以上分析我们了解到,距离集中在20到40之间的是比较多的,而在两端的人数明显很少,从中可以看出不及格的人数和成绩靠前的学生人数是很少的,成绩越是集中,就越能说明着说明了成绩分布比较稳定且集中在某个数附近,这正好和上文中中SK分析得到的结果一致,也就是陡峭度越来越大。从柱状图图中还可以看出,成绩的分布渐渐朝着高分发展,这与SK分析中Sk值渐渐减小也是相一致的。

显然在这一步的分析中,造成这个结果的产生,可能因为试卷的原因,也可能是学生们通过学习进步的结果。

计算出任何两个样品之间的距离排成距离阵D,根据D可对612个学生进行分类,距离近的学生归为一类,距离远的学生归为不同的类

2. 相似系数:将n个学生看成p维空间中的n个向量。 (2) 相关系数

对整个表格用excel函数进行计算其相关系数,可得如下表格:

74.825 74.29 76.98 74.825 1 74.29 0.687677 1 76.98 0.651139 0.774516 1

以上是学生分类常用的距离和相似系数,它是在p维空间中来研究n个样品间的相似;

仅供参考

而对变量分类是在n维空间中来研究p列变量间的相似,其相似性也用距离和相似系数来度量

在实际问题中,对样品分类常用距离,对指标分类常用相似系数;用距离时找最小的元素并类,用相似系数时找最大的元素并类

系统聚类分析也叫分层聚类分析,是目前国内外使用得最多的一种方法,有关它的研究极为丰富,聚类分析的方法也最多。

(1)计算n个样品两两之间的距离记为矩阵D; (2) 首先构造n个类,每一类中只包含一个样品; (3) 合并距离最近的两类为新类;

(4) 计算新类与当前类的距离,若类的个数已经等于1,则转入5,否则回到3; (5) 画谱系图;

(6)决定类的个数和类。系统聚类允许一类整个地包含在另一类内,但在这两类间不能有其他类与之重叠

样品之间可以用不同的方法定义距离,类与类之间的距离也有多种定义。用不同的方法定义类与类之间的距离,就产生了不同的系统聚类方法

(1)最短距离法:定义类与类之间距离为两类最近样品的距离,使空间浓缩,形成

链状,分类效果不好;

(2)最长距离法:定义类与类之间距离为两类最远样品的距离,受奇异值的影响

大;

(3)中间距离法:介于最长与最短距离之间的一种距离,当β=-1/4时,即为三角

形的中线,以它作为类与类间距离。

(4)重心法:以两类重心之间的距离作为两类间的距离。重心即该类样品的均值。

每合并一次类,都要重新计算新类的重心。不具单调性,图形逆转,限制了其应用,可能引起局部最优,但在处理异常值方面较稳健

(5)类 平 均 法: 以两类元素两两之间距离平方的平均作为类间距离的平方。 (6 )可变类平均法:与5相比,考虑了两类Gp与Gq之间距离Dpq的影响。 (7)可 变 法: 其中β是可变的,分类效果与β的选择关系极大,β常取负值。

(8)离差平方和法:又称Ward法,其基本思想是认为同类样品的离差平方和应当较小,类与类的离差平方和应当较大。首先n个样品各自成一类,然后每次缩小一类,每缩小一类离差平方和就要增大,选择使离差平方和增加最小的两类合并,直到所有样品归为一类。它分类效果较好,应用较广泛,对异常值较敏感

(1) 类与类之间距离定义不同;

(2)计算新类与其他类的距离所用的公式不同,因而并类距离不同;

各种方法并类步骤完全一样。在采用欧氏距离时,可归结为统一的递推公式,对编

制微机程序提供了很大的方便

评价学生的学习状况

仅供参考

(1)方差分析法

根据上文中我们发现评定学生学习状况的依据有,学生的平均分,学习波动度,进步度。下面从三个方面对学生进行综合评定。

设:第M个同学的因素集Ui={平均分ui1,学 恩习波动度(标准差)ui2,平均进步率ui3},评语集Vi={优vi1,良vi2,中vi3,差vi4}

对于每名学生基于其四个学期成绩及成绩变化做单因素评价:

首先我们确定优良中差的比例固定为1:4:4:1,这样就能使学生评价处于平均,增强学生的学习动力。

1、对于平均分ui1

因为不同基础的同学对某一得分同学的评价不同,所以当一名学生得 60 分时,得分大于80 分的同学会认为其基础差。所以对学生的分数进行优良中差的比例分类:

得到ui1的单因素评价向量为:

ri1 (ri1y,ri1l,ri1z,ri1c)

,ri1y,ri1l,ri1z,ri1c分别为优良中差的权重

2、对于标准差ui2得:

仅供参考

得到ui2的单因素评价向量为:

ri2 (ri2y,ri2l,ri2z,ri2c),ri2y,ri2l,ri2z,ri2c分别为优良中差的权重

3、 对于平均进步率ui3得: 得到ui3的单因素评价向量为:

ri3 (ri3y,ri3l,ri3z,ri3c)

,ri3y,ri3l,ri3z,ri3c分别为优良中差的权重

这样得到单因素评价矩阵:

ri1

Ri ri2

r i3

ri1y,ri1l,ri1z,ri1c

rr,r,r i2y,i2li2zi2c

ri3y,ri3l,ri3z,ri3c

考虑到对于差生的鼓励作用,我们认为平均进步率和平均成绩甚至比平均成绩更加重要,这样我们将三个因素分配权重为:

C=(0.4, 0.1, 0.5)

Bi CRi

ri1y,ri1l,ri1z,ri1c

(0.4,0.1,0.5) ri2y,ri2l,ri2z,ri2c

做模糊变换:

ri3y,ri3l,ri3z,ri3c

(biy,bil,biz,bic)

这样就能得到特定同学的评价向量了。

在对其总分进行加权分析得:学生总评价分Di 3*biy 2*bil biz 由于总评价分是在区间[0,3]上的,所以可以划分为4类: [9/4,3],[3/2,9/4],[3/4,3/2],[0,3/4]分别为优良中差。 下面计算前10名同学的评价向量和总评价分:

仅供参考

数据为:

0.5,0.4,0.1,0

可以得到第一名学生的R1 0.5,0.4,0.1,0

0.1,0.4,0.4,0.1

这样B1=(0.3, 0.4, 0.25, 0.05) D1=1.95

所以第一名学生的评价应该为良

利用Matlab通过以上方法对所有数据进行求解得:(仅列出前10名同学的数据)

学号前十的学生的综合评价排名为:

D5 D3,D9 D1 D2,D4 D10 D6 D7 D8

我们可以发现,由于构造加权系数的时候,我们在学生的优良中差的比例设置中将良和中的比例设置的比较高,这样导致了我们得出的分类评价中良和中比例比较高。这样也符合教师评价学生的一般规律。

(2) 基于层次化分析的模糊评价的改进模型

在5.3.1中我们发现上述的模型建立会出现如下问题:

仅供参考

1、在5.3.1中,对于数据的结果我们发现,虽然我们求出了学生总评价分

Di

,但是Di是一个类似量子化得值,这是由于我们在模型建立的第一

步就已经将各种成绩的数据进行了分类。这样由于Di的值的影响,我们会发现很多通过已给的成绩可以比较相互之间差异的同学,我们通过Di的值发现两者的学习状况是一样的,这显然是有问题的。那么我们可以很容易的想到直接利用所得到的标准化的成绩进行分析。

2、在5.3.1中我们了解到所给的权值都是我们自己预设的,这样的科学根

据显然是不精确的,这样我们想到了利用层次分析法对权值进行估计。 3、在5.3.1中,我们对于每个学期成绩的影响视为完全相同的,这显然是

不精确的,在实际问题中,对于当前学生学习成绩的评估,最近一次的成绩当然是更加重要的。

这样我们可以得到分析所用的层次图:

首先对数据进行处理,由于评分的原因,不论是哪一学期的成绩还是进步度,抑或标准差,他们的单位首先是要统一的,我们将每组数据都除以改组数据的最大值,这样就能将他们的数据的满分设为1,这样总体评价分的满分也设置为1了。 得到处理后的数据为:

仅供参考

下面根据层次分析法进行权值分析:

设第i名学生的j个学期的成绩为mij,第k次成绩进步度为sik,标准差为ui 首先是第一层:

同样是为了鼓励学生,我们设学生进步情况比学生成绩情况稍强,设为2;学生成绩情况比成绩波动性明强,设为5,学生进步情况比成绩波动性设为6;这样

1,1/2,5 R1 2,1,6

可得到比例矩阵为;

1/5,1/6,1

这样通过matlab可得最大特征根 λmax = 3.0291

得到第一层权值向量为W1=(0.3420 0.5769 0.0811) 通过检验得: CR=CI/RI=0.01042<0.1 检验正确可行 其次对第二层进行分析:

设每学期对于学生总体成绩评价的影响度逐步提升,得到:

1,1/2,1/3,1/4

2,1,1/2,1/3

R2

3,2,1,1/2 4,3,2,1

同样可得:最大特征根 λmax = 4.0310

得到第二层成绩权值向量为W2=( 0.0954 0.1601 0.2772 0.4673) 检验可行性成立

仅供参考

同样成绩进步度对于成绩进步情况的影响逐步提升,得到:

同样可得:最大特征根 λmax = 3.0092

得到第二层成绩权值向量为W3=(0.1634 0.2969 0.5396) 检验可行性成立 综上所述:

设612位同学的成绩向量,进步向量,波动性向量分别为:

1,1/2,1/3 R3 2,1,1/2

3,2,1

M (m1,m2,m3,m4),S (s1,s2,s3),U

总成绩评价为:D (M*W2,S*W3,U)*W1

得到评价如下表,通5.3.1的流量中差比例为1:4:4:1进行分类得到: 学号 1

2 3 4 5 6 7 8 9 10

得到学号前十的同学的排名为:

总体评价 0.0426 0.0013 -0.0693 0.0996 0.1499 0.0141 -0.106 -0.4667 -0.0492 -0.0654

分类 良 中 中 良 良 中 中 差 中 中

学号 11 12 13 14 15 16 17 18 19 20

总体评价 -0.0925 -0.1179 0.1696 -0.0229 0.0802 0.1909 0.0417 -0.131 -0.0283 -0.028

分类 中 中 良 中 中 良 中 中 中 中

学号 21 22 23 24 25 26 27 28 29 30

总体评价 -0.0152 0.1865 0.0115 -0.0146 0.1056 -0.2125 -0.1062 -0.2144 -0.0879 -0.0864

分类 中 良 中 中 中 差 中 差 中 中

T

T

T

仅供参考

D5 D4 D1 D6 D2 D9 D10 D3 D7 D8

并发现学号为539的学生学习情况最好,调出其原始数据: 学生序号

539

学期1成绩 86.583

学期2成绩 82.741

学期3成绩 79.553

学期4成绩 89.625

可以发现其平均成绩较好,而且在第四学期成绩有了很好的提升,这使得其在综合评价的过程中,由于第四学期的成绩和进步的权重较高,这样该生的学习状况非常好。

与5.3.1中的模型结果加以比较,可以发现:

两者的分类情况基本是一致的,对比前10名同学的情况,发现2,3,6,7,9,10的同学,在评价时其分类由良变成了中,这是由于其第四学期的成绩不理想造成的,而在这个动态评价模型中,第四学期的权重是相当高的,这样才导致了这些同学的综合评价的下降。

6各种方法的比较与应用

下面我们对所给出的方法进行比较:

(1)方差分析法

首先利用已得到的标准化数据,求得所有学生的成绩每个方差也就是上文中提到的距离,学生的平均进步度,学生的波动度这三个影响学生学习状况的值。并对于这些数据进行优良中差的分类,接着人为的规定每个部分的权值,利用这个权值对于学生的学习状况进行模糊分类评估。 优点:能够较精确的对学生的学习状况进行分类

缺点:在权值的分配上是人为进行的,这是不科学的一种分配方法。 得到的总评价分由于数据在一开始就已经进行了分类处理,所以所得到的总评价分是一个量子化的值,这样就不能精确的对两两学生的学习状况进行比较。

(2) 聚类分析法

对于1中的缺点我们提出了基于层次化分析的改进。

优点:在权值问题上,利用了层次化分析的原理,得到了每个层次所包含的权值。

仅供参考

利用每个学生每个学期的成绩和每个学期的进步情况进行分析,这样就得到了精确的总评价分数,可以对所有学生的学习状况进行排名。

在此模型中,充分考虑了学生的进步情况,在赋予权值的时候认为近期学生的成绩和进步度对于学生学习状况的影响大于以前的成绩和进步度。

(3) SK法

SK法是数据包络分析方法,它的功能是“评价”,特别是进行多个同类样本的“相对优劣性”的评价,它根据一组关于多输入多输出的观察值来评估有效性。利用每个学生的有效值对于学生的学习状况进行分类。

优点:这个模型的注重点不在于学生这个学期的进步情况,而在于学生是否能够在满足其波动曲线的情况下稳定的进步。也就是说如果一个学生本学期的成绩突然进步很多,他的有效值并不会很高,相反如果他能够在前面进步的基础上缓慢进步,则说明他学习是有效的。 这个模型可以说是上述两个模糊分类模型中盲点的补充

7 参考文献

唐秋晶,运用数理统计方法评价学生的学习状况[J],济宁师专学报,第19卷第6期:P10—P12,1998年12月

邓磊-数学与应用数学,西师版,数学建模第6讲 王树禾,数学模型与基础,中国科大出版社

本文来源:https://www.bwwdw.com/article/ijf1.html

Top