研究生招生指标的分配问题

更新时间:2023-12-24 08:35:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

2012高教社杯全国大学生数学建模竞赛

承 诺 书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): A

我们的参赛报名号为(如果赛区设置报名号的话):

所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名):

日期: 2012 年 8 月 29 日

赛区评阅编号(由赛区组委会评阅前进行编号):

1

2012高教社杯全国大学生数学建模竞赛

编 号 专 用 页

赛区评阅编号(由赛区组委会评阅前进行编号):

赛区评阅记录(可供赛区评阅时使用): 评 阅 人 评 分 备 注

全国统一编号(由赛区组委会送交全国前编号):

全国评阅编号(由全国组委会评阅前进行编号):

2

A题 研究生招生指标的分配问题

摘要

高等学校研究生指标分配问题,对研究生的培养质量、学科建设和科研成果的取得有直接影响。本论文主要对高校硕士研究生招收指标分配问题进行了建模、求解和相关分析。

问题一 通过对原始数据进行归一化处理,基于支持向量机[1、2]的基本理论,然后将这344个样本作为训练集,把10个未知的样本赋以初始等级,用训练集对SVM进行训练可得到分类模型,再用得到的模型对测试集进行类别指标的预测;最后将缺失岗位级别的教师补全,结果为第103位教师属于四级岗,第18、110、123、150、168、274、324、335、352位教师属于七级岗;并对模型计算分类准确率为93.314%。

问题二 从7个岗位级别进行考虑,对每个岗位级别招生人数、科研经费、发表中英文论文数、申请专利数、获奖数、获得优秀论文数取平均值,运用MATLAB作出趋势图,并从趋势图可以看出除了科研经费、申请专利与岗位级别之间没有明显关系外,其余的随岗位级别的降低而降低;最后采用线性最小二乘拟合,拟合出其他因子与岗位级别的统计关系。

问题三 首先利用2007~2011年的招生人数均值作残差图,通过残差图发现2010年的招生人数存在异常,并根据整体拟合方程将其进行修正后建立对2012年招生人数灰色GM?1,1?预测模型,同时对预测结果进行检验;其次根据2007~2011年的各岗位招生率预测2012年各岗位级别招生人数所占比重,从而得到1~7岗位级别分别招生人数为54、43、42、163、43、55、339;最后根据国内硕士生招收类型招生比例及各学科招生比例,从而得出2012年招生名额预分配方案。

问题四 基于模糊矩阵的相关理论,对40个指标进行聚类分析,选出影响较大的7个指标,并对其进行权重计算;然后再通过主成分分析,结合权重得到每个学科的加权评分;并根据以上的加权评分对第三问的预分配结果进行调整,最后得到2012年的调整分配方案。

问题五 考虑到影响招生分配方案的因素复杂繁多,本问将大量的数据进行标准化处理,利用模糊聚类模型和主成份分析模型,最后得到影响研究生分配方案的各主成份综合得分为:

Y??1

??ii?1nY1??2??ii?1nY2????i??i?1nYni

根据上式可以得出各相似类的综合得分,并据此排序。

关键词 研究生指标分配 支持向量机 灰色GM?1,1?模型 聚类分析

1

一、 问题重述

研究背景

研究生招生指标的优化分配,对研究生的培养质量、学科建设和科研成果的取得

有直接影响。但是如何制定研究生招生指标分配方案却不是那样简单,它不仅和导师的综合素质有关,而且还与历届招生质量,招生来源,各个专业当前的发展情况以及社会的需求等等都息息相关。在2011年研究生招生改革方案中,又将硕士研究生招生指标划分为学术型和专业型两类。该改革方案的实施,给研究生教育的发展带来发展机遇的同时,也给指标分配的优化配置提出了新的思考。 文献综述

高等学校对研究生招生指标的分配有着比较严谨的思考, 根据《中华人民共和国国民经济和社会发展第十二个五年规划纲要》确定的发展目标,研究生教育的改革和发展要认真贯彻全国教育工作会议精神,以人才培养为根本、以提高质量为核心、以优化结构为重点。

在该论文中,结合教育部《国家发展改革委关于下达2012年全国研究生招生计划的通知》,完成了对影响研究生招生指标的多种因素进行相关数据的处理和分析,有效地进行了相关预测,并阐述了制定最优研究生分配方案的相关思想,同时也积极地响应了国家为更好地贯彻落实教育部对研究生招生计划的号召。 目的意义

国家对于高等人才的需求日益增加,教育部在前不久出台的关于研究生招生的相关政策中强调,要改革研究生招生制度必须考虑到“四个需要”,更多地体现出“因才施考”。因此制定优化的研究生招生分配方案是很有必要的。本文就影响研究生招生分配方案的多个指标进行一定的分析和预测,并制定更优研究生招生分配方案,对于今后社会对高等人才的需求以及研究生招生方案的最优配置都具有一定的前瞻性。

二、 基本假设

a)

b) c) d) e)

假设题目所给的数据准确可靠;

假设2012年各学科导师人数、各导师的岗位级别没有较大的变化; 假设研究生的生源质量等能得到保证;

假设2012年上级对各学科建设的政策没有重大调整; 假设处于同一个岗位级别的所在点位于同一区域

三、 符号说明

符号 i 符号说明 2?344) 表示第i个数据已知的导师(i?1,yijnij

表示第i个岗位第j个因子数据平均值 表示第i个岗位第j个因子数据导师的数目 2

yijmki 表示第i岗位的第m个导师对应的第j个因子数据 直线斜率 发展灰数 内生控制灰数 待估参数向量 2012年硕士生总招生人数 2007~2011年总招生人数 各学科从2007~2011总招生人数 2012年各学科招生人数 归一化修正的数据 数据中库中的最小值 数据中库中的最大值 构造模糊矩阵 阀值 ? ? ? ?Qm Wm bm ?m x' xmin xmax rij ?

四、 模型的建立与求解

4.1模型一的建立与求解 4.1.1问题分析

经过对问题的分析,发现数据的单位都不同,因此指标与指标之间有着较大的差异。因此,第一步首先通过MATLAB把数据归一化,通过公式x??x?xminxmax?xmin把附件中的数据进行整合,使附件中的数据都落在区间?0,1?之间。同时,附件中共含有354个样本,每个样本有40个指标,其中344个指标标签已给,10个未知。将这344个样本作为训练集,把10个未知的样本赋以初始等级,用训练集

3

对SVM进行训练可得到分类模型,再用得到的模型对测试集进行类别指标的预测。

4.1.2模型建立

将给定的样本数据xi??x?1,?,M?分成I 类和Ⅱ类,相对应的标签为

?1xi为Ⅰ类yi??。对于线性数据,利用分类超平面f?x??0可以将样本分为两

?1x为Ⅱ类i?类。SVM 实际是在求解如下的问题:

f?x??wx?b??wjxj?b?0(1)

Tj?1Myif?x??yi?wTxi?b??1,for i?1,?,M(2)

确定最优超平面可以转化为求最大几何间隔。由于可能有一些样本数据不能被正确分类,特意引入松弛变量?i和惩罚参数C。

M12最小化w?C??i( 3)

2i?1T??yi?wxi?b??1??ii?1,?,M( 4) 约束条件??i?0??根据Kuhn?ucke条件,利用Lagrange函数使上面的问题转化为下面较简单

M?L的对偶问题。通过求解( 4)式就可以得到w和b。令,,awax?wb???y??wj?1iii?0和

M?L?w,b,a???yiai?0,就可以将关于L的最优问题转化为?的最大化问题,即 ?wj?11M最大化L??????i???i?jyiyjxixj

2i,j?1i?1约束条件ΣM

i = 1

yiαi = 0, αi ≥0,i = 1,?,M ( 5) 求解上面的目标最优问题就可以得到αi ,从而得

到w,再根据Karush-Kuhn-Tucker 互补条件就可以得到 分类阈值b。由于SVM 不是直接求解高维特征空间的 点积( Φ( xi ) Φ( xj

) ) ,而是利用高维空间的核函数来

4

M

代替它,因此就不需要知道非线性映射的具体形式。 决策函数就变成下面的形式: f( x) = sign ΣM i,j = 1 αiyiK( xi ,x j

[ ) + b] ( 6)

选择不同的内积核函数就可以形成不同的算法,

目前比较常用的核函数有4 种,即线性核函数、多项式 核函数、径向基核函数和Sigmoid 函数。

模型建立首先需要从原始数据里把训练集和测试集提取出来,然后进行一定量的预处理,之后用训练集对SVM进行训练,再用得到的模型来预测测试集的分类标签,算法流程如下图1:

选定训练集和测试 集 数据预处训练SVM 图 1 流程图

分类准确率

4.1.3模型求解

预测 4.1.3.1选定训练集和测试集

在这354个样本中其中1到18为一级岗,19到31为二级岗,32到47为三级岗,48到112为四级岗,113到128为五级岗,129到161为六级岗,162到344为七级岗,345到355为位置级别岗。现将已知岗位的样本作为训练集,未知的样本作为测试集。 数据处理

对训练集和测试集进行归一化预处理,采用的归一化映射如下:

f:x?y?x?xmin

xmax?xmin式中,x,y?Rn,xmin?min(x),xmax?max(x)归一化的效果是原始数据被规整到[0,1]范围中。在matlab中使用mapminmax函数进行归一。

4.1.3.2训练与预测

用训练集对SVM分类器进行训练,得到的预测的岗位级别。(预测结果如图2,matlab程序见附录Ⅰ)

5

图 2 预测岗位分布

再把测试集定义为原数据,进行检验得到分类准确率为93.314% (321/344)(检验结果如图3)

图 3 检验分类

由此可得未知教师的岗位(表1)

表 1 未知教师岗位 教师编号 18 103 110 123 150 岗位 七级岗 四级岗 七级岗 七级岗 七级岗

6

教师编号 168 274 324 335 352 岗位 七级岗 七级岗 七级岗 七级岗 七级岗 4.2模型二的建立与求解 4.2.1问题一的分析

根据题中所给的原始数据,按照岗位级别,对招生人数、科研经费、发表中英文论文数、申请专利数、获得奖励数、获得优秀论文篇数取平均值(见表1),然后运用MATLAB对各因子与岗位级别绘制趋势图,根据趋势图采用线性最小二乘拟合模型得出各因子与岗位级别的统计关系,通过图形与具体的表达式,可以清晰的看出各因子与岗位级别的统计规律。 4.2.2模型的建立

招生人数、申请专利数、获奖数是每个岗位级别2007~2011年5年数据合计的总和,科研经费包括纵向与横向经费、发表中英文论文数是中文期刊篇数与英文期刊数的总和、获得省优硕论文数与校优硕论文数构成获得优秀论文数。对这些数据求其平均

yij?

得到结果如下表2:

?ym?1ijijmnij

表 2 岗位因素 各等级各等级各等级各等级科研经中英文获得优申请专获得奖费 论文发秀论文利 励 表篇 篇数 1 25.28 77.42 6.17 2.56 0.22 0.56 2 17.93 65.47 6.36 1.14 0.00 0.43 3 14.71 89.59 4.65 1.71 0.12 0.88 4 9.48 31.53 2.90 0.62 0.10 0.42 5 7.06 35.15 3.56 3.00 0.06 0.19 6 7.36 104.87 3.09 2.06 0.00 0.24 7 2.60 36.83 2.54 1.51 0.07 0.01 绘制6个因子分别与岗位级别的趋势图 根据表1中的均值数据采用MATLAB编程对各项因子与岗位级别绘制趋势图如下(如图4):

各等级岗位硕士招级别 生人数 7

图 4 各因子趋势图

通过以上图形可以看出申请专利数、科研经费与岗位级别是没有任何统计关系的,而其他的因子与岗位级别从图上看出都存在线性关系,通过采用最小二乘拟合模型确定它们之间的具体关系式,具体过程如下:

线性最小二乘拟合模型如下: a) 通过机理分析建立数学模型来确定y; b) 将数据?xi,yi?,i?1?n作图,通过直观判断确定y:

4.2.3模型的求解

例如,选取获得优秀论文与岗位级别的趋势图(如下图5)

8

图 5 获得优秀论文与岗位级别关系

通过该图形,可选取线性最小二乘拟合函数为

y?ax?b

首先将一至七岗位级别分别采用数字1~7进行表示,并将

?xi,yi???0.56 0.43 0.88 0.42 0.19 0.24 0.01?

代入MATLAB程序计算得到

A??0.0801 0.6419

因此得到拟合出

y??0.0801x?0.6419

同理,得到其他因子与岗位级别关系为 招生人数:y??3.4582x?25.8929 发表中英论文数:y?6.8271?0.6614x 获得奖励数:y?0.2592?0.0419x

由以上函数关系式,可知招生人数、发表中英论文数、获得优秀论文数、获得奖励数分别与岗位级别的斜率ki,k1??3.3482、k2??0.6614、k3??0.0801、

k4??0.0419,k4?k3?k2?k1,说明获得奖励数随岗位级别的降低而降低最快,招生人数随岗位级别降低而平缓将低。 4.3模型三的建立与求解 4.3.1问题三的分析

需要对2012年的研究生名额进行预分配,首先利用2007~2011年的招生人数均值作残差图,通过残差图发现2010年的招生人数存在异常,将其进行修正后建立了对2012年招生人数灰色

GM?1,1?9

预测模型;然后通过2007~2011年的

岗位级别招生人数所占权重预测2012年的各岗位招生率,从而得到1~7岗位级别分别招生人数为;最后根据国内硕士生招收类型招生比例及学科招生比例,从而得出2012年招生名额预分配方案。 4.3.2模型三的建立

对2012年招生人数的预测

首先利用2007~2011年的招生人数均值数据,作出残差图(如下图6),发现在2010年的硕士招生人数存在异常。

图 6 残差分析图

相关系数r=0.9563,F=65.6528,显著性水平p=0.0039

2因此将2010年的招生人数根据插值拟合,将其修正为理想的数据566人,然后将2007~2009、2010(理想数据)、2011招生人数采用灰色2012年的招生人数进行预测。

灰色GM(1,1)模型具体如下: 根据原始数据,建立时间序列:

X(0)??X(0)(1),X(0)(2),?,X(0)(n)?GM?1,1?模型对

通过将原始数据进行一次累加生成新序列:

建立

X?1??X?1??1?,X?1??2?,...,X?1??n?

??GM?1,1?模型相应的微分方程为:

10

dX?1??aX?1???dt

(1)

其中:?称为发展灰数;?称为内生控制灰数。

??????为待估参数向量,???,可利用最小二乘法求解。解得: 设?

???BTB?BTYn??1?a?

T(2)

(0)(0)(0)Yn??x(2)x(3)?x(n)???

1?(x(1)(1)?x(1)(2)21?(x(1)(2)?x(1)(3)B?2?1?(x(1)(n?1)?x(1)(n)211?1

求解微分方程,即可得预测模型:

4.3.3模型的求解

u?(0)(k?1)??a(x(1)(1)?)e?akxa

根据以上的灰色预测模型,预测的结果如下表3:

表 3 招生人数预测表 年份 2007 预测值 321 误差分析表4: 2008 410 2009 475 2010 550 2011 637 2012 739 表 4 相对误差分析表 年份 2008 2009 2010 2011 实际值 405 474 621 631 预测值 410 475 550 637 相对 -1.1358% -0.1418% 11.2590% -1.0257% 误差 由于预测是选取2010年的理想数据566人,以此检查2010年的检验误差为:2.8124%,可知该预测模型是很理想的。

同时运用MATLAB编程绘制出招生人数的趋势图(如图7)

11

图 7 招生人数预测图

基于2012年招生人数的预测值,对2012年的招生名额进行预分配

从所给的数据中计算出2007~2011年各个岗位等级的老师所招收的研究生人数占全部研究生的百分比。通过灰色

GM?1,1?系统预测出一级岗位老师到七级岗位

的老师所分到的研究生所占全部百分比为0.0839、0.0681、0.0666、0.2547、0.0676、0.0858、0.5315,同实际相比该预测值超出0.15,通过归一化处理后可以算出第i个岗位2012年的招生率招生比率分别为 级别 ?1:?2:?3:?4:?5:?6:?7?7.24:5.88:5.75:21.99:5.84:7.41:45.89

表 5误差分析 2007 2008 2009 2010 2011 实际值 0.3003 0.2730 0.2185 0.1455 0.1118 一级预测值 0.3003 0.2763 0.2051 0.1523 0.1130 岗位 相对误差 0.0065% -1.2239% 6.1512% -4.6844% -1.0353% 实际值 0.1278 0.1250 0.0971 0.1003 0.0757 二级预测值 0.1278 0.1221 0.1055 0.0912 0.0788 岗位 相对误差 -0.0035% 2.3200% -8.6170% 9.1040% -4.1530% 实际值 0.1182 0.1276 0.0927 0.1054 0.0724 三级预测值 0.1182 0.1233 0.1057 0.0907 0.0777 岗位 相对误差 0.0092% 3.3328% -14.0050% 13.9070% -7.3673% 实际值 0.2300 0.2526 0.2759 0.2776 0.2418 四级预测值 0.2300 0.2664 0.2634 0.2605 0.2576 岗位 相对误差 0.0139% -5.4836% 4.5438% 6.1572% -6.5448% 实际值 0.0383 0.0281 0.0530 0.0569 0.0526 五级预测值 0.0383 0.0380 0.0439 0.0507 0.0585 岗位 相对误差 0.1008% -35.4182% 17.1387% 10.8276% -11.1500%

12

实际值 0.1150 0.1122 0.1060 0.1003 0.0905 六级预测值 0.1150 0.1130 0.1055 0.0985 0.0919 岗位 相对误差 0.0139% -0.6727% 0.4344% 1.8283% -1.5913% 实际值 0.0703 0.0816 0.1567 0.2140 0.3553 七级预测值 0.0703 0.0883 0.1383 0.2167 0.3393 岗位 相对误差 -0.0177% -8.1675% 11.7607% -1.2395% 4.4933% 同时,2012年1~7岗位级别研究生招生人数 Yi??i

??i?17i

又根据中国考研招生信息网[3]相关资料,2011年专业学位硕士生占硕士生招生比例达到30%,2012年硕士生招生计划的增量主要用于专业学位,存量部分要将学术型的计划按不少于5%的比例调减,用于增加专业学位计划,于是2012年学术型硕士研究生招生人数与专业型招生人数的比例

??

则每个岗位级别的学术型与专业型硕士的招生人数按?分配,结果如下表(见表6)

表 6 招生类型预分配

y5?70%??1?5%?631?70%?95!??y?y5?70%??1?5%?739?631?70%?95岗位级别 岗位级别分配人数 1 2 3 4 5 6 7 54 43 42 163 43 55 339 学硕分配人数 31 24 24 93 24 31 192 专硕分配人数 23 19 18 70 19 24 147 同时,根据2007~2011年总招生人数Qm(m?A?K),则计算2007~2011年的学科A所占比例公式为

Qmbm?m?

?Wm?111m

由上述公式可知,2012年的硕士招生人数按学科的预分配,结果见下表(见表7)

表 7 招生人数预分配表 学合A B C D E F G H I J K 科 计 人91 27 81 28 57 41 50 109 140 67 47 739 数

13

七、 附录

附录Ⅰ:

clear clf clc

wine=load('zhibiao.txt');

wine_labels=load('zhibiao_labes.txt'); % 画出测试数据的可视化图 figure

subplot(3,4,1); hold on

for run = 1:344

plot(run,wine_labels(run)); end

title('class','FontSize',10);

for run = 2:12

subplot(3,4,run); hold on;

str = ['attrib ',num2str(run-1)]; for i = 1:344

plot(i,wine(i,run-1),'.','MarkerSize',8); end

title(str,'FontSize',10); end figure

for run = 1:12

subplot(3,4,run); hold on;

str = ['attrib ',num2str(run+11)]; for i = 1:344

plot(i,wine(i,run+11),'.','MarkerSize',8); end

title(str,'FontSize',10); end figure

for run = 1:12

subplot(3,4,run); hold on;

str = ['attrib ',num2str(run+23)]; for i = 1:344

plot(i,wine(i,run+23),'.','MarkerSize',8); end

19

title(str,'FontSize',10); end figure

for run = 1:5

subplot(3,4,run); hold on;

str = ['attrib ',num2str(run+35)]; for i = 1:344

plot(i,wine(i,run+35),'.','MarkerSize',8); end

title(str,'FontSize',10); end

% 选定训练集和测试集

% 将1-344做为训练集 train_wine = [wine(1:344,:)];

% 相应的训练集的标签也要分离出来 train_wine_labels = [wine_labels(1:344,:)]; % 将345-355做为测试集 test_wine = [wine(345:354,:)];

% 相应的测试集的标签也要分离出来 test_wine_labels = [wine_labels(345:354,:)];

% 数据预处理,将训练集和测试集归一化到[0,1]区间

% mapminmax为matlab自带的映射函数 [train_wine,pstrain] = mapminmax(train_wine'); % 将映射函数的范围参数分别置为0和1 pstrain.ymin = 0; pstrain.ymax = 1;

% 对训练集进行[0,1]归一化

[train_wine,pstrain] = mapminmax(train_wine,pstrain);

% mapminmax为matlab自带的映射函数 [test_wine,pstest] = mapminmax(test_wine'); % 将映射函数的范围参数分别置为0和1 pstest.ymin = 0; pstest.ymax = 1;

% 对测试集进行[0,1]归一化

[test_wine,pstest] = mapminmax(test_wine,pstest);

% 对训练集和测试集进行转置,以符合libsvm工具箱的数据格式要求 train_wine = train_wine';

20

test_wine = test_wine';

model = svmtrain(train_wine_labels, train_wine, '-c 2 -g 3');

[predict_label, accuracy] = svmpredict(test_wine_labels, test_wine, model); figure; hold on;

plot(test_wine_labels,'o'); plot(predict_label,'r*');

legend('实际测试集分类','预测测试集分类','FontSize',10); title('测试集的实际分类和预测分类图','FontSize',10);

21

本文来源:https://www.bwwdw.com/article/im35.html

Top