主成分分析在选拔竞赛队员中的应用

更新时间:2024-03-12 04:07:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

主成分分析在选拔竞赛队员中的应用

朱 宁

摘 要 利用主成分分析方法选拔竞赛队员组成参赛队,通过对相关数据的处理,寻找关键的综合指标,并以此建立一种加权逐步判别规则,从而获得选拔参赛队员的数学模型。通过对近年来在全国大学生数学建模竞赛中取得较好成绩的参赛队员的平时学习成绩进行了分析,找到了几个关键的综合指标,以此建立数学模型。并对未获奖队员的平时学习成绩进行了比较,模型是有效的和具有推广价值的。 关 键 词 数学建模;主成分分析;逐步判别规则 中图分类法 O212.4

The Application of Principal Component Analysis in the Mathematical Modeling

Zhu Ning

Dept. of Basic Courses

Abstract The scores of the students who made remarkable achievement in the national college students' mathematical

modeling competition recently are analyzed by means of principal component analysis.Some critical synthesized indexes are obtained and a stepwise discrimination rule is established.Finally a fixed quantitative method to select the team members in the future is proposed.

Key words mathematical model,princicpal component analysis,stepwise discrimination rule

引言

一年一度的全国大学生数学建模竞赛已被国家教委定为全国大学生四大竞赛之一。各参赛院校每年都要为此选拔优秀学生参加这一赛事。能否合理选拔参赛队员,显然能否取得好的成绩是重要因素,那么,怎样才能有效地选拔参赛队员呢?

一般地,竞赛成绩的好坏应与参赛队员平时的学习成绩有关。把参赛并取得好成绩的全体队员看成是一个总体,合理地选拔参赛队员可归结为:判别新样品(即被选拔的队员)是否属于该总体。由于参赛队员的素质受多种因素影响,加之竞赛成绩的好坏除了与平时学习成绩有关外,参赛队内队员之间的默契配合也是至关重要的。为此,采用主成分分析

和给定加权判别函数及逐步判别规则,建立数学模型。从而给出了一种解决这类问题的定量方法。

1 建立模型

1.1 简化假设

假设1 把参赛并取得好成绩的全体队员看成是K维总体F中的一个元素,Xj=(x1j,?,xkj)′(j=1?n)来自总体F的K维随机向量。x1j表示“第j个参赛队员的第i个指标”(i=1,?,k,j=1,?,n).

假设2 对X∈F,X的均值向量为E(X)=U,协差阵为V(X)=V,V的特征根为λi(i=1,?,k).

假设3 每个参赛队均由三人组成。

1.2 建立数学模型

(1) 主成分分析是把原来多个指标化为少数几个互不相关的综合指标的一种多元统计方法。它可以达到数据简化、揭示变量之间的内在关系、以及进行统计解释的目的,为进一步分析总体的性质和数据的统计特性提供重要的信息[1]。

(2) 设X的线性函数Y=α′X,使得Y的方差尽可能地大,且α′α=I,即根据文献[2]知:

其中r=rk(V).

(3) 所求数学模型为

其中D=diag(Vii),{Vii}(I=1,?,k)是V中的主对角线元素,R为相关矩阵,为前m个(m≤r)主成分的累计贡献率。不难看出,当累积贡献率越大时相应的主成分X的能力就越强,反之则弱。因此,在解决

实际问题时可只考虑其中的前几个,通常取m,使得累计贡献率达到70%~80%以上[3]。 1.3 综合判别规则

(1) 构造加权判别函数[4]p=(λ1p1+?λmpm), 其中λ=

并以P值的大小作为选拔队员的依据。

将已取得竞赛较好成绩的队员作为总体F的样品,令并以Z值作为阈值,有判别规则如下:

其中G为“备选队员的全体”组成的集合,且设G内元素的个数为S(S为不小于3的正整数)。

(2) 令Pij为“第j个备选队员的第i个主成分的取值”(i=1,?,m;j=1,?,s). 1) 若

,(其中可作为Xj∈G)则备选队员Xk1可作为

参赛队的首选对象,1≤k1≤S且. 2) 若

,j≠k1{p2j(Xj),p2k1}(如果G中存

在这样的Xj)备选队员Xk2可作为参赛队的次选对象,1≤k2≤S且k1≠k2. 3) 若

,j≠k1,j≠k2{p3j(Xj),

p3k1,p3k2}(如果G中存在这样Xj的话),选队员Xk3可作为参赛队的三选对象,1≤k3≤S且k3≠k1,k2.

4) 用以上方法还可以选出其他参赛队员。

5) 如果上式中的p2k2,p3k3找不到,可增加G中的元素。

2 模型求解

2.1 数据处理

(1) 对X∈F,取k=9,xij(i=1,?,5)分别表示“第j个队员第i学期考试科目的平均成绩”、x6j表示“第j个队员高等数学平均成绩”、x7j表示“第j个队员线性代数、概率论与数理统计科目平均成绩”、x8j表示“第j个队员计算机相关科目平均成绩”、x9j表示“第j个队员英语科目平均成绩”。

(2) 我们收集了1994年至1997年间我院数学建模竞赛取得较好成绩(一个全国一等奖、两个全国二等奖、两个区二等奖和两个区三等奖)

的参队员的相应学习成绩。(见表1)

表1 平时学习成绩

序号 x1 x2 x3 x4 x5 x6 x7 x8 x9 1 83.0 89.7 81.7 86.0 82.7 89.0 95.0 86.7 83.5 2 81.3 81.7 90.0 86.5 72.7 86.5 80.0 80.0 76.0 3 90.7 89.7 93.7 87.5 89.3 96.0 80.0 84.0 81.5 4 86.0 89.7 90.0 89.5 87.0 94.5 95.0 82.8 79.5 5 81.7 90.3 93.0 90.5 90.5 89.5 95.0 88.5 84.5 6 86.0 85.7 87.0 90.5 84.8 92.5 95.0 82.9 78.5 7 82.7 81.7 90.0 80.2 91.0 84.0 90.0 81.8 81.5 8 84.0 85.7 67.0 82.2 90.0 93.5 90.0 85.3 77.0 9 81.3 79.7 94.0 89.0 88.0 89.0 85.0 80.7 71.0 10 80.0 88.7 82.0 91.5 92.3 94.5 85.0 85.8 73.0 11 86.0 84.0 92.0 92.0 87.0 93.5 80.0 84.2 74.0 12 84.5 89.3 82.5 75.0 81.5 93.0 95.0 76.2 77.5 13 78.7 82.8 90.0 92.0 84.0 88.5 95.0 90.0 75.3 14 86.3 88.2 93.5 91.5 87.5 93.5 95.0 84.8 79.8 15 86.5 87.0 89.5 88.0 90.3 93.5 85.0 82.0 86.0 16 83.3 89.7 83.0 81.0 84.0 96.0 90.0 77.8 76.0 17 79.5 63.0 67.0 62.0 89.5 74.0 95.0 83.3 69.0 18 67.0 76.0 85.0 69.0 86.3 71.5 85.0 84.0 69.5 19 86.0 78.3 91.5 86.5 85.0 84.0 90.0 78.5 82.0 20 87.0 83.3 97.0 90.5 81.7 94.0 95.0 86.8 78,0 21 78.3 68.3 88.5 80.0 85.7 72.5 85.0 84.8 72.5 注:数据来自本院教务科

(3) 为了使数据具有可比性,将原始数据进行了标准化处理,利用

SAS软件包对已获得的21个样品经计算后得:相关矩阵(见表2)、主成分及贡献率(见表3)、主成分的载荷(见表4)及Z值:Z=-4.28.

表2 相关矩阵

x1 x2 x3 x4 x5 x6 x7 x8 x9 x1 1.0000 0.4999 0.2662 0.5326 0.0258 0.7455 0.0851 -0.1673 0.6215 x2 0.4999 1.0000 0.2828 0.6096 0.0084 0.8684 0.1112 0.0239 0.6227 x3 0.2662 0.2828 1.0000 0.6454 -1.777 0.2450 -0.1923 0.0558 0.3394 x4 0.5326 0.6096 0.6454 1.0000 -0.305 0.6763 -0.660 0.2923 0.4768 x5 0.0258 0.0084 -0.17777 -0.035 1.0000 0.0340 0.0106 0.2824 0.0691 x6 0.7455 0.8684 0.2450 0.6763 0.0340 1.0000 0.0926 -0.267 0.4878 x7 0.0851 0.1112 -0.923 -0.660 0.0106 0.0926 1.0000 0.1921 0.319 x8 -0.1673 0.0239 0.0558 0.2923 0.2824 -0.267 0.1921 1.0000 0.0353 x9 0.6215 0.6227 0.3394 0.4768 0.0691 0.4875 0.2319 0.0353 1.0000

表3 前四个主成分及贡献率 主成分 特征值 贡献率 累计贡献率 P1 3.71070 0.412300 0.41230 P2 1.42250 0.158055 0.57035 P3 1.25844 0.139826 0.71018 P4 0.96337 0.107041 0.81722

表4 前四个主成分载荷矩阵

P1 P2 P3 P4 x1 0.41 -0.05 -0.27 -0.17 x2 0.44 0.06 -0.12 -0.04 x3 0.28 -0.34 0.49 0.21 x4 0.43 -0.05 0.38 0.07 x5 0.00 0.55 0.13 -0.68 x6 0.46 0.02 -0.17 -0.16 x7 0.05 0.51 -0.37 0.62 x8 0.04 0.55 0.57 0.22 x9 0.39 0.13 -0.14 0.09

2.2 模型结果分析

2.2.1 主成分及其变量的关系

P1=0.41x1+0.44x2+0.28x3+0.43x4+0.46x6+0.05x7+0.04x8+0.39x9 .

P2=-0.05x1+0.06x2-0.34x3-0.05x4+0.55x5+0.02x6+0.51x7+0.55x8+0.13x9 .

P3=-0.27x1-0.12x2+0.49x3+0.38x4+0.13x5-0.17x6-0.37x7+0.57x8-0.14x9 .

P4=-0.17x1-0.04x2+0.21x3+0.07x4-0.68x5-0.16x6+0.62x7+0.22x8+0.09x9 . 2.2.2 主成分载荷分析

(1) 在第一主成分中变量x1,x2,x4,x6,x9都有较高的正载荷。这说明在竞赛中取得好成绩的队员在学习上能全面发现,所以P1可以看成是“综合学习成绩”指标。

(2) 在第二主成分中变量x5,x7,x8都有较高的正载荷。这说明竞赛成绩与参赛队员在被选拔前的状态以及工程数学和计算机能力有关,所以P2

可以看成是“动手能力”指标。

(3) 在第三主成分中变量x3,x4,x8均有较高的正载荷。这说明竞赛成绩与参赛队员平时学习情况有关,P3可以看成是“学习稳定”指标。 (4) 在第四主成分中x7有较高的正载荷。这说明竞赛成绩与参赛队员应用数学的能力有关,所以P4可以看成是“数学应用的能力”指标。

2.3 模型检验

(1) 我们收集了参加过竞赛,但未取得好成绩的队员的平时学习成绩,计算了他们各自的前四项主成分的值见表5.

表5 参赛队的前四个主成分向量

PP1 i 队号 {2.08,2.12,2.231 } {2.32,2.12,2.132 } {2.08,2.20,1.863 } {2.00,2.15,2.094 } {2.15,1.99,1.935 }

(2) 从表5中可以看出,以往凭经验定性选拔参赛队员在配对上存在明显问题,特别是2号参赛队,其中有一成员平时成绩一直很好,我们也对该队抱有很大希望,但事与愿违。从这些参赛队中看出他们共同的不足是配对不够合理,特长不能互补。

P2 主成份向量值 {1.25,1.26,1.15} {1.26,1.19,1.15} {1.24,1.21,1.20} {1.22,1.19,1.13} {1.21,1.23,1.08} {0.33,0.44,0.46} {0.46,0.40,0.39} {0.40,0.45,0.32} {0.48.0.39,0.32} {0.30,0.32,0.22} {0.13,0.18,0.09} {0.17,0.21,0.19} {0.15,0.16,0.10} {0.19,0.23,0.17} {0.11,0.11,0.22} P3 P4)/ 3 结束语

本模型通过对参赛并取得较好成绩的队员的平时成绩进行了分析后,找到了四个重要的综合指标:“综合学习成绩”、“动手能力”、“学习稳定性”和“数学应用能力”。这与以往初选队员时的想法及实践经验基本吻合,从中看出平时的数学成绩对数学建模竞赛成绩的影响不是最重要的。以过去经验,选拔后的队员一般还要进行综合训练,所

以最终确定参赛队员应是定性挑选与以上定量选拔相结合。由于该模型原始样本还不够多,随着今后样本的不断增加,将变的更加合理,除可作为选拔数学建模参赛队员外,也可作为选拔由多人组队参加的其它竞赛项目,如电子科技大赛等。

致谢 本文在写作过程中曾得到陈克西教授的指点、帮助,特此致谢! 第一作者 男 42岁 讲师 桂林 150001 作者单位:桂林电子工业学院 基础部 参考文献

[1]吴翊等.应用数理统计.湖南:国防科技大学出版社,1995:285-286 [2]张尧庭,方开泰.多元统计分析引论.北京:科学出版社,1982:322-325

[3]方开泰.实用多元统计分析.上海:华东师范大学出版社,1989:294

[4]王黎明.主成分分析在评价老年心脑血管功能状态中的应用.应用概率统计,1996,(4)

本文来源:https://www.bwwdw.com/article/79s8.html

Top