数学建模方法大汇总

更新时间:2023-05-23 14:24:01 阅读量: 实用文档 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

目录

一、主成分分析法 ....................................................................................................... 2 二、因子分析法............................................................................................................ 5 三、聚类分析 .............................................................................................................. 9 四、最小二乘法与多项式拟合 ................................................................................. 16 五、回归分析(略) ................................................................................................. 22 六、概率分布方法(略) ......................................................................................... 22 七、插值与拟合(略) ............................................................................................. 22 八、方差分析法 ........................................................................................................ 23 九、逼近理想点排序法 ............................................................................................. 28 十、动态加权法.......................................................................................................... 29 十一、灰色关联分析法 ............................................................................................. 31 十二、灰色预测法 ..................................................................................................... 33 十三、模糊综合评价 ................................................................................................. 35 十四、隶属函数的刻画(略) ................................................................................. 37 十五、时间序列分析法 ............................................................................................. 38 十六、蒙特卡罗(MC)仿真模型 ................................................................................. 42 十七、BP神经网络方法 ............................................................................................ 44 十八、数据包络分析法(DEA) ............................................................................... 51 十九、多因素方差分析法()基于SPSS) ............................................................ 54 二十、拉格朗日插值 ............................................................................................. 70 二十一、回归分析(略) ......................................................................................... 75 二十二、概率分布方法(略) ................................................................................. 75 二十三、插值与拟合(略) ..................................................................................... 75 二十四、隶属函数的刻画(参考《数学建模及其方法应用》) ........................... 75 二十五、0-1整数规划模型(参看书籍) .............................................................. 75 二十六、Board评价法(略) .................................................................................. 75 二十七、纳什均衡(参看书籍) ............................................................................. 75 二十八、微分方程方法与差分方程方法(参看书籍) ......................................... 75 二十九、莱斯利离散人口模型(参看数据) ......................................................... 75 三十、一次指数平滑预测法(主要是软件的使用) ............................................. 75 三十一、二次曲线回归方程(主要是软件的使用) ............................................. 75 三十二、成本-效用分析(略) ............................................................................... 75 三十三、逐步回归法(主要是软件的使用) ......................................................... 75 三十四、双因子方差分析(略) ............................................................................. 75

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

一、主成分分析法 一)、主成分分析法介绍:

主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法。旨在利用降维的思想,把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。

二)、主成分分析法的基本思想:

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。

同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构 的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线 性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始 变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主 要矛盾。 上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构 成的维随机向量为。对作正交变换,令,其中为正交阵,的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过 对主分量的重点分析,达到对原始变量进行分析的目的。的各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。

例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科 普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。

三)、主成分分析法的数学模型:

其中:

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

为第 j个指标对应于第 个主成分的初始因子载荷,

为第 l个主成分对应的特征值 根据主成分表达式得出综合得分模型:

四)、主成分分析法的基本原理:

主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 五)、主成分分析法的作用:

概括起来说,主成分分析主要由以下几个方面的作用。

1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。

2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。

3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。

5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。 六)、主成分分析法的计算步骤:

1、原始指标数据的标准化采集p 维随机向量x = (x1,X2,...,Up)T)n 个样品xi = (xi1,xi2,...,dip)T ,I=1,2, ,n,

n>p,构造样本阵,对样本阵元进行如下标准化变换:

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

其中

2、对标准化阵Z 求相关系数矩阵

其中,

3、解样本相关矩阵R 的特征方程按

得p 个特征根,确定主成分 ,得标准化阵Z。

确定m 值,使信息的利用率达85%以上,对每个job,

j=1,2,...,m, 解方程组Rib = job得单位特征向量 。 4、将标准化后的指标变量转换为主成分

U1称为第一主成分,U2 称为第二主成分, ,Up 称为第p 主成分。 5 、对m 个主成分进行综合评价

对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。

PS另一种易于理解的步骤: 1、数据标准化;

2、求相关系数矩阵;

3、一系列正交变换,使非对角线上的数置0,加到主对角上; 得特征根xi(即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;

4、求各个特征根对应的特征向量; 用下式计算每个特征根的贡献率Vi; VI=xi/(x1+x2+........)

5、根据特征根及其特征向量解释主成分物理意义 七)、主成分分析法的案例:

参见:基于主成分分析的力量结构指标的权重的计算、基于主成分析的江苏省地方高校创新力研究

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

二、因子分析法

一)因子分析法介绍:

主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。

例:随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。 因此,可以说因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。

因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将

原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。 二)、因子分析法的基本模型:

因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。 因子分析模型描述如下:

1、X=(x1,x2, ,xp)是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。 2、F=(F1,F2, ,Fm)(m<p)是不可测的向量,其均值向量E(F)=0,协方差矩阵Cov(F)=I,即向量的各分量是相互独立的。

3、e=(e1,e2, ,ep)与F相互独立,且E(e)=0,e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:

x1=a11F1+a12F2+ +a1mFm+e1 x2=a21F1+a22F2+ +a2mFm+e2 xp=ap1F1+ap2F2+ +apmFm+ep

称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。其矩阵形式为:

x=AF+e

其中:

x=,A=,F=,e=

这里

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

(1)m£p;

(2)Cov(F,e)=0,即F和e是不相关的;

(3)D(F)=Im,即F1,F2, ,Fm不相关且方差均为1; (4)D(e)=,即e1,e2, ,ep不相关,且方差不同。

我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。

A=(aij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。 三)、模型的统计意义:

模型中F1,F2, ,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。e1,e2, ,ep叫做特殊因子,是向量x的分量xi(i=1,2, ,p)所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中载荷矩阵A中的元素(aij)是为因子载荷。因子载荷aij是xi与Fj的协方差,也是xi与Fj的相关系数,它表示xi依赖Fj的程度。可将aij看作第i个变量在第j公共因子上的权,aij的绝对值越大(|aij|£1),表明xi与Fj的相依程度越大,或称公共因子Fj对于xi的载荷量越大。为了得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子的方差贡献。

因子载荷矩阵A中第i行元素之平方和记为hi2,称为变量xi的共同度。它是全部公共因子对xi的方差所做出的贡献,反映了全部公共因子对变量xi的影响。hi2大表明x的第i个分量xi对于F的每一分量F1,F2, ,Fm的共同依赖程度大。

将因子载荷矩阵A的第j列( j =1,2, ,m)的各元素的平方和记为gj2,称为公共因子Fj对x的方差贡献。gj2就表示第j个公共因子Fj对于x的每一分量xi(i= 1,2, ,p)所提供方差的总和,它是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj对x的贡献越大,或者说对x的影响和作用就越大。如果将因子载荷矩阵A的所有gj2(j=1,2, ,m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力的公共因子。 四)、因子旋转:

建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,通过适当的旋转得到比较满意的主因子。

旋转的方法有很多,正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法(Varimax)。进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化,使大的载荷更大,小的载荷更小。因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有Promax法等。 五)、因子得分:

因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。例如地区经济发展的因子分析

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。这时需要将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。 设公共因子F由变量x表示的线性组合为:

Fj=uj1xj1+uj2xj2+ +ujpxjpj=1,2, ,m

该式称为因子得分函数,由它来计算每个样品的公共因子得分。若取m=2,则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2,并将其在平面上做因子得分散点图,进而对样品进行分类或对原始数据进行更深入的研究。

但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计。估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thomson估计法。 具体方法为: (1)回归估计法

F=Xb=X(X¢X)-1A¢=XR-1A¢(这里R为相关阵,且R=X¢X)。 (2)Bartlett估计法

Bartlett估计因子得分可由最小二乘法或极大似然法导出。 F=(W-1/2A)¢W-1/2A]-1(W-1/2A)¢W-1/2X=(A¢W-1A)-1A¢W-1X (3)Thomson估计法

在回归估计法中,实际上是忽略特殊因子的作用,取R = X ¢X,若考虑特殊因子的作用,此时R = X ¢X+W,于是有: F=XR-1A¢=X(X¢X+W)-1A¢

这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:

F=XR-1A¢=X(I+A¢W-1A)-1W-1A¢ 六)、因子分析的步骤:

因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

因子分析常常有以下四个基本步骤:

1、确认待分析的原变量是否适合作因子分析。 2、构造因子变量。

3、利用旋转方法使因子变量更具有可解释性。 4、计算因子变量得分。 因子分析的计算过程:

1、将原始数据标准化,以消除变量间在数量级和量纲上的不同。 2、求标准化数据的相关矩阵;

3、求相关矩阵的特征值和特征向量; 4、计算方差贡献率与累积方差贡献率;

5、确定因子:设F1,F2, ,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;

6、因子旋转:

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。

7、用原指标的线性组合来求各因子得分:采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。

8、综合得分:以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。

F=(w1F1+w2F2+ +wmFm)/(w1+w2+ +wm)

此处wi为旋转前或旋转后因子的方差贡献率。 9、得分排序:利用综合得分可以得到得分名次。 七)、主成分分析法的使用范围:

1、简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。

2、构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。

3、进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。

如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

三、聚类分析

一)聚类分析的概念:

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。

聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 二)、聚类分析的主要应用: 在商业上

聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;

在生物上

聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识 在地理上

聚类能够帮助在地球中被观察的数据库商趋于的相似性 在保险行业上

聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组 在因特网应用上

聚类分析被用来在网上进行文档归类来修复信息 在电子商务上

聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。 三)聚类分析的主要步骤: 1、数据预处理,

2、为衡量数据点间的相似度定义一个距离函数, 3、聚类或分组, 4、评估输出。

数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。

既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域,

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性。

将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类,其他的聚类方法还包括基于密度的聚类,基于模型的聚类,基于网格的聚类。

评估聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集合。

四)聚类分析的计算方法: 1、划分法(partitioning methods):给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K<N。而且这K个分组满足下列条件:(1)每一个分组至少包含一个数据纪录;(2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);对于给定的K,算法首先给出一个初始的分组方法,以后通过反复迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准就是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法; 2、层次法(hierarchical methods):这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据纪录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等; 3、基于密度的方法(density-based methods):基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是,只要一个区域中的点的密度大过某个阀值,就把它加到与之相近的聚类中去。代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等; 4、基于网格的方法(grid-based methods):这种方法首先将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点就是处理速度很快,通常这是与目标数据库中记

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法; 5、基于模型的方法(model-based methods):基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。 具体的有:

1、K-MEANS算法

k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 2、K-MEDOIDS算法

K-MEANS有其缺点:产生类的大小相差不会很大,对于脏数据很敏感。 改进的算法:k—medoids 方法。这儿选取一个对象叫做mediod来代替上面的中心的作用,这样的一个medoid就标识了这个类。步骤:

(1)、任意选取K个对象作为medoids(O1,O2, Oi Ok)。 以下是循环的:

(2)、将余下的对象分到各个类中去(根据与medoid最相近的原则); (3)、对于每个类(Oi)中,顺序选取一个Or,计算用Or代替Oi后的消耗—E(Or)。选择E最小的那个Or来代替Oi。这样K个medoids就改变了,下面就再转到2。

(4)、这样循环直到K个medoids固定下来。

这种算法对于脏数据和异常数据不敏感,但计算量显然要比K均值要大,一般只适合小数据量。 3、Clara算法

上面提到K-medoids算法不适合于大数据量的计算。现在介绍Clara算法,这是一种基于采用的方法,它能够处理大量的数据。

Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最佳的medoids。Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids算法得到相应的(O1,O2 Oi Ok),然后在这当中选取E最小的一个作为最终的结果。 4、Clarans算法

Clara算法的效率取决于采样的大小,一般不太可能得到最佳的结果。

在Clara算法的基础上,又提出了Clarans的算法,与Clara算法不同的是:在Clara算法寻找最佳的medoids的过程中,采样都是不变的。而Clarans

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

算法在每一次循环的过程中所采用的采样都是不一样的。与上次课所讲的寻找最佳medoids的过程不同的是,必须人为地来限定循环的次数。

模糊聚类分析方法

聚类分析方法形成思路 变量的数据预处理

分类前,对原始数据进行预处理,使其所有变量尺度均匀化。方法有以下几种: 变量的标准化

设有n个样品,m个特征变量,设第i个样品,第j个变量的观测值为xij(i 1,2, ,n;j 1,2, ,m),由此可构成一个n m阶矩阵为

x11 x21 xn1

x12x22 xn2

x1m

x2m

(1) xnm

X (xij)n m

将式(1)中每个变量xij根据以下公式变换,称为标准化。 对每个变量的标准化计算公式为

xij

xij j

Sj

Sj [

1

n

ij

(i 1,2, ,n)(j 1,2, ,m)

(x n

i 1

(2)

式中,j

1

n

ij

x n

i 1

j)]

21/2

标准化后变量的平均值为0,标准离差为1。 变量的正规化

对每个变量施行以下变换,称为正规化。

xij

xij xj(min)xj(max) xj(min)

(i 1,2, ,n)(j 1,2, ,m)

(3)

1。式中,xj(max)和xj(min)分别为第j个变量的最大值和最小值。显然,0 xij

变量的规格化

对每个变量施行以下变换,称为规格化。

xij

xijxj(max)

(i 1,2, ,n)(j 1,2, ,m)

(4)

1。 式中,,xj(max)为第j个变量的最大值。显然,0 xij

注:数据的预处理以不丢失原有信息为前提。三种预处理方法的选择应根据现有

数据的特点来考虑。

分类统计量的确定及其聚类方法的选择

分类统计量的确定

一般是把相似程度大的并成一类,把相似程度小的分为不同的类,因此要定量地表示样品间的相似程度。设论域U {x1,x2, ,xn},xi {xi1,xi2, ,xim}(i 1,2, ,n),即数据矩阵为

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

A xij

n m

,如果xi与xj的相似程度为rij R(xi,xj)(i,j 1,2, ,n),则称之为相似系

~

数,确定相似系数rij有多种不同的方法。常用的方法如下:

(1) 数量积法

xi {xi1,xi2, ,xim} U

,令

m

M max xik xjk

i j

k 1

,则取

i j 1,

rij 1 m ,显然rij [0,1]。若出现有某些rij 0,可令rij ,rij 1

x x,i j2jk M ikk 1

则有rij [0,1]。也可以用平移-极差变换将其压缩到[0,1]上,即可以得到模糊相

似矩阵R rij n m。

(2) 夹角余弦法(相似系数统计量): 令

m

x

rij

k 1m

2ik

k 1

ik

xjk

m

2jk

(i,j 1,2, ,n)

x x

k 1

则R rij n n。

(3) 相关系数法(相关系数统计量): 令

m

x

rij

k 1

ik

xi xjk xj

x

k 1

m

ik

xi

x

2

k 1

m

(i,j 1,2, ,n)

jk

xj

2

其中xi

x,x m

ik

k 1

1

m

j

x,则R rij 。 n n

m

jk

k 1

1

m

注意:xi {xi1,xi2, ,xim}中的样本xik属于同一个样本空间Xi(k 1,2, ,m)。 (4) 指数相似系数法: 令

2

3(xik xjk)

rij exp 2

mk 1sk 4

1

m

其中sk

1

x n

i 1

n

ik

xk

2

,xk

1

n

ik

x n

i 1

(k 1,2, ,m)。则R rij

n n

注意:xi {xi1,xi2, ,xim}中的样本xik属于不同的样本空间Xk,即

xik Xk(k 1,2, ,m)。

(5) 最大最小值法: 令

x

rij

k 1

m

ik

xjk xjk

x

k 1

m

ik

(xij 0;i,j 1,2, ,n)

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

则R rij n n。

(6) 算术平均值法: 令

x

rij

k 1

m

ik

xjk

1

x 2

k 1

m

ik

xjk

(xij 0;i,j 1,2, ,n)

则R rij n n。

(7) 几何平均值法:令

x

rij

k 1m

m

ik

xjk

(xij 0;i,j 1,2, ,n)

则R rij n n。

k 1

xik xjk

(8) 绝对值倒数法:令

i j 1, 1

rij m

M xik xjk ,i j

k 1

其中M为使得所有rij [0,1](i,j 1,2, ,n)的确定常数,则R rij n n。 (9) 绝对值指数法:令

m

rij exp xik xjk

k 1

(i,j 1,2, ,n)

则R rij n n。

(10) 海明距离法(距离系数统计量。如果变量的量纲不同,原始数据变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离):令

rij 1 H d(xi,xj)

m(i,j 1,2, ,n)

d(xi,xj) xik xjk

k 1

其中H为使得所有rij [0,1](i,j 1,2, ,n)的确定常数。则R rij

n n

(11) 欧氏距离法(最常用):令

rij 1 E d(xi,xj)

m

d(xi,xj) xik xjk

k 1

(i,j 1,2, ,n)

2

其中E为使得所有rij [0,1](i,j 1,2, ,n)的确定常数。则R rij n n。 (12) 契比雪夫距离法:令

rij 1 Q d(xi,xj)

m

d(xi,xj) xik xjk

k 1

(i,j 1,2, ,n)

其中Q为使得所有rij [0,1](i,j 1,2, ,n)的确定常数。则R rij n n。

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

(13) 主观评分法:设有N个专家组成专家组{p1,p2, ,pN},让每一位专家对所研究的对象xi与xj相似程度给出评价,并对自己的自信度作出评估。如果第k位专家pk关于对象xi与xj的相似度评价为rij(k),对自己的自信度评估为

aij(k)(i,j 1,2, ,n)

,则相关系数定义为

a

rij

k 1

N

ijN

(k) rij(k)

(i,j 1,2, ,n)

ij

a

则R rij n n。

k 1

(k)

综上所述,以上给出了实际中能够使用的一些方法,具体地选择要根据具体问题的性质和使用的方便来确定。

在实际工作中,当需要研究样品与样品之间关系时,一般用距离系数统计量或者相似系数统计量作为分类计算依据,这种方法又称为Q型聚类法;当需要研究变量与变量之间的关系时,常用相关系数统计量作为分类计算依据,这种方法又称R型聚类法。

选择适当的聚类方法

聚合法

开始把每个样品看成自成一类,计算各类之间的相似程度的统计量,把最相似的两类合并为一类,再计算各类相似程度统计量,把最相似的两类合并,照此继续下去,一直到所有样品都聚合成一类为止,最后人为确定合适的分类数,得到分类结果。 分解法

它的聚类过程恰好和聚合法相反,开始把全体样品看成一类,然后分成二类, ,一直到每个样品为一类或分到不能再分时为止,通常要设计一个分类函数(目标函数)来控制整个分类过程。 调优法

开始人为将样品作初始分类,在一定准则下判断这个分类是否最优,如果不是最优,则对分类进行修改,再判断修改后的分类是否最优,若仍不是最优,再作修改,不断重复上述步骤,一直到分类方案最优为止。 *动态聚类法

步骤:

1、按照一定的原则选择一批凝聚点(聚核),

2、让样品向最近的凝聚点凝聚,这样就由点凝聚成类,得到初始分类。 3、初始分类不一定合理,可按最近距离原则进行修改,直到分类合理得到最终的分类为止。

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

四、最小二乘法与多项式拟合 一)、最小二乘法的基本原理

从整体上考虑近似函数p(x)同所给数据点(xi,yi)(i=0,1, ,m)误差

ri p(xi) yiri p(xi) yi

(i=0,1, ,m)的大小,常用的方法有以下三种:一是误差(i=0,1, ,m)绝对值的最大值0 i m

T

m

maxri

,即误差 向量

m

r (r0,r1, rm)

的∞—范数;二是误差绝对值的和

i 0

ri

i 0

,即误差向量r的1—

范数;三是误差平方和的算术平方根,即误差向量r的2—范数;前两种方法简单、自然,但不便于微分运算 ,后一种方法相当于考虑 2—范数的平方,

m

ri

2

因此在曲线拟合中常采用误差平方和体大小。

i 0

ri

2

来 度量误差ri(i=0,1, ,m)的整

数据拟合的具体作法是:对给定数据 (xi,yi) (i=0,1, ,m),在取定的函数类 中,求p(x) ,使误差ri p(xi) yi(i=0,1, ,m)的平方和最小,即

m

m

i 0

ri

2

=i 0

p(xi)

yi min

2

从几何意义上讲,就是寻求与给定点(xi,yi)(i=0,1, ,m)的距离平方和为最小的曲线y p(x)(图6-1)。函数p(x)称为拟合 函数或最小二乘解,求拟合函数p(x)的方法称为曲线拟合的最小二乘法。 在曲线拟合中,函数类 可有不同的选取方法

.

6—1

二)、多项式拟合

假设给定数据点(xi,yi)(i=0,1, ,m), 为所有次数不超过n(n m)的多项式构

n

成的函数类,现求一

I

pn(x)

a

k 0

k

x

k

,使得

m

2

p

i 0

m

n

(xi) yi

2

n k

akxi yi mini 0 k 0 (1)

当拟合函数为多项式时,称为多项式拟合,满足式(1)的pn(x)称为最小二乘

拟合多项式。特别地,当n=1时,称为线性拟合或直线拟合。 显然

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

mn

k

I

( a

i 0

k 0

xi yi)

k2

为a0,a1, an的多元函数,因此上述问题即为求I I(a0,a1, an)的极值 问题。由多元函数求极值的必要条件,得

I aj

m

n

k

j

2 ( akxi yi)xi 0,

i 0

k 0

j 0,1, ,n

(2)

n

m

j ki

m

k 0

( x

i 0

)ak

x

i 0

ji

yi,

j 0,1, ,n

(3)

m

(3)是关于a0,a1, an的线性方程组,用矩阵表示为

m 1 m xi i 0 m

n xi i 0

m

x

i 0

m

i

x

i 0

2i

m

x

i 0

n 1i

m

y x i

ai 0 i 00 m m

n 1 a xi 1 xiyi i 0

i 0 a m m

n2n n xiyi xi

i 0 i 0

n

i

(4)

式(3)或式(4)称为正规方程组或法方程组。

可以证明,方程组(4)的系数矩阵是一个对称正定矩阵,故存在唯一解。从式(4)中解出ak(k=0,1, ,n),从而可得多项式

n

pn(x)

a

k 0

k

x

k

 (5)

可以证明,式(5)中的pn(x)满足式(1),即pn(x)为所求的拟合多项式。我们把i 0

pn(xi)

m

yi

2

称为最小二乘拟合多项式pn(x)的平方误差,记作

r

22

pn(xi)

i 0

mk

ki

m

yi

2

由式(2)可得

r

22

m

n

i 0

y

2i

a( x

k 0

i 0

yi)

(6)

多项式拟合的一般方法可归纳为以下几步:

(1) 由已知数据画出函数粗略的图形——散点图,确定拟合多项式的次数n;

m

m

ji

(2) 列表计算i 0

x

(j 0,1, ,2n)

和i 0

n

x

ji

yi

(j 0,1, ,2n)

;

(3) 写出正规方程组,求出a0,a1, an;

k 0(4) 写出拟合多项式。

在实际应用中,n m或n m;当n m时所得的拟合多项式就是拉格朗日或牛

pn(x)

a

k

x

k

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

顿插值多项式。 

例1 测得铜导线在温度Ti(℃)时的电阻Ri( )如表6-1,求电阻R与温度 T

解 数为

R a0 a1T

列表如下

正规方程组为 7

245.3

245.3 a0 565.5

9325.83 a1 20029.445

a1 0.921

解方程组得

a0 70.572,

故得R与T的拟合直线为

利用上述关系式,可以预测不同温度时铜导线的电阻值。例如,由R=0得T=-242.5,即预测温度T=-242.5℃时,铜导线无电阻。

R 70.572 0.921T

6-2

例2 已知实验数据如下表

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

解 设拟合曲线方程为

列表如下

y a0 a1x a2x

2

9 52 381

523813017

381 a0 32

3017a 147

1

25317 a2 1025

a1 3.6053

解得

a0 13.4597,

a2 0.2676

2

故拟合多项式为

y 13.4597 3.6053 0.2676x

*三 最小二乘拟合多项式的存在唯一性

定理1 设节点x0,x1, ,xn互异,则法方程组(4)的解存在唯一。

证 由克莱姆法则,只需证明方程组(4)的系数矩阵非奇异即可。 用反证法,设方程组(4)的系数矩阵奇异,则其所对应的齐次方程组

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

m 1 m xi i 0 m

n xi i 0

n

m

m

x

i 0

m

i

x

i 0

2i

m

x

i 0j ki

n 1i

m

y x i

ai 0 i 00 m

mn 1

xi a1 xiyi

i 0i 0 a m m

n2n n xiyi xi

i 0 i 0

n

i

m

(7)

有非零解。式(7)可写为

( x

k 0

i 0

)ak 0,

a

j

j 0,1, ,n

(8)

(j=0,1, ,n),然后将新得到的n+1个方程左

n

将式(8)中第j个方程乘以

nmj k a(x)a0 j ik 0

右两端分别 相加,得j 0 k 0i 0

因为

m

nmj k

aj ( xi)ak j 0 k 0i 0 i 0n

n

n

m

n

j

n

k

i

j 0k 0

akajxi

j k

( ajxi)( akx)

i 0

j 0

k 0

2

p(x) nii 0

m

其中

n

pn(x)

a

k 0

k

x

k

所以

pn(xi) 0

pn(x)

(i=0,1, ,m)

是次数不超过n的多项式,它有m+1>n个相异零点,由代数基本定理,必

n

须有a0 a1 an 0,与齐次方程组有非零解的假设矛盾。因此正规方程组(4)

n

必有唯一解 。定理2 设0,1是正规方程组(4)的解,则是满足式(1)的最小二乘拟合多项式。

aa, ,a

pn(x)

a

k 0k

k

x

k

n

证 只需证明,对任意一组数

b0,b1, ,bn

组成的多项式

(xi) yi

2

Qn(x)

b

k 0

xk

,恒有

Q

i 0

m

n

(xi) yi

2

p

i 0

m

n

即可。

Q

i 0

m

m

n

(xi) yi

2

p

i 0

2

m

n

(xi) yi

m

2

Q

i 0

n

(xi) pn(xi) 2 Qn(xi) pn(xi) pn(xi) yi

i 0

m

0 2

(b

n

j

aj)xi

j

i 0j 0

n m

n k

akxi yi 2 bj aj

j 0 i 0 k 0 n j k

ax yx kiii

k 0

数学建模的绝大部分的方法,简单的介绍和分析,避免你到处找方法!做学术论文等都可以用到的!

因为ak(k=0,1, ,n)是正规方程组(4)的解,所以满足式(2),因此有

Qn(xi)

i 0

m

yi

2

pn(xi)

i 0

m

yi 0

2

故pn(x)为最小二乘拟合多项式。

*四 多项式拟合中克服正规方程组的病态

在多项式拟合中,当拟合多项式的次数较高时,其正规方程组往往是病态的。而且

①正规方程组系数矩阵的阶数越高,病态越严重;

②拟合节点分布的区间 x0,xm 偏离原点越远,病态越严重; ③xi(i=0,1, ,m)的数量级相差越大,病态越严重。 为了克服以上缺点,一般采用以下措施:

①尽量少作高次拟合多项式,而作不同的分段低次拟合;

②不使用原始节点作拟合,将节点分布区间作平移,使新的节点xi关于原 点对称,可大大降低正规方程组的条件数,从而减低病态程度。 平移公式为:

xi xi

x0 xm

2

,

i 0,1, ,m

(9)

③对平移后的节点xi(i=0,1, ,m),再作压缩或扩张处理:

xi pxi,

m

i 0,1, ,m (10)

p

2r

(m 1)

其中

xi x0 ih

(x

i 0

i

)

2r

,(r是拟合次数) (11)

的数量级不太大也不太小,特别对于等距节点

经过这样调整可以使

xi

,作式(10)和式(11)两项变换后,其正规方程

组的系数矩阵设 为A,则对1~4次多项式拟合,条件数都不太大,都可以得到满意的结果。

④在实际应用中还可以利用正交多项式求拟合多项式。一种方法是构造离散正交多项式;另一种方法是利用切比雪夫节点求出函数值后再使用正交多项式。这两种方法都使正规方程 组的系数矩阵为对角矩阵,从而避免了正规方程组的病态。我们只介绍第一种,见第三节。

例如 m=19,x0=328,h=1, x1=x0+ih,i=0,1, ,19,即节点 分布在[328,347],作二次多项式拟合时

① 直接用xi构造正规方程组系数矩阵A0,计算可得

cond

2

(i 0,1, ,m)

(A0) 2.25 10

16

本文来源:https://www.bwwdw.com/article/2bd4.html

Top