数学建模方法大汇总

更新时间:2024-07-01 05:24:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

目录

一、主成分分析法 ....................................................................................................... 2 二、因子分析法............................................................................................................ 5 三、聚类分析 .............................................................................................................. 9 四、最小二乘法与多项式拟合 ................................................................................. 16 五、回归分析(略) ................................................................................................. 22 六、概率分布方法(略) ......................................................................................... 22 七、插值与拟合(略) ............................................................................................. 22 八、方差分析法 ........................................................................................................ 23 九、逼近理想点排序法 ............................................................................................. 28 十、动态加权法.......................................................................................................... 29 十一、灰色关联分析法 ............................................................................................. 31 十二、灰色预测法 ..................................................................................................... 33 十三、模糊综合评价 ................................................................................................. 35 十四、隶属函数的刻画(略) ................................................................................. 37 十五、时间序列分析法 ............................................................................................. 38 十六、蒙特卡罗(MC)仿真模型 ................................................................................. 42 十七、BP神经网络方法 ............................................................................................ 44 十八、数据包络分析法(DEA) ............................................................................... 51 十九、多因素方差分析法()基于SPSS) ............................................................ 54 二十、拉格朗日插值 ............................................................................................. 70 二十一、回归分析(略) ......................................................................................... 75 二十二、概率分布方法(略) ................................................................................. 75 二十三、插值与拟合(略) ..................................................................................... 75 二十四、隶属函数的刻画(参考《数学建模及其方法应用》) ........................... 75 二十五、0-1整数规划模型(参看书籍) .............................................................. 75 二十六、Board评价法(略) .................................................................................. 75 二十七、纳什均衡(参看书籍) ............................................................................. 75 二十八、微分方程方法与差分方程方法(参看书籍) ......................................... 75 二十九、莱斯利离散人口模型(参看数据) ......................................................... 75 三十、一次指数平滑预测法(主要是软件的使用) ............................................. 75 三十一、二次曲线回归方程(主要是软件的使用) ............................................. 75 三十二、成本-效用分析(略) ............................................................................... 75 三十三、逐步回归法(主要是软件的使用) ......................................................... 75 三十四、双因子方差分析(略) ............................................................................. 75

一、主成分分析法 一)、主成分分析法介绍:

主成分分析(principal components analysis,PCA)又称:主分量分析,主成分回归分析法。旨在利用降维的思想,把多指标转化为少数几个综合指标。它是一个线性变换。这个变换把数据变换到一个新的坐标系统中,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。

二)、主成分分析法的基本思想:

在实证问题研究中,为了全面、系统地分析问题,我们必须考虑众多影响因素。这些涉及的因素一般称为指标,在多元统计分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息,并且指标之间彼此有一定的相关性,因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时,变量太 多会增加计算量和增加分析问题的复杂性,人们希望在进行定量分析的过程中,涉及的变量较少,得到的信息量较多。主成分分析正是适应这一要求产生的,是解决这类题的理想工具。

同样,在科普效果评估的过程中也存在着这样的问题。科普效果是很难具体量化的。在实际评估工作中,我们常常会选用几个有代表性的综合指标,采用打分的方法来进行评估,故综合指标的选取是个重点和难点。如上所述,主成分分析法正是解决这一问题的理想工具。因为评估所涉及的众多变量之间既然有一定的相关性,就必然存在着起支配作用的因素。根据这一点,通过对原始变量相关矩阵内部结构 的关系研究,找出影响科普效果某一要素的几个综合指标,使综合指标为原来变量的线 性拟合。这样,综合指标不仅保留了原始变量的主要信息,且彼此间不相关,又比原始 变量具有某些更优越的性质,就使我们在研究复杂的科普效果评估问题时,容易抓住主 要矛盾。 上述想法可进一步概述为:设某科普效果评估要素涉及个指标,这指标构成的维随机向量为。对作正交变换,令其中为正交阵的各分量是不相关的,使得的各分量在某个评估要素中的作用容易解释,这就使得我们有可能从主分量中选择主要成分,削除对这一要素影响微弱的部分,通过 对主分量的重点分析,达到对原始变量进行分析的目的。各分量是原始变量线性组合,不同的分量表示原始变量之间不同的影响关系。由于这些基本关系很可能与特定的作用过程相联系,主成分分析使我们能从错综复杂的科普评估要素的众多指标中,找出一些主要成分,以便有效地利用大量统计数据,进行科普效果评估分析,使我们在研究科普效果评估问题中,可能得到深层次的一些启发,把科普效果评估研究引向深入。

例如,在对科普产品开发和利用这一要素的评估中,涉及科普创作人数百万人、科 普作品发行量百万人、科普产业化(科普示范基地数百万人)等多项指标。经过主成分分析计算,最后确定个或个主成分作为综合评价科普产品利用和开发的综合指标,变量数减少,并达到一定的可信度,就容易进行科普效果的评估。

三)、主成分分析法的数学模型:

其中:

为第 j个指标对应于第 个主成分的初始因子载荷, 为第 l个主成分对应的特征值 根据主成分表达式得出综合得分模型:

四)、主成分分析法的基本原理:

主成分分析法是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p 个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。 五)、主成分分析法的作用:

概括起来说,主成分分析主要由以下几个方面的作用。

1.主成分分析能降低所研究的数据空间的维数。即用研究m维的Y空间代替p维的X空间(m<p),而低维的Y空间代替 高维的x空间所损失的信息很少。即:使只有一个主成分Yl(即 m=1)时,这个Yl仍是使用全部X变量(p个)得到的。例如要计算Yl的均值也得使用全部x的均值。在所选的前m个主成分中,如果某个Xi的系数全部近似于零的话,就可以把这个Xi删除,这也是一种删除多余变量的方法。

2.有时可通过因子负荷aij的结论,弄清X变量间的某些关系。

3.多维数据的一种图形表示方法。我们知道当维数大于3时便不能画出几何图形,多元统计研究的问题大都多于3个变量。要把研究的问题用图形表示出来是不可能的。然而,经过主成分分析后,我们可以选取前两个主成分或其中某两个主成分,根据主成分的得分,画出n个样品在二维平面上的分布况,由图形可直观地看出各样品在主分量中的地位,进而还可以对样本进行分类处理,可以由图形发现远离大多数样本点的离群点。

4.由主成分分析法构造回归模型。即把各主成分作为新自变量代替原来自变量x做回归分析。

5.用主成分分析筛选回归变量。回归变量的选择有着重的实际意义,为了使模型本身易于做结构分析、控制和预报,好从原始变量所构成的子集合中选择最佳变量,构成最佳变量集合。用主成分分析筛选变量,可以用较少的计算量来选择量,获得选择最佳变量子集合的效果。 六)、主成分分析法的计算步骤:

1、原始指标数据的标准化采集p 维随机向量x = (x1,X2,...,Up)T)n 个样品xi = (xi1,xi2,...,dip)T ,I=1,2,?,n,

n>p,构造样本阵,对样本阵元进行如下标准化变换:

其中

2、对标准化阵Z 求相关系数矩阵

其中,

3、解样本相关矩阵R 的特征方程按

得p 个特征根,确定主成分 ,得标准化阵Z。

确定m 值,使信息的利用率达85%以上,对每个job,

j=1,2,...,m, 解方程组Rib = job得单位特征向量 。 4、将标准化后的指标变量转换为主成分

U1称为第一主成分,U2 称为第二主成分,?,Up 称为第p 主成分。 5 、对m 个主成分进行综合评价

对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。

PS另一种易于理解的步骤: 1、数据标准化;

2、求相关系数矩阵;

3、一系列正交变换,使非对角线上的数置0,加到主对角上; 得特征根xi(即相应那个主成分引起变异的方差),并按照从大到小的顺序把特征根排列;

4、求各个特征根对应的特征向量; 用下式计算每个特征根的贡献率Vi; VI=xi/(x1+x2+........)

5、根据特征根及其特征向量解释主成分物理意义 七)、主成分分析法的案例:

参见:基于主成分分析的力量结构指标的权重的计算、基于主成分析的江苏省地方高校创新力研究

二、因子分析法

一)因子分析法介绍:

主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。

例:随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。 因此,可以说因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。

因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将

原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。 二)、因子分析法的基本模型:

因子分析法是从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。 因子分析模型描述如下:

1、X=(x1,x2,?,xp)是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。 2、F=(F1,F2,?,Fm)(m

3、e=(e1,e2,?,ep)与F相互独立,且E(e)=0,e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:

x1=a11F1+a12F2+?+a1mFm+e1 x2=a21F1+a22F2+?+a2mFm+e2 xp=ap1F1+ap2F2+?+apmFm+ep

称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。其矩阵形式为:

x=AF+e

其中:

x=,A=,F=,e=

这里

(1)m£p;

(2)Cov(F,e)=0,即F和e是不相关的;

(3)D(F)=Im,即F1,F2,?,Fm不相关且方差均为1; (4)D(e)=,即e1,e2,?,ep不相关,且方差不同。

我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。

A=(aij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。 三)、模型的统计意义:

模型中F1,F2,?,Fm叫做主因子或公共因子,它们是在各个原观测变量的表达式中都共同出现的因子,是相互独立的不可观测的理论变量。公共因子的含义,必须结合具体问题的实际意义而定。e1,e2,?,ep叫做特殊因子,是向量x的分量xi(i=1,2,?,p)所特有的因子,各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。模型中载荷矩阵A中的元素(aij)是为因子载荷。因子载荷aij是xi与Fj的协方差,也是xi与Fj的相关系数,它表示xi依赖Fj的程度。可将aij看作第i个变量在第j公共因子上的权,aij的绝对值越大(|aij|£1),表明xi与Fj的相依程度越大,或称公共因子Fj对于xi的载荷量越大。为了得到因子分析结果的经济解释,因子载荷矩阵A中有两个统计量十分重要,即变量共同度和公共因子的方差贡献。

因子载荷矩阵A中第i行元素之平方和记为hi2,称为变量xi的共同度。它是全部公共因子对xi的方差所做出的贡献,反映了全部公共因子对变量xi的影响。hi2大表明x的第i个分量xi对于F的每一分量F1,F2,?,Fm的共同依赖程度大。

将因子载荷矩阵A的第j列( j =1,2,?,m)的各元素的平方和记为gj2,称为公共因子Fj对x的方差贡献。gj2就表示第j个公共因子Fj对于x的每一分量xi(i= 1,2,?,p)所提供方差的总和,它是衡量公共因子相对重要性的指标。gj2越大,表明公共因子Fj对x的贡献越大,或者说对x的影响和作用就越大。如果将因子载荷矩阵A的所有gj2(j=1,2,?,m)都计算出来,使其按照大小排序,就可以依此提炼出最有影响力的公共因子。 四)、因子旋转:

建立因子分析模型的目的不仅是找出主因子,更重要的是知道每个主因子的意义,以便对实际问题进行分析。如果求出主因子解后,各个主因子的典型代表变量不很突出,还需要进行因子旋转,通过适当的旋转得到比较满意的主因子。

旋转的方法有很多,正交旋转(orthogonal rotation)和斜交旋转(oblique rotation)是因子旋转的两类方法。最常用的方法是最大方差正交旋转法(Varimax)。进行因子旋转,就是要使因子载荷矩阵中因子载荷的平方值向0和1两个方向分化,使大的载荷更大,小的载荷更小。因子旋转过程中,如果因子对应轴相互正交,则称为正交旋转;如果因子对应轴相互间不是正交的,则称为斜交旋转。常用的斜交旋转方法有Promax法等。 五)、因子得分:

因子分析模型建立后,还有一个重要的作用是应用因子分析模型去评价每个样品在整个模型中的地位,即进行综合评价。例如地区经济发展的因子分析

模型建立后,我们希望知道每个地区经济发展的情况,把区域经济划分归类,哪些地区发展较快,哪些中等发达,哪些较慢等。这时需要将公共因子用变量的线性组合来表示,也即由地区经济的各项指标值来估计它的因子得分。 设公共因子F由变量x表示的线性组合为:

Fj=uj1xj1+uj2xj2+?+ujpxjpj=1,2,?,m

该式称为因子得分函数,由它来计算每个样品的公共因子得分。若取m=2,则将每个样品的p个变量代入上式即可算出每个样品的因子得分F1和F2,并将其在平面上做因子得分散点图,进而对样品进行分类或对原始数据进行更深入的研究。

但因子得分函数中方程的个数m小于变量的个数p,所以并不能精确计算出因子得分,只能对因子得分进行估计。估计因子得分的方法较多,常用的有回归估计法,Bartlett估计法,Thomson估计法。 具体方法为: (1)回归估计法

F=Xb=X(X¢X)-1A¢=XR-1A¢(这里R为相关阵,且R=X¢X)。 (2)Bartlett估计法

Bartlett估计因子得分可由最小二乘法或极大似然法导出。 F=(W-1/2A)¢W-1/2A]-1(W-1/2A)¢W-1/2X=(A¢W-1A)-1A¢W-1X (3)Thomson估计法

在回归估计法中,实际上是忽略特殊因子的作用,取R = X ¢X,若考虑特殊因子的作用,此时R = X ¢X+W,于是有: F=XR-1A¢=X(X¢X+W)-1A¢

这就是Thomson估计的因子得分,使用矩阵求逆算法(参考线性代数文献)可以将其转换为:

F=XR-1A¢=X(I+A¢W-1A)-1W-1A¢ 六)、因子分析的步骤:

因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。

因子分析常常有以下四个基本步骤:

1、确认待分析的原变量是否适合作因子分析。 2、构造因子变量。

3、利用旋转方法使因子变量更具有可解释性。 4、计算因子变量得分。 因子分析的计算过程:

1、将原始数据标准化,以消除变量间在数量级和量纲上的不同。 2、求标准化数据的相关矩阵;

3、求相关矩阵的特征值和特征向量; 4、计算方差贡献率与累积方差贡献率;

5、确定因子:设F1,F2,?,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;

6、因子旋转:

若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。

7、用原指标的线性组合来求各因子得分:采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。

8、综合得分:以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。

F=(w1F1+w2F2+?+wmFm)/(w1+w2+?+wm)

此处wi为旋转前或旋转后因子的方差贡献率。 9、得分排序:利用综合得分可以得到得分名次。 七)、主成分分析法的使用范围:

1、简化系统结构,探讨系统内核。可采用主成分分析、因子分析、对应分析等方法,在众多因素中找出各个变量最佳的子集合,从子集合所包含的信息描述多变量的系统结果及各个因子对系统的影响。“从树木看森林”,抓住主要矛盾,把握主要矛盾的主要方面,舍弃次要因素,以简化系统的结构,认识系统的内核。

2、构造预测模型,进行预报控制。在自然和社会科学领域的科研与生产中,探索多变量系统运动的客观规律及其与外部环境的关系,进行预测预报,以实现对系统的最优控制,是应用多元统计分析技术的主要目的。在多元分析中,用于预报控制的模型有两大类。一类是预测预报模型,通常采用多元线性回归或逐步回归分析、判别分析、双重筛选逐步回归分析等建模技术。另一类是描述性模型,通常采用聚类分析的建模技术。

3、进行数值分类,构造分类模式。在多变量系统的分析中,往往需要将系统性质相似的事物或现象归为一类。以便找出它们之间的联系和内在规律性。过去许多研究多是按单因素进行定性处理,以致处理结果反映不出系统的总的特征。进行数值分类,构造分类模式一般采用聚类分析和判别分析技术。

如何选择适当的方法来解决实际问题,需要对问题进行综合考虑。对一个问题可以综合运用多种统计方法进行分析。例如一个预报模型的建立,可先根据有关生物学、生态学原理,确定理论模型和试验设计;根据试验结果,收集试验资料;对资料进行初步提炼;然后应用统计分析方法(如相关分析、逐步回归分析、主成分分析等)研究各个变量之间的相关性,选择最佳的变量子集合;在此基础上构造预报模型,最后对模型进行诊断和优化处理,并应用于生产实际。

三、聚类分析

一)聚类分析的概念:

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。

聚类与分类的不同在于,聚类所要求划分的类是未知的。

聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 二)、聚类分析的主要应用: 在商业上

聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;

在生物上

聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识 在地理上

聚类能够帮助在地球中被观察的数据库商趋于的相似性 在保险行业上

聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组 在因特网应用上

聚类分析被用来在网上进行文档归类来修复信息 在电子商务上

聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,可以更好的帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。 三)聚类分析的主要步骤: 1、数据预处理,

2、为衡量数据点间的相似度定义一个距离函数, 3、聚类或分组, 4、评估输出。

数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。

既然相类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域,

一个简单的距离度量,如Euclidean距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性。

将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始。Crisp Clustering,它的每一个数据都属于单独的类;Fuzzy Clustering,它的每个数据可能在任何一个类中,Crisp Clustering和Fuzzy Clusterin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类,其他的聚类方法还包括基于密度的聚类,基于模型的聚类,基于网格的聚类。

评估聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集合。

四)聚类分析的计算方法: 1、划分法(partitioning methods):给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K

录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法; 5、基于模型的方法(model-based methods):基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。 具体的有:

1、K-MEANS算法

k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 2、K-MEDOIDS算法

K-MEANS有其缺点:产生类的大小相差不会很大,对于脏数据很敏感。 改进的算法:k—medoids 方法。这儿选取一个对象叫做mediod来代替上面的中心的作用,这样的一个medoid就标识了这个类。步骤:

(1)、任意选取K个对象作为medoids(O1,O2,?Oi?Ok)。 以下是循环的:

(2)、将余下的对象分到各个类中去(根据与medoid最相近的原则); (3)、对于每个类(Oi)中,顺序选取一个Or,计算用Or代替Oi后的消耗—E(Or)。选择E最小的那个Or来代替Oi。这样K个medoids就改变了,下面就再转到2。

(4)、这样循环直到K个medoids固定下来。

这种算法对于脏数据和异常数据不敏感,但计算量显然要比K均值要大,一般只适合小数据量。 3、Clara算法

上面提到K-medoids算法不适合于大数据量的计算。现在介绍Clara算法,这是一种基于采用的方法,它能够处理大量的数据。

Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最佳的medoids。Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids算法得到相应的(O1,O2?Oi?Ok),然后在这当中选取E最小的一个作为最终的结果。 4、Clarans算法

Clara算法的效率取决于采样的大小,一般不太可能得到最佳的结果。

在Clara算法的基础上,又提出了Clarans的算法,与Clara算法不同的是:在Clara算法寻找最佳的medoids的过程中,采样都是不变的。而Clarans

算法在每一次循环的过程中所采用的采样都是不一样的。与上次课所讲的寻找最佳medoids的过程不同的是,必须人为地来限定循环的次数。

模糊聚类分析方法

聚类分析方法形成思路 变量的数据预处理

分类前,对原始数据进行预处理,使其所有变量尺度均匀化。方法有以下几种: 变量的标准化

设有n个样品,m个特征变量,设第i个样品,第j个变量的观测值为xij(i?1,2,?,n;j?1,2,?,m),由此可构成一个n?m阶矩阵为

?x11?x21??????xn1x12x22?xn2????x1m??x2m? (1) ???xnm?X?(xij)n?m将式(1)中每个变量xij根据以下公式变换,称为标准化。 对每个变量的标准化计算公式为

??xijxij?xjSjSj?[1nij(i?1,2,?,n)(j?1,2,?,m)(x?ni?1 (2)

式中,xj?1nijx?ni?1?xj)]21/2

标准化后变量的平均值为0,标准离差为1。 变量的正规化

对每个变量施行以下变换,称为正规化。

??xijxij?xj(min)xj(max)?xj(min)(i?1,2,?,n)(j?1,2,?,m) (3)

??1。式中,xj(max)和xj(min)分别为第j个变量的最大值和最小值。显然,0?xij

变量的规格化

对每个变量施行以下变换,称为规格化。

??xijxijxj(max)(i?1,2,?,n)(j?1,2,?,m) (4)

??1。 式中,,xj(max)为第j个变量的最大值。显然,0?xij注:数据的预处理以不丢失原有信息为前提。三种预处理方法的选择应根据现有

数据的特点来考虑。

分类统计量的确定及其聚类方法的选择

分类统计量的确定

一般是把相似程度大的并成一类,把相似程度小的分为不同的类,因此要定量地表示样品间的相似程度。设论域U?{x1,x2,?,xn},xi?{xi1,xi2,?,xim}(i?1,2,?,n),即数据矩阵为

A??xij?n?m,如果xi与xj的相似程度为rij?R(xi,xj)(i,j?1,2,?,n),则称之为相似系

~数,确定相似系数rij有多种不同的方法。常用的方法如下:

(1) 数量积法

xi?{xi1,xi2,?,xim}?U,令

?m?M?max??xik?xjk?i?j?k?1?,则取

i?j?1,rij?1?m?,显然rij?[0,1]。若出现有某些rij?0,可令rij?,rij??1x?x,i?j2jk?M?ikk?1?则有rij??[0,1]。也可以用平移-极差变换将其压缩到[0,1]上,即可以得到模糊相

似矩阵R??rij?n?m。

(2) 夹角余弦法(相似系数统计量): 令

m?xrij?k?1m2ikk?1ikxjkm2jk(i,j?1,2,?,n)

?x??xk?1则R??rij?n?n。

(3) 相关系数法(相关系数统计量): 令

m??xrij?k?1ik?xi??xjk?xj???xk?1mik?xi????x2k?1m(i,j?1,2,?,n)

jk?xj?2其中xi?x,x?mikk?11mj?x,则R??rij?。 ?n?nmjkk?11m注意:xi?{xi1,xi2,?,xim}中的样本xik属于同一个样本空间Xi(k?1,2,?,m)。 (4) 指数相似系数法: 令

2??3(xik?xjk)??rij??exp??? 2mk?1sk???4?1m其中sk?1?x?ni?1nik?xk?2,xk?1nikx?ni?1(k?1,2,?,m)。则R?rij??n?n。

注意:xi?{xi1,xi2,?,xim}中的样本xik属于不同的样本空间Xk,即

xik?Xk(k?1,2,?,m)。

(5) 最大最小值法: 令

??xrij?k?1mik?xjk?xjk???xk?1mik?(xij?0;i,j?1,2,?,n)

则R??rij?n?n。

(6) 算术平均值法: 令

??xrij?k?1mik?xjk?1?x?2k?1mik?xjk?(xij?0;i,j?1,2,?,n)

则R??rij?n?n。

(7) 几何平均值法:令

??xrij?k?1mmik?xjk?(xij?0;i,j?1,2,?,n)

?则R??rij?n?n。

k?1xik?xjk(8) 绝对值倒数法:令

i?j?1,??1rij???m??M??xik?xjk?,i?j???k?1

其中M为使得所有rij?[0,1](i,j?1,2,?,n)的确定常数,则R??rij?n?n。 (9) 绝对值指数法:令

?mrij?exp???xik?xjk?k?1??(i,j?1,2,?,n) ?则R??rij?n?n。

(10) 海明距离法(距离系数统计量。如果变量的量纲不同,原始数据变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离):令

?rij?1?H?d(xi,xj)?m(i,j?1,2,?,n) ??d(xi,xj)??xik?xjkk?1?其中H为使得所有rij?[0,1](i,j?1,2,?,n)的确定常数。则R?rij??n?n。

(11) 欧氏距离法(最常用):令

?rij?1?E?d(xi,xj)?m??d(xi,xj)???xik?xjkk?1?(i,j?1,2,?,n)

?2其中E为使得所有rij?[0,1](i,j?1,2,?,n)的确定常数。则R??rij?n?n。 (12) 契比雪夫距离法:令

?rij?1?Q?d(xi,xj)?m??d(xi,xj)??xik?xjkk?1?(i,j?1,2,?,n)

其中Q为使得所有rij?[0,1](i,j?1,2,?,n)的确定常数。则R??rij?n?n。

(13) 主观评分法:设有N个专家组成专家组{p1,p2,?,pN},让每一位专家对所研究的对象xi与xj相似程度给出评价,并对自己的自信度作出评估。如果第k位专家pk关于对象xi与xj的相似度评价为rij(k),对自己的自信度评估为

aij(k)(i,j?1,2,?,n),则相关系数定义为

??arij?k?1NijN(k)?rij(k)?(i,j?1,2,?,n)

ij?a则R??rij?n?n。

k?1(k)综上所述,以上给出了实际中能够使用的一些方法,具体地选择要根据具体问题的性质和使用的方便来确定。

在实际工作中,当需要研究样品与样品之间关系时,一般用距离系数统计量或者相似系数统计量作为分类计算依据,这种方法又称为Q型聚类法;当需要研究变量与变量之间的关系时,常用相关系数统计量作为分类计算依据,这种方法又称R型聚类法。

选择适当的聚类方法

聚合法

开始把每个样品看成自成一类,计算各类之间的相似程度的统计量,把最相似的两类合并为一类,再计算各类相似程度统计量,把最相似的两类合并,照此继续下去,一直到所有样品都聚合成一类为止,最后人为确定合适的分类数,得到分类结果。 分解法

它的聚类过程恰好和聚合法相反,开始把全体样品看成一类,然后分成二类,??,一直到每个样品为一类或分到不能再分时为止,通常要设计一个分类函数(目标函数)来控制整个分类过程。 调优法

开始人为将样品作初始分类,在一定准则下判断这个分类是否最优,如果不是最优,则对分类进行修改,再判断修改后的分类是否最优,若仍不是最优,再作修改,不断重复上述步骤,一直到分类方案最优为止。 *动态聚类法

步骤:

1、按照一定的原则选择一批凝聚点(聚核),

2、让样品向最近的凝聚点凝聚,这样就由点凝聚成类,得到初始分类。 3、初始分类不一定合理,可按最近距离原则进行修改,直到分类合理得到最终的分类为止。

四、最小二乘法与多项式拟合 一)、最小二乘法的基本原理

从整体上考虑近似函数p(x)同所给数据点(xi,yi)(i=0,1,?,m)误差

ri?p(xi)?yiri?p(xi)?yi(i=0,1,?,m)的大小,常用的方法有以下三种:一是误差(i=0,1,?,m)绝对值的最大值0?i?mTmmaxri,即误差 向量

mr?(r0,r1,?rm)的∞—范数;二是误差绝对值的和??i?0rii?0,即误差向量r的1—

范数;三是误差平方和的算术平方根,即误差向量r的2—范数;前两种方法简单、自然,但不便于微分运算 ,后一种方法相当于考虑 2—范数的平方,

mri2因此在曲线拟合中常采用误差平方和体大小。

?i?0ri2来 度量误差ri(i=0,1,?,m)的整

数据拟合的具体作法是:对给定数据 (xi,yi) (i=0,1,?,m),在取定的函数类?中,求p(x)??,使误差ri?p(xi)?yi(i=0,1,?,m)的平方和最小,即

mm i?0?ri2=i?0??p(xi)?yi??min2

从几何意义上讲,就是寻求与给定点(xi,yi)(i=0,1,?,m)的距离平方和为最小的曲线y?p(x)(图6-1)。函数p(x)称为拟合 函数或最小二乘解,求拟合函数p(x)的方法称为曲线拟合的最小二乘法。 在曲线拟合中,函数类?可有不同的选取方法.

6—1

二)、多项式拟合

假设给定数据点(xi,yi)(i=0,1,?,m),?为所有次数不超过n(n?m)的多项式构

n成的函数类,现求一

I?pn(x)??ak?0kx??k,使得

m2??pi?0mn(xi)?yi?2?n?k????akxi?yi??mini?0?k?0? (1)

当拟合函数为多项式时,称为多项式拟合,满足式(1)的pn(x)称为最小二乘

拟合多项式。特别地,当n=1时,称为线性拟合或直线拟合。 显然

mnkI??(?ai?0k?0xi?yi)k2

为a0,a1,?an的多元函数,因此上述问题即为求I?I(a0,a1,?an)的极值 问题。由多元函数求极值的必要条件,得

?I?ajmnkj?2?(?akxi?yi)xi?0,i?0k?0j?0,1,?,n (2)

nmj?kimk?0?(?xi?0)ak??xi?0jiyi,j?0,1,?,n (3)

m(3)是关于a0,a1,?an的线性方程组,用矩阵表示为

??m?1?m?xi??i?0???mn?xi???i?0m?xi?0mi???xi?02i?m?xi?0n?1i???m?y?x???i?ai?0??i?00??m?m??n?1??a?xi??1????xiyi??i?0????i?0???????a?m?mn2n??n???xiyi??xi??i?0???i?0?ni (4)

式(3)或式(4)称为正规方程组或法方程组。

可以证明,方程组(4)的系数矩阵是一个对称正定矩阵,故存在唯一解。从式(4)中解出ak(k=0,1,?,n),从而可得多项式

npn(x)??ak?0kxk (5)

可以证明,式(5)中的pn(x)满足式(1),即pn(x)为所求的拟合多项式。我们把i?0??pn(xi)?myi?2称为最小二乘拟合多项式pn(x)的平方误差,记作

r22???pn(xi)?i?0mkkimyi?2由式(2)可得

r22mn

??i?0y?2i?a(?xk?0i?0yi) (6)

多项式拟合的一般方法可归纳为以下几步:

(1) 由已知数据画出函数粗略的图形——散点图,确定拟合多项式的次数n;

mmji(2) 列表计算i?0?x(j?0,1,?,2n)和i?0n?xjiyi(j?0,1,?,2n);

(3) 写出正规方程组,求出a0,a1,?an;

k?0(4) 写出拟合多项式。

在实际应用中,n?m或n?m;当n?m时所得的拟合多项式就是拉格朗日或牛

pn(x)??akxk顿插值多项式。 

例1 测得铜导线在温度Ti(℃)时的电阻Ri(?)如表6-1,求电阻R与温度 T的近似函数关系。 i 0 1 2 3 4 5 6 Ti(℃) 19.1 25.0 30.1 36.0 40.0 45.1 50.0 76.30 77.80 79.25 80.80 82.35 83.90 85.10 Ri(?)解 画出散点图(图6-2),可见测得的数据接近一条直线,故取n=1,拟合函数为

R?a0?a1T列表如下

i 0 1 2 3 4 5 6 Ti TiRi Ri Ti2 19.1 25.0 30.1 36.0 40.0 45.1 50.0 76.30 77.80 79.25 80.80 82.35 83.90 85.10 364.81 625.00 906.01 1296.00 1600.00 2034.01 2500.00 1457.330 1945.000 2385.425 2908.800 3294.000 3783.890 4255.000 ?正规方程组为 245.3 565.5 9325.83 20029.445 ?7??245.3245.3??a0??565.5???????9325.83??a1??20029.445?

a1?0.921解方程组得

a0?70.572,故得R与T的拟合直线为

利用上述关系式,可以预测不同温度时铜导线的电阻值。例如,由R=0得T=-242.5,即预测温度T=-242.5℃时,铜导线无电阻。

R?70.572?0.921T

6-2

例2 已知实验数据如下表

i xi0 1 2 3 4 5 6 7 8 1 3 4 5 6 7 8 9 10 10 5 4 2 1 1 2 3 4 yi试用最小二乘法求它的二次拟合多项式。 解 设拟合曲线方程为

列表如下

I 0 1 2 3 4 5 6 7 8 xiyiy?a0?a1x?a2x2

xiyixiyi2 xi2 xi3 xi4 1 3 4 5 6 7 8 9 10 10 5 4 2 1 1 2 3 4 1 9 16 25 36 49 64 81 100 1 27 64 125 216 343 512 729 1000 1 81 256 625 1296 2401 4096 6561 10000 10 15 16 10 6 7 16 27 40 10 45 64 50 36 49 128 243 400 ?得正规方程组 53 32 381 3017 25317 147 1025 ?9?52???381523813017381??a0??32????3017a?147??1??25317????a2????1025a1??3.6053?????解得

a0?13.4597,a2?0.26762

故拟合多项式为

y?13.4597?3.6053?0.2676x

*三 最小二乘拟合多项式的存在唯一性

定理1 设节点x0,x1,?,xn互异,则法方程组(4)的解存在唯一。

证 由克莱姆法则,只需证明方程组(4)的系数矩阵非奇异即可。 用反证法,设方程组(4)的系数矩阵奇异,则其所对应的齐次方程组

??m?1?m?xi??i?0???mn?xi???i?0nmm?xi?0mi???xi?02i?m?xi?0j?kin?1i???m?y?x??i??ai?0??i?00???m??mn?1???xi??a1????xiyi??i?0i?0???????????a?m?mn2n??n???xiyi??xi????i?0?i?0?nim (7)

有非零解。式(7)可写为

?(?xk?0i?0)ak?0,ajj?0,1,?,n (8)

(j=0,1,?,n),然后将新得到的n+1个方程左

n将式(8)中第j个方程乘以

?nmj?k?a(x)a0?j???ik??0?右两端分别 相加,得j?0?k?0i?0

因为

m?nmj?k??aj??(?xi)ak???j?0?k?0i?0?i?0nnnmnjnki??j?0k?0akajxij?k??(?ajxi)(?akx)?i?0j?0k?02??p(x)?nii?0m其中

n

pn(x)??ak?0kxk

所以

pn(xi)?0pn(x) (i=0,1,?,m)

是次数不超过n的多项式,它有m+1>n个相异零点,由代数基本定理,必

n须有a0?a1??an?0,与齐次方程组有非零解的假设矛盾。因此正规方程组(4)

n必有唯一解 。定理2 设0,1是正规方程组(4)的解,则是满足式(1)的最小二乘拟合多项式。

aa,?,apn(x)??ak?0kkxkn证 只需证明,对任意一组数

b0,b1,?,bn组成的多项式

(xi)?yi?2Qn(x)??bk?0xk,恒有

??Qi?0mn(xi)?yi??2??pi?0mn即可。

??Qi?0mmn(xi)?yi??2??pi?02mn(xi)?yi?m2???Qi?0n(xi)?pn(xi)??2??Qn(xi)?pn(xi)???pn(xi)?yi?i?0m?0?2???(bnj?aj)xij?i?0j?0n?m?n??k???akxi?yi??2???bj?aj??j?0?i?0?k?0????n?j???kax?yx????kiii???????k?0?

组内离均差平方和为各处理组内部观察值与其均数()差值的平方和之和,

数理统计证明,总离均差平方和等于各部分离均差平方和之和,因此,

(5.7)

(5.8)

(5.9)

4)三种变异的关系:

= N-1= (k-1)+(N-k) =

可见,完全随机设计的单因素方差分析时,总的离均差平方和(SS总)可分解为组间离均差平方和(SS组间)与组内离均差平方和(SS组内)两部分;相应的总自由度(分解为组间自由度(

)和组内自由度(

)两部分。

)也

5)方差分析的统计量:

(5.10)

4、方差分析的应用条件与用途

方差分析的应用条件为①各样本须是相互独立的随机样本;②各样本来自正态分布总体;③各总体方差相等,即方差齐。

方差分析的用途①两个或多个样本均数间的比较;②分析两个或多个因素间的交互作用;③回归方程的线性假设检验;④多元线性回归分析中偏回归系数的假设检验;⑤两样本的方差齐性检验等。

九、逼近理想点排序法

原理:通过测度各个被测评对象的指标评价值向量与评价的理想解和负理想解的相对距离进行测评排序,同时计算各评价对象的综合评价指数。 确定规范化决策矩阵

无量纲化处理

bij?aij?amin(i)amax(i)?amin(i) -----------------→ 规范化决策矩阵 B?(bij)i?j

(第j个被测评对象的第i个指标的无量纲化处理公式) 确定指标的权重系数(以变异系数法为例) ? 先求不同指标下指标评价的均值ai和标准差Si ? 再计算各指标的变异系数,取其绝对值为Vi ? 对作归一化处理,得各指标的权重Wi?Vi/?Vi

? 再由规范化决策矩阵B和权重构成加权规范阵R?WB?(rij)

确定理想解x和负理想解x

x??ri/i?1,?,m??maxrij/j?1,?,n??j??x??ri????

/i?1,?,m???minr/j?1,?,n?

jij计算各被测评对象到理想解距离d?与负理想解的距离d

nn?j?2?j?d??i?1(rij?ri) d??i?1(rij?ri) (j=1,?,n)

?2计算被测评对象与理想解的相对接近度,作为其综合评价指数

dj?j??jcj?cjd?d?100(j?1,?,n)

值越大,则顾客满意程度越高

十、动态加权法 动态加权:

关于不同的指标可以取相同的权函数,也可以取不同的权函数。

举例:长江水质?? 数据:

求解:

十一、灰色关联分析法

灰色关联度是两个系统或两个因素间关联性大小的量度,它描述系统发展过程中因素间相对变化的情况,也就是变化大小、方向与速度等的相对性。

如果两因素在发展过程中相对变化态势一致性高,则两者的灰色关联度大;反之,灰色关联度就小。

所谓灰色关联分析,就是系统的因素分析,是对一个系统发展变化态势的定量比较和反映。灰色关联分析是通过灰色关联度来分析和确定系统因素间的影响程度或因素对系统主行为的贡献测度的一种方法。

灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线越接近,相应序列之间的关联度就越大,反之就越小。灰色关联分析方法弥补了用数理统计作系统分析所导致的缺憾。它对样本量的多少和样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析结果不符的情况。

具体步骤:灰色系统关联分析的具体计算步骤如下 :

(1)确定反映系统行为特征的参考数列和影响系统行为的比较数列

反映系统行为特征的数据序列,称为参考数列。影响系统行为的因素组成的数据序列,称比较数列。

(2)对参考数列和比较数列进行无量纲化处理

由于系统中各因素的物理意义不同,导致数据的量纲也不一定相同,不便于比较,或在比较时难以得到正确的结论。因此在进行灰色关联度分析时,一般都要进行无量纲化的数据处理。

(3)求参考数列与比较数列的灰色关联系数ξ(Xi)

所谓关联程度,实质上是曲线间几何形状的差别程度。因此曲线间差值大小,可作为关联程度的衡量尺度。对于一个参考数列X0有若干个比较数列X1, X2,?, Xn,各比较数列与参考数列在各个时刻(即曲线中的各点)的关联系数ξ(Xi)可由下列公式算出:

?(k)??minminX?X?0??0??k??X?0?X?0??k????maxmaxX?0??0??k??X?0?X?0??k??k????k???maxmaxX?k???k?

称为关联系数,其中?称为分辨系数,??(0,1),常取0.5.实数 第二级最小差,记为Δmin。 两级最大差,记为Δmax。 为各比较数列Xi曲线上的每一个点与参考数列X0曲线上的每一个点的绝对差值。记为Δoi(k)。所以关联系数ξ(Xi)也可简化如下列公式: r(xo(k),xi(k))?(minmin?oi(k)??maxmax?oi(k))(?oi(k)??maxmax?oi(k)) ikikik(4)求关联度ri 因为关联系数是比较数列与参考数列在各个时刻(即曲线中的各点)的关联程度值,所以它的数不止一个,而信息过于分散不便于进行整体性比较。因此有必要将各个时刻(即曲线中的各点)的关联系数集中为一个值,即求其平均值,作为比较数列与参考数列间关联程度的数量表示,关联度ri公式如下:

r?1??????k?的关联度 ??k?称为X?k?与X?n00nk?1(5)排关联序

因素间的关联程度,主要是用关联度的大小次序描述,而不仅是关联度的大小。将m个子序列对同一母序列的关联度按大小顺序排列起来,便组成了关联序,记为{x},它反映了对于母序列来说各子序列的“优劣”关系。若r0i>r0j,则称{xi}对于同一母序列{x0}优于{xj},记为{xi}>{xj} ;若r0i表1 代表旗县参考数列、比较数列特征值。

十二、灰色预测法 灰色预测

注:参考人口预测论文<纪江版>(灰色预测+时间序列的一次平滑指数预测法) 1、灰色预测一般有四种类型:

(1)、数列预测。对某现象随时间的顺延而发生的变化所做的预测定义为数列预测。例如对消费物价指数的预测,需要确定两个变量,一个是消费物价指数的水平。另一个是这一水平所发生的时间。

(2)、灾变预测。对发生灾害或异常突变时间可能发生的时间预测称为灾变预测。例如对地震时间的预测。

(3)、系统预测。对系统中众多变量间相互协调关系的发展变化所进行的预测称为系统预测。例如市场中替代商品、相互关联商品销售量互相制约的预测。 (4)、拓扑预测。将原始数据作曲线,在曲线上按定值寻找该定值发生的所有时点,并以该定值为框架构成时点数列,然后建立模型预测未来该定值所发生的时点。

2、使用方法前一定要在段前作一个引子,连接问题分析和数据特点,以下便是: 通过对已知数据的分析,随着时间的变化,排污量一直呈增长趋势,并且增长的很快。在这里利用灰色预测模型对( )进行预测。

通过对数据的分析,传统的数理统计预测方法往往需要足够多的数据,而本问题的数据给出的数据偏小,如果采用传统的方法误差太大。根据上述的特点可采用灰色预测模型。

3、灰色预测具体步骤:

(1)、首先是数据的检验处理,要求级比

?(i)?x(0)(i?1)(i)x(0)?(e?2n?12,en?1()i?2,3,?,n)

2n?1A、如果不全属于(e,e),则要做必要的变换处理(如取适当的常数C,作平

移变换),使其落入区域中。

B、若A不成立,则建立GM(1,1)模型 (2)、建立GM(1,1)模型

步骤一:一次累加生成数列AGO,(目的是弱化原始时间序列的随机性,增加其稳定程度) (1)(1)(1)(1)x?(x(1),x(2),?x(n) 步骤二:求均值数列 (1)(1)(1)z(k)??z(k)?(1??)z(k?1)(k?2,3,?,n)

n?1?2z(1)?(z?1?(1)(2),z(1)(3),?,z(1)(n)

步骤三:建立GM(1,1)模型相应的白化微分方程

dXdt?aX?1???

其中:α称为发展灰数;μ称为内生控制灰数。

步骤四:求的参数估计a、b(最小二乘法)

???BB?BYn ?T?1T步骤五: 给出累加时间数列预测模型

?X?1??k??1???X??0??1????e?a??ak??a,k?0,1,2...,n

步骤六:做差得到原始预测值

?(0)(k?1)?x?(1)(k?1)?x?(1)(k)?(x(0)(1)?xba)?(e?at?e?a(k?1))

4、检验预测值

A、残差检验

?(k)?x(0)(k)?xx(0)(0)(k)(k)(i?1,2,?,n)(若?(k)<0.2,则达到一般要求;若?(k)<0.1,

则效果好

B\\级比偏差值检验

步骤一;首先有参考数据

x(0)?(x(0)(1),x(0)(2),x(0)(3),?,x(0)(n))计算出级比?0(k),再由发展系数

a,求出相

应级比偏差

?k?1?1?0.5a1?0.5a?0(k)

若?(k)<0.2,则达到一般要求;若?(k)<0.1,则效果好 程序实现:

采用EXCEl的方法实现灰色预测。

十三、模糊综合评价 1. 模糊综合评判的一般提法

设U?{u1,u2,?,un}为研究对象的n种因素(或指标),称之为因素集(或指标集).V?{v1,v2,?,vm}为诸因素(或指标)的m种评判所构成的评判集(或称语集、评价集、决策集等),它们的元素个数和名称均可根据实际问题的需要和决策人主观确定.实际中,很多问题的因素评判集都是模糊的,因此,综合评判应该是

V上的一个模糊子集

B?(b1,b2,?,bm)?F(V)

其中bk为评判vk对模糊子集B的隶属度:?B(vk)?bk(k?1,2,,?,m),即反映了第k种评判vk在综合评价中所起的作用.综合评判B依赖于各因素的权重,即它应该

n是U上的模糊子集A?(a1,a2,?,an)?F(U),且?ai?1,其中ai表示第i种因素

i?1的权重.于是,当权重A给定以后,则相应地就可以给定一个综合评判B. 2. 模糊综合评判的一般步骤

(1) 确定因素集U?{u1,u2,?,un}; (2) 确定评判集V?{v1,v2,?,vm};

(3) 确定模糊评判矩阵R?(rij)n?m:

首先,对每一个因素ui做一个评判f(ui)(i?1,2,?,n),则可以得U到V的一个模糊映射f,即

f:U?F(U)ui?f(ui)?(ri1,ri2,?,rim)?F(V)

然后,由模糊映射f可以诱导出模糊关系Rf?F(U?V),即

Rf(ui,vj)?f(ui)(vj)?rij(i?1,2,?,n;j?1,2,?,m)

因此,可以确定出模糊评判矩阵R?(rij)n?m.而且称(U,V,R)为模糊综合评判模型,U,V,R称为该模型的三要素.

(4) 综合评判:对于权重A?(a1,a2,?,an)?F(U),用模型M(?,?)取最大-最小合成运算,可以得到综合评判

nB?A?R(?bj??(ai?rij),j?1,2,?,m)

i?1注意到:关于评判集V的权重A?(a1,a2,?,an)的确定在综合评判中起重要的作用,通常情况下可以由决策人凭经验给出,但往往带有一定的主观性.要从实际出发,或更客观地反映实际情况可采用专家评估法、加权统计法和频数统计法,或更一般的模糊协调决策法、模糊关系方法等来确定. 综合评判模型的构成

如果模糊综合评判模型为(U,V,R),对于权重A?(a1,a2,?,an)?F(U),模糊评判矩阵为R?(rij)n?m,则用模型M(?,?)运算得综合评判为

nB?A?R?(b1,b2,?,bm)?F(V),其中bj??(ai?rij)n(j?1,2,?,m).

i?1事实上,由于?ai?1,对于某些情况可能会出现ai?rij,即ai?rij?ai.这

i?1样可能导致模糊评判矩阵R中的许多信息的丢失,即人们对某些因素ui所作的评判信息在决策中未得到充分的利用.从而导致综合评判结果失真.为此,实际中可以对模型M(?,?)进行改进.

(1) 模型M(?,?)法:对于A?(a1,a2,?,an)?F(U)和R?(rij)n?m,则用模型

nM(?,?)运算得B?A?R,即bj??(ai?rij)(j?1,2,?,m).

i?1n(2) 模型M(?,?)法:对于A?(a1,a2,?,an)?F(U)和R?(rij)n?m,则用模型

M(?,?)运算得B?A?R,即bj??(ai?rij)(j?1,2,?,m).

i?1n(3) 模型M(?,?)法:对于A?(a1,a2,?,an)?F(U)和R?(rij)n?m,则用模型,即bj??(ai?rij)(j?1,2,?,m).

i?1在实际应用时,主因素(即权重最大的因素)在综合中起主导作用时,则可首选“主因素决定型”模型M(?,?);当模型M(?,?)失效时,再来选用“主因素突出型”模型M(?,?)和M(?,?);当需要对所有因素的权重均衡时,可选用加权平均模型M(?,?).在模型的选择时,还要特别注意实际问题的需求. 多层次模糊综合评判

对于实际中的许多问题往往都是涉及因素多,各因素的权重分配较为均衡的情况,此时,可采用将诸因素分为若干个层次进行研究.即首先分别对单层次的各因素进行评判,然后再对所有的各层次因素作综合评判.这里仅就两个层次的情况进行说明,具体方法如下:

kM(?,?)运算得B?A?R将因素集U?{u1,u2,?,un}分成若干个组U1,U2,?,Uk(1?k?n)使得U??Ui,

i?1且Ui?Uj??(i?j),称U?{U1,U2,?,Uk}为一级因素集。

k不妨设Ui?{u(i)1,u(i)2,?,u(i)ni}(i?1,2,?,k;?ni?n),称之为二级因素集.

i?1设评判集V?{v1,v2,?,vm},对二级因素集Ui?{u1(i),u2(i),?,un(i)}的ni个因素进行

i单因素评判,即建立模糊映射

fi:Ui?F(V)uj?fi(uj)?(rj1,rj2,?,rjm)(j?1,2,?,ni)(i)(i)(i)(i)(i)

于是得到评判矩阵为

(i)?r11?(i)r21Ri?????(i)??rni1r12(i)(i)????r22?rni2(i)(i)r1m?(i)?r2m? ???(i)rnim??不妨设Ui?{u1(i),u2(i),?,un(i)}的权重为Ai?(a1(i),a2(i),?,an(i)},则可以求得综合评

ii判为

Bi?Ai?Ri?(b1,b2,?,bm)(i?1,2,?,k)

(i)(i)(i)其中b(ji)由模型M(?,?),或M(?,?)、M(?,?)、M(?,?)确定.

对于一级因素集U?{U1,U2,?,Uk}作综合评判,不妨设其权重

TA?(a1,a2,?,ak),总评判矩阵为R?[B1,B2,?,Bk].按模型M(?,?),或M(?,?)、M(?,?),、M(?,?)运算得到综合评判B?A?R?(b1,b2,?,bm)?F(V).

十四、隶属函数的刻画(略)

十五、时间序列分析法

ARIMA(autoregressive integrated moving average models)时间序列模型 一般概念;

系统中某一变量的观测值按时间序列(时间间隔相同)排列成一个数值序列,展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律。他是系统中某一变量受其他各种因素影响的总结果。

变动特点:

趋势性:某个变量随时间进展或自变量变化,呈现一种比较缓慢而长期的持续上升、下降、停留的同性质变动趋势,但变动幅度可能不等。

周期性:某因素由于外部影响随着自然季节的交替出现高峰与低谷的规律。 随机性:个别为随机变动,整体呈统计规律

综合性:实际变化情况一般是几种变动的叠加或组合。预测时一般设法过滤去不规则变动,突出反映趋势性和周期性变动。

特征识别:认识时间序列所具有的变动特征,以便在系统预测时选择采用不同的方法

随机性:均匀分布、无规则分布,可能符合某统计分布(用因变量的散点图和直方图及其包含的正态分布检验随机性,大多服从正态分布)

平稳性:样本序列的自相关函数在某一固定水平线附近摆动,即方差和数学期望稳定为常数

特征识别利用自相关函数ACF:?k??k/?0,其中?k是yt的k阶自协方差,且

?0?1,-1

平稳过程的自相关系数和偏自相关系数都会以某种方式衰减趋于0,前者测度当前序列与先前序列之间简单和常规的相关程度,后者是在控制其它先前序列的影响后,测度当前序列与某一先前序列之间的相关程度。

实际上,预测模型大都难以满足这些条件,现实的经济、金融、商业等序列都是非稳定的,但通过数据处理可以变换为平稳的。

基本步骤:

分析数据序列的变化特征 选择模型形式和参数检验 利用模型进行趋势预测 评估预测结果并修正模型

自回归AR(p)模型(自己影响自己,但可能存在误差,误差即没有考虑到的因素)

模型意义

仅通过时间序列变量的自身历史观测值来反映有关因素对预测目标的影响和作用,不受模型变量互相独立的假设条件约束,所构成的模型可以消除普通回归预测方法中由于自变量选择、多重共线性的比你更造成的困难

用PACF函数判别(从p阶开始的所有偏自相关系数均为0)

移动平均MA(q)模型

模型含义

用过去各个时期的随机干扰或预测误差的线性组合来表达当前预测值。AR(q)的假设条件不满足时可以考虑用此形式。

用ACF函数判别(从q阶开始的所有自相关系数均为0)

自回归移动平均ARMA(p,q)模型

识别条件

平稳时间序列的偏相关系数?k和自相关系数rk均不截尾,但较快收敛到0,

则该时间序列可能是ARMA(p,q)模型。实际问题中,多数要用此模型。因此建模解模的主要工作时求解p,q和?、?的值,检验?t和yt的值。 模型阶数

实际应用中p,q一般不超过2.

自回归综合移动平均ARIMA(p,d,q)模型 模型含义

模型形式类似ARMA(p,q)模型,但数据必须经过特殊处理。特别当线性时间序列非平稳时,不能直接利用ARMA(p,q)模型,但可以利用有限阶差分使非平稳时间序列平稳化,实际应用中d(差分次数)一般不超过2. 模型识别

平稳时间序列的偏相关系数?k和自相关系数rk均不截尾,且缓慢衰减收敛,则该时间序列可能是ARIMA(p,d,q)模型。

若时间序列存在周期性波动,则可按时间周期进行差分,目的是将随机误差有长久影响的时间序列变成仅有暂时影响的时间序列。即差分处理后新序列符合ARMA(p,q)模型,元序列符合ARIMA(p,d,q)模型。

一个平稳的随机过程有以下要求:均数不随时间变化,方差不随时间变化,自相关系数只与时间间隔有关,而与所处的时间无关。

偏自相关函数(PACF)解决如下问题: 高阶的自相关是否真的非常重要?

是他的确有意义,还是因为低阶自相关系数较大才引起高阶自相关系数也大? 如果建立一个以前值预测现在值的回归模型,需要包括多少个以前值?

指数平滑法用序列过去值的加权均数来预测将来的值,并且给序列中近期的数据以较大的权重,远期的数据给以较小的权重。理由是随着时间流逝,过去值的影响逐渐减小。

指数平滑法应用时存在以下问题:

本文来源:https://www.bwwdw.com/article/cgy.html

Top