数据挖掘方法在V-PTC材料最优化设计中的应用

更新时间：2023-08-13 23:45:01 阅读量： IT计算机文档下载

说明：文章内容仅供预览，部分内容可能不全。下载后的文档，内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的，是否完整无缺。

材料数据挖掘方法与应用推荐度：
相关推荐

《计算材料学》课程设计

指导老师：江建军教授

电子科学与技术系 2004年6月

数据挖掘方法在V-PTC材料最优化设计中的应用

童庆强周伶俐操靖唐鹏程书芬温琳崔太有刘刚王增要涂晓光

( 华中科技大学电子科学与技术系0108班3 组武汉 430074 )

摘要简要介绍数据挖掘中三个算法，即主成份降维技术、人工神经网络技术和遗传算法技术，在V-PTC材料介电性能和五个影响因素之间建立神经网络模型，然后应用遗传算法搜索最高电阻值和相应的配方，优化结果表明：数据挖掘的各种算法在分析合理选择的样本数据，总结其中的数值规律，进而对材料性能进行优化设计方面，具有一定应用价值。关键词数据挖掘；主成份分析；神经网络；遗传算法；优化设计；陶瓷材料

Data Mining Methods in the Research of V-PTC Materials

(Department of Electronic Science and Technology ,Huazhong University of Science and

Technology,Wuhan,430074,China)

Abstract Following brief introduction of three important modern optimization algorithms ,the principal component analysis techniques ,artificial neural network and genetic algorithm are used to build a neural network model between the resistance of V-PTC and its five relevant actors .Then genetic algorithm is applied to search the highest resistivity and the corresponding proportion . The result shows that modern optimization algorithms have wide application in analyzing alreadyknown data to find the hidden digital law and optimize specific propertyof material.

Key words optimization algorithm; principal component analysis ;neural networks; genetic algorithms;ceramic material 一引言

新材料和新物质的探索和研制一般有两个方法，一是以原子、分子为起始物进行材料合成，并在微观尺度上控制其结构并对材料的性能进行预测，预报，但因其计算太大以及受目前计算机计算能力的限制，这种方法一直离材料设计的实际运用还有一段距离；另一种方法是应用经验性的方法，即“试错法”(Trial and Error Methods)，但这种方法研制材料有成本高，周期长，盲目性大等缺点，所以在实践中也不理想。

为此，材料学家于本世纪50年代提出了“材料设计”的思想，即按照使用要求对材料进行理论计算，确定达到该性能所采用的配方和工艺。正因为从宏观的角度看，材料的性能由材料

的组分和制备工艺决定，所以在制备具有某种特殊性能V-PTC材料的过程中，我们通过数据挖掘方法中的一系列现代优化算法，如人工神经网络，遗传算法等达到了了定量或者半定量的确定材料性能和影响材料性能的各种因素之间的函数关系，进而指导我们怎样最大可能接近或者达到我们所希望的材料性能。本文具体就该方法在V-PTC材料某特殊性能的制备中应用做一个探讨。二原理

数据挖掘[1]方法就是从人们已经建立的数据库中通过一定手段挖掘、寻求知识，它包括一系列对数据的处理算法，如主成分分析、人工神经网络、遗传算法等。 1.主成份分析[2]

主成分分析基本思想是通过合适的算法降低多维数据的维数, 然后对降维后的数据进行分析。记待研究的材料性能为P, 影响P的因素分别为X1，X2，…Xn ; v=(X1，X2，……Xn) 为一个样本数据；材料试验数据组成的矩阵X=（v1，…vm）, 其中，m为样本数目，v2，vi= （xi1 , …xin）为第i个样本数据。主成分分析的中心工作就是利用用雅可比(Jacobi)方法求出协方xi2 ,

差矩阵C=X`X的特征值和特征向量。然后将特征值从大到小进行排序,最大的两个特征值分别为

λ1 ,λ2,对应的特征向量分别为e1=(t,t,...t),e=(t,t...t),则第一，第二主成分分别为：

211121n21222n

+ t1n*Xn PC1 = t11*X1 + t12*X2+ …

PC2= t21*X1 + t22*X2+ …+ t2n*Xn

这样就将原有的ｎ维数据变换为二维数据,对变换后的数据可以很方便地作图、分析,进而找出优化的方向或区域。或者进一步应用回归方法,计算出材料性能P和主成分PC1,PC2之间的函数关系:P=F(PC1,PC2),利用该函数关系,可以初步预测材料性能。 2.人工神经网络方法[3]

人工神经网络是近20年来迅速发展起来的信息处理技术。对材料科学而言，主要应用神经网络的函数逼近功能，即根据已知的实验数据(材料性能P和影响因素X1,X2..)，建立函数关系

P=F(X1,X2")。目前应用最为广泛的是在80年代中期发展起来的BP算法模型，但BP网络

用于函数逼近时，存在局部极小和收敛速度慢等缺点。而径向基函数（RBF）网络在逼近能力、

分类能力和学习速度等方面均优于BP网络。下面将对这种网络进行较为详细的说明。

RBF网络和BP网络的主要区别在隐层，径向基函数神经元的变换函数为高斯函数，其输入为输入矢量与权值矢量的距离乘以闭值，这与其他网络不同。RBF网络的拓扑结构如图l所示。

R0/Rmin比值

输入层径向基层输出层

图1 RBF的拓扑结构

RBF网络的学习分为3个部分:径向基函数中心的学习;径向基函数宽度的学习;隐层与输出层联结权值的学习。上述3项的学习通常分开进行:基函数中心采用聚类算法或神经网络方法求出输入样本的各类中心作为径向基函数的中心。基函数宽度的选取根据聚类的结果来确定，权值的学习采用梯度下降技术或采用矩阵求伪逆的正则化方法。由于具体算法比较复杂，在此不作展开。

3.遗传算法原理[4]

上面提到，可以利用人工神经网络拟和材料的性能和各影响因素之间的函数关系，并得到关系式:

P=F(X1,X2"Xn)

由此函数式求出P的最大值及相应的X1,X2"Xn，就可以根据这些配方来设计、改进试验，提高试验的针对性。

求解最优性能和配方的计算过程如下：

(l)、编码初始化: 将影响材料性能的多种因素量化处理，并随机生成一些初始配方，构成初始种群;

(2)、选择: 将初始种群中的配方代入函数式P=F(X1,X2"Xn)，分别计算相应的材料性能(即个体适应度)，根据性能优则被选择几率大的原则，从原始配方中选出性能较优的配方，组成新的种群;

(3)、交叉: 在产生的新种群中，随机的选择两个父本配方Vi，Vj，即：

Vi=(xi1,xi2,"xin),Vj=(xj1,xj2"xjn)，并生成一个属于(0，1)的随机数。按规则:

Vnew1=c×Vi+(1 c)×Vj Vnew2=c×Vj+(1 c)×Vi

交叉生成两个新的配方Vnew1,Vnew2;对所有配方均如此操作;

(4)、变异:按照一定的概率，对生成的新配方进行随机变化:V=V+ΔV，其中ΔV为随机生成的变异量，变异后的种群构成下一轮进化的初始种群;

(5)、在步骤(2)一(4)之间循环，满足要求之后停止运算。

因此，从应用角度出发，在材料优化设计中，人工神经网络和遗传算法的结合不仅是必要的，也是必然的。三应用

V-PTC材料是一种双功能半导体陶瓷材料，性能要求是保证电阻范围的前提下尽量提高零度时的电阻值R0和最小电阻值Rmin的比值（即R0/Rmin）。原始数据为（共33组）[5]（表1）：

NO.

Yb2O3% Ti2O3 温度/oC 时间/h

冷却速度

R0/Rmin比值

/oC min 1

┇ ┇

0.9 0.5 0.5

2.4 12.7 6.8 4.6

0.5

表1 原始实验数据

其中R0/Rmin最大为20。

1. 原始数据主成份分析

我们通过上述主成分分析得到结果为：

PC1=0.55881×x1 +0.43703×x2+0.32097×x3+(-0.25792)×x4+(-0.57195)×x5 PC2=0.41752×x1+(-0.42316)×x2+(-0.2369)×x3+(-0.71733)×x4+0.27479×x5

其中x1 ，x

2，x3，x4，x5分别为X1，X2，X3，X4，X5正规化后的数据，即： xi=（Xi—

Ximin）/Xidiv，i =0，1，2，3，4，5；Ximin为数据列均值，Xidiv为数据列方差。

值得注意的是：在分析表中的数据时，必须先对原始数据先进行“变量标准化”，因为不同变量的量纲，以及它们的变化幅度不同不仅没有数学意义，而且总方差会受方差较大的变量的控制，从而影响分析结果。

以PC1，PC2为横，纵坐标作出二维平面图形（图2）：

图2 原数据主成份分析图

忽略异常数据点，从图中可以清楚地看到，材料的R0/Rmin有确定的优化区域，因此，根据图2，可以：

(1)、定性地预测材料性能，如果配方经过上述变换后，落在优化区域中，初步判定材料的R0/Rmin大于10.0。

(2)、滤材料计算所得配方。

下面的神经网络和遗传算法计算材料的可能配方时，往往得到以下满足性能但不在优化区域内的配方，利用主成份分析中的优化区域可以方便地将这些配方加以排除。

2．RBF(径向基函数)人工神经网络拟合数据

在实验中，将表中所列的实验数据进行正则化处理后，以x1，x2，x3，x4，x5作为输入，

R0/Rmin作为期望输出，利用RBF网络进行拟合。为了提高网络的精度和运算速度，可以将样本数目选作隐层接点的数目，并将样本数据选作聚类中心，这样就不需要再进行聚类操作，大大加快了学习速度。网络参数如下：

RBF网络：输入层（x1，x2，x3，x4，x5），节点个数：5 隐层接点个数：33

输出层（R0/Rmin），节点个数：1

利用训练好的网络可以定量预测材料的性能，但我们跟关心的是将训练好的网络和遗传算法结合，自动计算最优的配方和相应的材料性能。

3．利用遗传算法搜索最优配方

由上面训练好的神经网络得到关系式：P=F（X1,X2,X3…Xn）

由此函数式求出p的最大值及相应的X1,X2,X3… Xn，就可以根据这些配方来设计，改进实验，提高实验的针对性。

求解最优性能和配方的计算过程如下：

（1）、编码，初始化：对原始33组数据（Yb2O3%，Ti2O3，温度/oC，时间/h，保温时间）进行二进制编码，每组数据的每个参数用11位二进制数编码，即对每个个体配方，采用55位二进制数编码。并将目标值（R0/Rmin比值）作为每个个体的适应度，构成初始种群；

（2）、选择遗传：对各组数据依据适应度进行排序，将适应度最大的个体直接遗传到下一

代，并利用随机函数将剩余的32个个体顺序打乱，组成新的种群，以利于下一步的进行；

（3）、交叉：在新种群中，随机选择两个父本染色体中的某个基因（11位二进制数），并生成一个属于（0 ，1）的随机数c，用它与先前设计好的交叉概率cp（本程序中选择0.2）比较；若c<cp则交叉，否则不交叉。交叉方案：两基因（11位二进制数）的后两位数据互换；交叉生成两个新的个体，对所有个体均如此操作；

（4）、变异：按顺序依次选择样本，并随机生成一个属于（0，1）之间的数m，用它与先前设计好的变异概率mp（本程序中选择0.05）比较；若m<mp, 则变异，否则不变异。

变异方案：选择基因中的某位，若原来为1，则变为0，若原来为0，则变为1，达到变异效果，以得到新的基因。

利用人工神经网络拟合好的函数计算出新个体的适应度，以备下一代选择之用。

（5）、反复执行步骤（2）至（4）（执行循环次数即为遗传代数，遗传代数越多，得到的数据越优化，本组使用二十代遗传），直至得到较满意的优化数据为止。

整个遗传算法流程如下（见图3）：

图3 遗传算法流程图

4．新数据的主成分分析及对比

对遗传算法计算之后得到的结果再做主成份分析，其结果见图4。

图4 新旧数据主成份分析优化点对比

比较分析优化数据的合理性。剔除不合理数据，保留合理数据。通过以上分析我们共找到优化：数据5组，见下表（表2）

NO.

Yb2O3% Ti2O3

温度

时间/h

冷却速度

R0/Rmin比值

/oC

1 2 3 4 5

0．399410．399900．300530．300530．30053

/oC min 1

0．．138 0．．358 0．31250．31250．3125

表2 优化数据结果

0．．266 0．．677 0．．1027

原论文的优化数据为（表3[6]）：

NO.

Yb2O3%Ti2O3

温度

时间/h

冷却速度

R0/Rmin比值

/oC /oC min 1

0.50 0.12 0.51 0.16

表3 原论文优化结果

26.5 27.3 20.2 23.4

其最大优化数据为27.3，并且通过了实验验证，而我们的最大优化结果为30.1027，更进一步的工作便是对得到的数据进行实验验证，以确定优化配方的真正合理性。鉴于实验设备的限制，本小组成员并未对优化配方进行实验验证。

综上，我们做课题的整个流程(程序用Matlab6.5[7]和Labview7.0[8]实现)如下（图5）：

原始数据

主成份分析

否

图5 整个研究流程

四．讨论

（一）经过对遗传算法反复实验，得出遗传算法的以下规律：

（1）、交叉、变异概率越小，得到的优化数据精确度越高；（2）、遗传代数越长，得到的数据越优化；

（3）、以上两个条件满足得越好，所花的计算时间也就越长，需要的硬件要求也越高。经过实验总结，我们得出，cp(交叉概率)取0.2，mp(变异概率)取0.05，遗传代数取20代，所的到的优化效果还比较好，计算机所花费的时间也不至于超出人的忍受范围。

（二）虽然通过遗传算法可以得到优化数据，降低寻求优化配方的盲目性，但是，优化得到的配方还是过多，后续实验的工作量依然很大。为了进一步降低工作量，对其进行合理性判断是必须的，也就是说，对优化数据进行主成分进行分析是不可避免的。

（三）正是由于没有性能函数，所以才使得材料设计中充满了盲目性，而人工神经网络分析法独辟蹊径，从已经获得的大量数据中寻求规律，以建立最佳的函数关系。

所以，对数据的分析优化必须有机结合各种数据挖掘的方法，并调节各方法的参数，使之达到最优。五．结论

1．根据主成份分析结果可知：V PTC材料的介电性能有明确的优化方向和优化区域； 2．利用径向基神经网络和遗传算法可以计算出合理的优化配方进行实验，R0/Rmin可达30.1027，当然，这需要实验的进一步论证；

3．综合利用主成分分析、神经网络、遗传算法对复合材料的特定性能进行优化设计是可行的，可以作为一种材料设计的辅助手段。从而减少“炒菜法”的盲目性及其庞杂的计算量。前人通过长期的科学实验，为我们留下了丰富的数据，但也是纷繁庞杂的，如何更好的利用前人的工作成果，为我们的科研工作服务，这为我们的数据挖掘工作提出了挑战，同时也提供了一个广泛的发展空间。

参考文献

[1] 苏新宁. 数据挖掘理论与技术. 北京 : 科学技术文献出版社, 2003 [2] 范金城, 梅长林.数据分析. 北京：科学出版社, 2002

[3] 张立明. 人工神经网络的模型及其应用. 上海: 复旦大学出版社, 1993.7 [4] 陈国良. 遗传算法及其应用. 北京 : 人民邮电出版社, 1996

[5] 陈念贻. 模式识别优化技术及其应用. 北京: 中国石化出版社，1997

[6] 张纯禹. 现代优化计算方法在材料最优化设计中的应用. 材料科学与工程学报，2003，01: 44—47

[7] 飞思科技产品研发中心. MATLAB 6.5辅助神经网络分析与设计. 北京: 电子工业出版社, 2003

[8] 戴敬, 王世立. LabVIEW基础教程. 北京: 国防工业出版社, 2002

本文来源：https://www.bwwdw.com/article/19dj.html

相关文章：