近似动态规划方法及其在交通中的应用
更新时间:2023-06-08 03:02:01 阅读量: 实用文档 文档下载
- 动态规划的方法推荐度:
- 相关推荐
北京交通大学
博士学位论文
近似动态规划方法及其在交通中的应用
姓名:齐驰
申请学位级别:博士
专业:交通信息工程及控制
指导教师:侯忠生
201111
中文摘要
中文摘要
论文研究了近似动态规划方法及其在交通中的应用,丰富和完善了近似动态规划理论。论文主要研究内容和创新点总结如下:
一、提出了一种近似动态规划网络优化加速算法。在权值调整期间加入前期权值信息,增强了训练的稳定性:使用Steffensen迭代算法进行加速,使网络训练较快地收敛,有效地解决了传统神经网络收敛慢的缺点,在此基础上,给出了一种基于数值计算的近似动态规划改进方法ADHDP(D),仿真结果表明该方法误差稳步下降,没有出现ADHDP方法中振荡的现象,且达到收敛稳定的速度更快。此外,提出了一种权值初始值复合修正法,仿真结果表明,与权值初始值随机设定方法相比,该方法提高了近似动态规划方法的学习成功率;
二、研究了快速路交通流模型参数辨识方法。针对交通流模型的强非线性、不确定性等特点,提出了基于近似动态规划的交通流模型参数辨识算法。该算法具有自学习和自适应的特性,不依赖于被控对象的解析模型,严格的理论推导证明了这种参数辨识方案的收敛性,仿真结果验证了该算法的有效性;
三、研究了快速路短时交通流预测方法。针对指数平滑法缺乏有效的参数选取方法,提出了一种基于近似动态规划方法的自适应单指数平滑法,结合实际交通流数据对指数平滑系数进行优化,使其随预测过程自动更新,从而保证了预测的实时性、准确性。严格的理论推导证明了这种预测方法的收敛性,仿真结果验证了算法的有效性;
四、研究了城市交叉口均衡控制的最优信号配时问题。针对过饱和交叉口提出了排队长度均衡的控制目标,设计了基于排队长度均衡的两相位和三相位绿灯时间近似动态规划控制算法。仿真结果表明基于近似动态规划的控制算法可以根据实时交通车流信息实现绿灯时间的自适应调整,克服了定时控制不能随着流量的变化而分配绿灯时间的缺点。此外,以三相位交叉口最优信号配时为例,讨论了神经网络权值初始值对算法收敛结果的影响;
五、研究了快速路系统中单入口匝道以及多入口匝道基于近似动态规划的控制算法。针对交通流强非线性、不确定性等特点,设计了基于近似动态规化的控制器,避开了交通流建模难的问题。仿真结果表明控制器具有良好的暂态性能,能够适应实时变化的交通状况,平滑交通流,在一定程度上缓解了交通拥堵。
关键词:近似动态规划;参数辨识;短时交通流预测;信号优化配时;
控制。分类号l【TP273]匝道
ABSTRACT
ABSTRACT
Thisdissertationfocusedonsomeissuesonapproximatedynamicprogramming(ADP)anditsapplicationsintransportation.Themainworkandkeycontributionswere
assummarized
1.Basedthefollowing:Steffensen’Smethodandformerweights’values,anewoptimizedon
acceleratedalgorithmwaspresentedforneuralnetwork.Onthebasisofthisnewoptimizedacceleratedalgorithm,anewADHDP(Action.DependentHeurigicDynamicProgramming)method
proposed.Abasedonformerweights’valuewasmadedata(ADHDP(D)forshort)wasADHDPandADHDP(D).detaileQanalysisbetweenthe
Simulationresultsshowedthegoodperformanceofthisnewalgorithm.Furthermore,aninitialweightscompositionalmethodwasproposed.Simulationresultsdemonstratedtheconvergencepropertyisimprovedeffectivelyincomparisonwithinitialweightsrandomlypreassigned.
2.Consideringonthattrafficsystemis
onastrongnonlinearanduncertainsystem,anidentificationmethodbasedADPwasdevelopedtoestimatetheparametersofthe
generaldiscrete—timenonlineartrafficflowsystem.Withrigorousanalysis,itwasshownthattheproposedidentificationscheme,independentoftheprecisetrafficflow
tomodel,canguaranteetheconvergence.Anumberofsimulationresultswereprovided
theefficacyoftheproposedapproach.
3.Anadaptivesingle—exponentsmoothingbasedonADPwasputforwardtoselectthesmoothingcoefficientdynamically.Withrigorousanalysis,itwasshownthattheproposedpredictionschemecanguaranteetheconvergence.Thesimulationresultsverifidtheeffectivenessoftheproposedalgorithm.
4.Theoptimal
onsignaltimingproblemwasinvestigatedforanurbanintersection.BasedthetechniqueADP,theoptimalsignaltimingcontrollerswere
proposedforthetwo—phaseintersectionandthree—phaseintersection,respetively.ThesimulationexamplesshowedthatthecontrolalgorithmbasedonADPcanallocategreentimerationallyandachievetheequilibriumofqueuelength.Furthermore,takingtheoptimalsignaltimingofthree—phaseintersectionforexample,simulationsverifidthattheinitialweightsaffecttheconvergenceresult.
5.BasedonthetechniqueofADRtheproblemsoflocalrampandcoordinatedramp
toavoidthemeteringwerediscussed.TheADPcontrollerwasdesigneddifficultyof
trafficflowmodeling.SimulationresultsdemonstratedthenewcontrollershavebetterV
北京交通大学博士学位论文
transientresponse,preventcongestionandincreasetrafficthroughput.
KeyWords:Approximatedynamicprogramming(ADP);Parameteridentification;Short-termtrafficflowprediction;Optimalsignaltiming;Rampmetering.
CLASSNO:[TP273】Vl
致谢
本文工作是在导师侯忠生教授的悉心指导下完成的,论文从选题、研究方案制定、研究内容、论文撰写到定稿的整个过程中,始终受到侯老师的全面指导。导师严谨求实的治学态度、敏锐的科学思维和丰富的学术研究经验使我终身受益。导师对论文内容和深度提出的高标准和严要求,使我能够以严谨而认真的科研态度从事以后的科研工作;同时导师的忘我敬业精神也将是我以后学习和研究中坚持不懈的精神支柱。值此论文完成之际,谨向侯老师表示最诚挚的感谢和最崇高的敬意!
衷心感谢作者所在的先进控制系统研究所的全体成员给予的帮助。实验室浓厚的学术氛围、激烈的学术讨论和良好的协作精神帮助作者克服了论文研究过程中遇到的许多困难。
在北京交通大学学习及撰写论义期间,得到了同窗金尚泰、李星毅、王轶、赵明、殷辰垫、}、旭辉等同学大力帮助,他们在我的论文写作过程中提出了许多宝贵的建议,提高了论文的整体水平,在此向他们表达作者的感激之情。
此外,衷心感谢我的家人在整个论文写作期间给予我的大力支持与帮助。在二十多年的求学生涯巾,我的家人时刻伴随着我、激励着我。我的家人对我的不断关心和鼓励是我学习的动力,使我克服困难,顺利完成学业。
衷心感谢本文所有参考文献的作者在他们的研究领域所作的卓越贡献。没有他们前期的杰出工作,论文的顺利完成将会增加许多困难。最后,谨向所有给予我关心和帮助的老师、同学和朋友致以最诚挚的谢意!
l绪论
1绪论
1.1引言
在现代科学技术领域中,自动控制技术发挥着越来越重要的作用,在航空航天、导航制导、工业控制、交通管理、生物医学、经济管理等众多社会生活领域中已成为不可或缺的重要组成部分。在工程实际应用中,由于控制目标和对象实际输出之间的误差是容易获取的,因而基于误差来消除误差的原形PID控制器在工业控制中得到了广泛的应用。但随着科学技术的发展,复杂工业过程普遍存在着不确定、多变量强耦合、强非线性、纯滞后、状态不完全可测、运行工况变化频繁等特性,而且大的干扰还经常发生,对付这样的被控对象,PID控制器就显得无能为力了。由此人们企图采用现代控制理论来解决这些问题,在现代控制理论方法中,数学模型的建立是分析和设计控制系统的前提,由于控制对象的复杂性,无法建立起精确的数学模型描述实际控制对象的所有细节,所以在实际建模时,必须在模型简化与分析结果的准确性之间做出适当折中,从而导致建立的模型无法反映系统的伞部动态特性,制约了控制系统品质的进一步提高。
为了解决经典控制理论和现代控制理论巾存在的问题,人们除了加强对生产过程的建模、系统辨识、自适应控制、智能控制、神经网络控制等研究外,开始寻找各种对模型要求低、在线计算方便、控制综合效果好的新的控制理论和方法。与此同时,计算机技术的飞速发展,使得高速、大容量、低成本的计算机应用越来越广泛,也为新的控制理论和方法提供了可实现的重要基础。近似动态规划fApproximateDynamicProgramming,简称ADP)是一种融合动态规划、强化学习、神经网络的近似最优控制方法,它根据环境反馈的评价信号来获取近似的最优控制策略,不依赖于被控对象精确的解析模型,能够在线调整控制参数,适用于复杂系统的实时最优控制,其基本思想就是通过评价网络来估计预先定义的性能指标函数来避免每个阶段内针对所有状态和控制变量进行精确计算,在一定程度上避免经典动态规划“维数灾"问题,并能在给定的性能指标下获得次优(近似最优)策略。综上所述,研究近似动态规划理论具有重大的理论意义和巨大的应用价值。
北京交通大学博士学位论文
1.2近似动态规划发展及研究现状
动态规划方法【1】是由美国数学家贝尔曼在五十年代提出的。这科t方法与庞特里雅金最大值原理和卡尔曼滤波理论被称为是现代最优控制理论中的三个里程碑。动态规划方法处理动态系统最优控制问题的关键是将系统的初值作为参数,然后利用最优目标泛函值(也称为“值函数”)的性质,获得值函数满足的动态规划方程,这个方程是动态规划方法的精髓,它本质上告诉我们:整体最优必局部最优,这个原理被称作最优性原理。
考虑如下离散非线性动态系统:
x(i+1)=厂[x(f),“(f)]
其中,系统状态变量X∈R”,控制变量为甜∈RⅢ。
系统性能冲旨标可定义为
o。T.(1.1)
,[x(f),i]=∑/K一2U[x(尼),“(尼),k]
k=f(1.2)
其中Ⅵ ]为瞬时效用函数,0<厂≤l为折扣因子。动态规划的目的是寻找控制序列甜(尼),k=i,i+l,…,使得系统性能指标(1.2)最小。对于这样一个无穷时间最优控制问题,可采用如下动态规划递推方程进行求解:
采球
J[j;(f),f]=min{U[x(i),“(f),i]+yJ[x(i+1),f+1]}
u(i)(1.3)
求解式(1.3)可以得到Z时刻的最优控制变量必然满足
:l=球
U(f)=argmin{U[x(i),“(f),f]+yJ[x(i+1),f+1】)
“(f)(1.4)
方程(1.4)是动态规划方法求解最优控制律的基本方程,它也是动态规划算法实现的基础。可见,动态规划的求解过程实际上就是计算所有状态值的过程,如果系统方程厂[川晚“(纠和指标函数以x(i),i]已知,求解最优控制律则变成一个简单的极值运算问题。然而实际上,指标函数,[x(i),i]往往是未知的,这给传统动态规划方法的实施带来困难。而且随着系统规模的增大,该方法的时间和窄问复杂度指数增长,即呈现所谓的“维数灾”现象,限制了其座:用范围。此时,求解动态规划近似解的关键在于估计动态系统的性能指标,从而获取性能指标最优的控制策略。
近似动态规划方法提供了解决上述困难的新思路,其基本思想是通过评价网络(CriticNetwork)来估计系统性能指标函数(部分文献称为“cost.to.go”函数)来避2
1绪论
免每个阶段内针对所有状态和控制变量进行精确计算,在一定程度上避免经典动态规划“维数灾”问题,并能在给定的性能指标下获得次优(近似最优)策略。
近似动态规划方法的发展过程与强化学>习(ReinforcementLeaming,简称RL)紧密相关。Skinner是一位心理学家,他提出了奖励或惩罚(基本强化信号)决定动物(包括人)行为的著名思想,即强化学>-j(RE)。基于强化学习(RL)概念,人工智能先驱Newell等人设计了智能学习机。然而,他们的结果并不理想,原因在于强化学习fRL)的机制过于简单,直到20世纪80年代,Widrow最早提出了ADP相关概念,他在控制问题中明确的提出了评价(critic)神经单元的概念【2】[3l,初始只是作为强化学习fRL)的拓展,随后得到了越来越多的关注,并在包括控制在内的各种决策优化领域得到了应用【4-61。Barto【71和Watkins【8】分别在各自早期的著作中阐述离散条件下评价模块(Critic)能j-些问题,明确提出了利用控制信号来估计代价函数的思路。Werbos【9】在前人研究成果的基础上,以评价模块估计,函数为出发点进行了更为深入的研究,提出了用评价模块估计,函数对状态量的导数,以及用评价模块同时估计,函数和其导数等多种方法,这使得ADP方法脱离强化学习(RE),而成为一个相对独立的研究分支,也标志着ADP思想的正式确立。
ADP方法通过采用Critic模块估计系统性能指标或者其偏导数,从而指导Action模块学习,使其输出逼近传统动态规划方法的最优控制律,它具有时间上的正向性,而且避开了传统动态规划方法的“维数灾”问题110-19l。因此,该方法适用于复杂非线性系统的实时最优控制。在工程应用和理论研究中得到了广泛的关注,具有多种名称,比如“AdaptiveCriticDesign”担小删J、“ApproximateDynamicProgramming’’[30-39]、“AsymptoticDynamicProgramming”[401、“Neuro-DynamicProgramming”[41-48]等。
目前,关于ADP的研究可归纳为理论研究和应用研究两个方面:理论研究主要集中在稳定性、最优性、收敛性以及定性分析等方面[40,49彤】;应用研究主要集中在电力系统[54,55】、飞行器控制【56-58]、通信网络[[59-611、机车控锘1][28,31,62]等领域,其他一些特殊应用领域见表1.1:
北京交通大学博士学位论文
表1.1ADP一些特殊的应用领域
Table1.1SomespecialapplicationdomainsofADP
文献应用领域
燃烧炉(Boilercombustion)
光驱制造(Manufactureofdiskdrives)
船舶驾驶(Shipsteering)
围棋游戏(PlaygameofGo)
光电系统fPhotovoltaicsystem)
产品鉴定(Pvsystem)
隔振控制(Vibrationisolationcontr01)
电动车辆(Electricvehicle)
过程控制(Processcontr01)
直升‘机维护(Helicoptertrimming)
运输策略fTransportationpolicies)
自动着陆器(Autolander)
模糊控制(Fuzzycontr01)
机器人(Autonomouswheeledmobilerobocl陋眩№陋瞄皿p陋口pKp
pp自动驾驶(Intelligentsteering)股票交易(Stocktrading)
国内研究ADP方法的例子较少,王飞跃等人【』73b对ADP算法进行了介绍,回顾了ADP算法的发展和研究现状;程玉虎等人钊‘对模型未知以及具有连续状态的系统控制问题,提出一种基于强化学习的自适应控制策略,有效克服了状态空间分割所带来的维度灾难[74】;郁文生、许静【75,76】从最优控制的角度研究了快速路单入LjI醺道的控制问题,提出了基于ADP的匝道控制方法;Bai[77j对上述:号法进行了改进,引入了增强式学习中的适合度轨迹机制(Eligibility.Traces,ET机制),通过在线学习充分利用有限的训练数据,提高了算法的学习效率;Cai[30】于2007年提出了基于ADP单交叉口在线控制策略,根据实时的交通信息来控制信号灯的状态;Li[78,79J随后提出了基于ADP的多交叉口在线控制策略,通过综合考虑二F线上各个交叉口的交通信息,优化配置各交叉口的配时策略,实现了干线控制。总的来说,对于近似动态规划方法的研究,国内尚处于起步阶段。
1.3典型的近似动态规划算法
典型的近似动态规划方法通常包括三个模块:Critic模块,Model模块和Action模块,如图1.1所示。各模块功能如下:
Model:Model模块有两个作用:一是模拟被控对象,二是连通学:习误差反传通道。如果动态系统的解析形式已知,则可直接连入系统,作为Model使用。而
4
1绪论
如果动态系统未知或者已知却不可微时,Model模块可由多层前馈神经网络构成。
图1.1ADP模块设计【12】
Fig.1.1ADPdesigns
Critic:Critic模块由口]微神经l网络构成,其输入为系统状态x(尼),输出了(尼)全衍x(尼),尼】,并且定义瞬时效用函数u(尼)全u[x(尼),“(尼),尼]。为了使夕(尼)逼近状态x(尼)的cost—to—go函数值J(k),需最小化误差:
lI乞||2妻乞(尼)=圭妻‘今(尼)一u(尼)一y,/X(尼+1)]2
能指标估计值为:
八八八oo一(1 5)对于式(1.5),如果对所有的k=f,i+1,…均满足Ec(/c)=0,则可得f时刻的性
,(f)=己厂(f)+/,(f+1)=u(f)+ylu(i+1)+y,(f+2)I=…=∑7k-iu(尼)(1.6)
显然,随着学习的深入,Critic模块将能够产生较好的系统性能指标估计值。简单来说,Critic模块通过训练使得误差的平方lIEIl最小。
Action:根据动态规划最优性原理,Action模块作为神经网络控制器,它的训练目标为最小化系统性能指标J(k),也就是使得u(k)+?'JCk+1)最小。根据Critic的估计对象(J和甜/舐)的不同,近似动态规划方法可分为
北京交通大学博士学位论文
HDP(HeuristicDynamicProgramming,估计,)、DHP(Dua!HeuristicProgramming,估计0J/0x1和GDHP(GlobalizedDualHeuristicProgramming,同时估计J和甜/苏。上述各种算法中,Critic的输入均为系统状态向量x(k);而如果将控制向量u(k1纳入C,ritic输入端,则构成动作依赖(Action.Dependent,AD)的ADP方法,分别称为ADHDP(Action-DependentHeuristicDynamicProgramming),ADDHP(Action—DependentDualHeuristicProgramming),ADGDHP(Acfion—DependentGlobalizedDualHeuristicProgramming)1851。
1.3.1HDP和ADHDP
HDP和它的AD形式均包含一个Critic模块,以估计动态规划中的性能指标:
∞
J(t)=∑广U(t+k)(1.7)
k=0
其中Y是有限维问题中的折扣因子,它的取值71Z[]是0M;u( )函数被称为效用函数或者瞬时效用函数。Critic模块在网络中的作用是随着时间推进设法将跟踪误差Il局||降到最小。Critic模块是实时应用中的关键,需要优先训练。
㈣2手和(1.8)
El(t)=,[】,(f)]一y,【】,(f十1)]一u(o(1.9)
公式中,Y(t)代表控制对象一个可观察到的向量R(t),A(t)代表系统控制向量。网络训练构造图如图1.2所示。其中,图1.2(a)为Critic模块训练结构图,图1.2(b)为Action模块训练结构图。
CriticJ(t+1、_册斑P0)
』y尺嗥【}1i-HA.(,t∥,
一弋…一
卜\
A(t,ion
\\
≮
图1.2网络训练结构图[141
Fig.1.2NetworkadaptioninADHDP/HDP6
1绪论
图中的虚线表示Critic模块Action模块进行权值调整时的误差反传通道。和其中,Critic模块权值更新的表达式如下所示:
△%一妒∽h堆”1)]_叭m翟
练目标为最小化系统性能指标,故其权值调整可采用如下方式:(1.10)其中,形为Action模块权值向量,矾为其学习率。通过Critic模块权值的不断调整,我们寻找最优性能指标,(最大或者最小),使得全部U(.)最优。为了达到这样的效果,我们建立如图1.2(b)所示的连接。根据动态规划最优性原理,它的训
AW:一77一oJ(t):一刀皇业一OJ(t)a。aaW。aaW0A(f、(1.11)
aa、7
其中,呢为Action权值向量,仉为其学习率。
在HDP中,Model模块作为连通Action模块和Critic模块的通道,如果控制系统的解析形式已知,可以直接作为Model使用,如果控制系统未知或已知却不可微,可以使用一个可微多层前馈神经网络近似替代。当Critic输入端包含系统状态和控制向量时,就构成了HDP的AD形式——ADHDP。
1.3.2DHP和ADDHP
DHP和它的AD形式,通过Critic去估计函数,关于向量】,(f)的偏导数。Critic随着时间变化最小化跟踪误差II岛I|:
&忙∑t乞丁∽乞∽
式子当中,(1.12)
掣,=篙一y雩铲一鬻
其中,虚线表示误差信号反传通道。n㈣在式(1.13)巾,a( )/ar(o是一个关于变量y(f)的偏导数。Critic的训练要比在HDP中更加复杂,因为我们要考虑到图1.3中所示的所有相关路径的反向传播,
北京交通大学博士学位论文
R(f)
图1.3网络训练结构图【14】
Fig.1.3NetworkadaptioninDHP
在DHP中,
帮2郭”,,鬻+嚣n∥川,鬻攀
目。在式子(1.13)中,每一个组成向量岛(f)的分量在(1.15)中定义。n㈣其中,五(f+1)=aJ(t+1)/ORi(t+1),即,m分别是模型和Action的输出量的数
钳,2拳一/可aJ(t+1)一事8U(t)一xk=11硒8U(t)攀
Iliau(t)叫,塑娑11挲8,4“)aA(t)la形。∽均基于动作依赖的DHP(ADDHP)方法假设了Action和Critic之间的直接连接。从图1.3我们可以看出,见@+1)通过Model模块反向传播至Action模块。当采用最小均方算法(LeastMeanSquare,简称LMS)调整Action模块权值时,公式如下:AW:77
a。a(1.16)、
而在GDHP(ADGDHP)方法rfl,Critic模块通过同时估计,和甜/融使得误差最小化,虽然设计过程相对复杂,但能够获得较快的学习速度。
综上所述,近似动态规划采用Action模块和Critic模块交互的训练方式,训8
1绪论
练步骤见表1.2。
表1.2Critic训练步骤【76】
Tab1.2Critictrainingprocedure
步骤HDP、DHP和GDHP
0
1ADHDP、ADDHP和ADGDHP初始化尼=0、x[0]、Wa和睨;^初始化后=0、舛O]、埘O]、呢和形;
J(k)=ⅣⅣc枷。(研尼],吸)
2J(k)=砜,。(x[尼】,甜[尼],阡:)hu[k]-NNa“,。(x嘲,呢)
x[k+1]-厂(尼)x[k+1]_厂(尼)3u[k+1]=喊“ion(X[k+1],Wa)
J(k+1)=人n乞腑fc(x[尼+1],u[k十1],睨)4J(k+1)=巩ffc(x[尼+1],睨)
k=k+1,转步骤15计算疋和aJ(k)/a睨,更新Critic权值睨6
注1.1:加%州。( )为采用神经网络设计的Critic模块输出;
ⅣK砌:( )为采用神经网络设计的Action模块输出;
1.3.3与传统神经网络控制器的区别
在传统的神经网络控制器巾,神经网络权值的调整是通过最小化跟踪误差e2(f)来实现的,随着神经网络权值的调整,跟踪误差P2(f)越来越小,从而实现神经网络控制,如图1.4所示。
图1.4传统的神经网络控制框图
Fig.1.4Blockdiagramoftraditionalneuralnetworkcontrol
而基于近似动态规划的控制器,包含Critic署HAction两个模块,Action模块的权值调整通过最小化U(f)+rQ(t)来进行,其中Q(f)为Cm’1.c俣44-上犬副刊-/。出。根据近似动态规划的原理可知,当U(k)=e2(尼)时,
北京交通大学博士学位论文
∑鳓):∞A+1):o∑o(7(f)=,(H1)=
k=t+1—tU(k)yk-t:塞yk’-te2一(后)e(后)=∑k=t+1(1.17)(1.
那么,当,,=1时,基于近似动态规划的控制器通过最小化所有t时刻的e2(f)累加来更新Acti.3n的权值,而不是某一个t时刻的e2(f),从而获得近似最优的控制效果,如图1.5所示。
r(t)
一————_-一
+
图1.5基于近似动态规划的控制框图
Fig.1.5BlockdiagramofADPcontrol
1.4交通控制领域的若干问题
1.4.1交通流模型参数辨识
系统建模是控制领域内的一项重要1:作,是整个控制流程的开端。在经典和现代控制理论里,数学模型是必不可少的,否则控制器设计就无从谈起。即便是数学模型不精确,也会对控制效果产生很大负面影响。近三四十年来,出现了很多对模型要求不高甚至完全不需要模型的新理论,诸如模糊控制【80。831,遗传算法[84】,神经网络[85。87】,无模型自适应控制陋911,以及迭代学习控制【921等等。在这些被称为智能控制的新理论中,数学模型似乎已经无关紧要。但事实上,系统建模工作并没有因这些新理论的出现而失去意义,原因至少有以下三点:
(1)建立模型可以使控制更精确。对于被控系统,如果可以对其进行建模,则应使用经典或现代控制理论完成控制,这些理论发展成熟且经过大量应用检验,容易取得较好的控制效果。另外,建模相当于对系统的动力学特性进行完整的数学抽象,建模后使用经典或现代控制理论加以控制属于有的放矢,效果应当优于在不清楚系统内部特性的情况下就施加控制的方法。
(2)建模为多种控制理论的结合应用提供了可能。对于大多数复杂系统而言,建模的确不是一件简单的事情,但是针对其内部某一部分进行建模则是完伞可能l()
l绪论
的。近些年来,出现了很多复合控制的新方法,即对系统可建模部分,尤其是可局部线性化的部分采用经典或现代控制理论加以控制,对难于建模的部分,采用智能控制理论加以控制。这样就把两类控制理论的优势结合起来了,可以最大限度的提高控制性能。
(3)建模是仿真的需要。在对系统施加控制之前,一般要进行计算机仿真。尤其是对于结构复杂、功能庞大、造价昂贵的系统,为了防止可能出现的事故,通过仿真检验控制方法的有效性是完全必要的。而进行仿真就必须要给出系统数学模型,并且模型越精确仿真结果越具有参考价值。
综上所述,系统建模是控制器设计的一个重要环节,是值得深入研究的。对系统进行建模依赖于两个条件,一是可以获取的信息量,二是控制目标的要求。通常情况下,建模工作需要在模型的复杂性和控制目标的精确度之间寻找一个平衡点。模型过于复杂,不仅花费大量时间与精力,而且可能使控制器难于设计;反之,模型过于简单,则无法刻画系统内部特性,使建模工作失去意义。
城市交通的快速发展和交通需求的不断增长,使得城市快速路上的拥堵日益严重,由此造成的时间延误和经济损失越来越大。快速路控制策略的研究由来已久,目前快速路交通控制方法包括入Ul晡道控制、主线控制、通道控制,其中入口匝道控制是最常用的控制方法。为保证快速路交通流密度平稳,充分利用道路资源,建立一个能准确反映快速路交通流稳态和动态的数学模型对城市快速路交通控制系统的设计和评估都至关重要。
由于交通流模型为非线性模型,传统的方法是进行线性近似,为消除在传统非线性模型参数辨识中由于线性化引起的模型误差,本文提出了一种基于近似动态规划算法的非线性模型参数估计算法,该算法以每个待辨识的参数为设计变量,以与设计变量相关的误差函数为目标函数,无需线性化交通流模型,直接针对非线性交通流模型进行参数辨识,避免了由于非线性模型的线性化近似所引起的各种问题,并通过严格的数学论证,证明了所提出的辨识方法具有收敛性。1.4.2短时交通流预测
交通流量预测是交通规划和管理的基础,一直是交通领域重要研究课题之一,在交通控制、交通管理、物流配送的方案制定以及交通流理论分析等领域有I.分重要的理论和现实意义。
交通系统显著特点是具有高度的不确定性和非线性,这给交通预测带来很大困难,尤其是短时交通流预测受随机因素的影响更多,时变性、不确定性更强,比巾长期预测难度更大。但是随着预测间隔时间@N,hN,不可预期的突发的偶然
北京交通大学博士学位论文
事件发生的概率更大,因此,短时交通流预测的精度要比长期预测的精度高。由于交通流预测是实现智能交通系统中实时控制与诱导的前提,所以得到了广泛的关注和研究。交通流预测是指在当前时刻下,对下一决策时刻乃至以后若干时刻的交通流做出实时预测。一般认为预测时间跨度不超过15min(或小于5min)的预测为短时(Short.term)交通流预测。预测的内容一般为交通流量、交通流速度、交通流密度(或占有率)、旅行时间等。
几十年来,世界各国的专家学者提出了多种短时交通流预测方法,分别为:回归分析预测方法【93,94]、时间序列预测方法【951、卡尔曼滤波方法[96,97】、神经网络预测方法【98。102】等等。这些方各有优缺点,其中,移动平均法、指数平滑法因其计算过程比较简单,在预测时所需要的观测值不多等优点,在短期交通流预测中获得了广泛的应用。移动平均法的预测值实质上是以前观测值的加权和,且对不同时期的数据给予相同的加权,这往往不符合实际情况。指数平滑法则对移动平均法进行了改进和发展,其应用较为广泛。运用指数平滑预测法进行预测时,首先需要解决的问题是确定平滑参数。目前各种介绍指数平滑预测方法的论着对平滑参数的选择都没有给出。-7'1'有效的方法,通常依靠预测者的经验和反复测试来确定。选择的平滑参数,在对原数列进行拟合时,效果都较差,从而影响了‘预测精度,以至于影响了该种方法的实际应用价值。本文通过近似动态规划算法的引入,提出了一种自适应单指数平滑法,将平滑系数东动态化,结合实际数据对指数平滑法中的参数进行优选,使得模型随预测过程自动更新,从而保证了预测的实时性、准确性。
1.4.3城市交通控制系统
城市交通控制包含的内容很多,从空间关系上进行划分,可将城市交通信号控制分为单点信号控制(点控)[103-113】、干线信号协调控制(线控)[114-1211和城市路网中心(区域)信号控制(面控)[122-1301三种控制方式,分别对应于独立单点路口、绿波带控制沿线路口和城市中某一区域内若干路口的交通信号控制。
其中,在点控方式中,文献[103]将信号配时优化问题转化为带约束条件下的线性规划问题,使得路口总延误时间最短;文献[94]则通过绿灯时间的优化实现路口通行能力最大化;文献[106—107]将模糊控制算法应用到点控方式;文献[111,112]则分别将强化学习算法、Q—Learning方法引入到单交叉L_』信号控制中,取得了不错的控制效果;在线控方式中,比较典型的是文献[114,115]中提出的MAXBAND方法,文献[116,117]则对上述方法进行:广扩展,使其更加完善;而在面控方式中,最著名的是文献[122,123]提出的离线区域信号优化配时软件12
1绪论
TRANSYT,而文献[124]提出的SCOOT系统,通过实时采集交通流信息,进行交通流模型预测,进而生成信号配时方案。
综上所述,以上传统的交通信号控制策略均基于交通流模型实现,而交通流本身具有的时变性、随机性、不确定性和干扰性严重等特点,无法建立起精确地数学模型,本文通过近似动态规划算法的引入,通过对各相位绿灯时间实时调整,使得各相位排队长度达到均衡,使得绿灯时间得到充分的利用。此外,由于近似动态规划方法根据环境反馈的评价信号来获取近似最优控制策略,不依赖于被控对象的解析模型,避免了交通流系统建模的困难,使得实现大规模交通信号控制成为可能。
1.4.4快速路控制系统
“快速路”是指在城市修建的、具有单向双车道或以上的多车道的城市道路;是中央分隔、全部控制出入、且设有配套的交通安全与管理设施、并能保证连续流的交通设施,是城市中大运量快速交通干道。
城市快速路控制方法主要包括入Ul啊道控制【13l。133】、主线控制、通道控制等,其中入口匝道控制是快速路最常用的控制方法。匝道控制依据控制范围可分为单点控制‘134’1381与协调控制‘139。147】;另外还有一种以安全为原则的微观控制方法——汇入控制,根据主线外侧车道车流间隙长度决定是否放行i呕道车辆,只有当检测到主线车流间隙长度不小于可插入间隙时,才允许匝道车辆进入主线。其中,单点控制又分为静态控制和动态控制两种方式,静态控制根据交通流历史统计信息生成入口I而道控制方案,无法适应交通流的随机变化【134J,动态控制则根据实时监测的上下流交通流数据动态调整入口匝道调节率,ALINEA方法是应用最为广泛的一种单点动态控制方法,通过反馈机制的引入,提高了控制系统的抗干扰能力和稳定性,使得主线的密度或占有率维持在理想状态范围,以尽可能提高快速路的通行能力。由于单点控制仪考虑单个匝道的控制效果,而忽略了各匝道之间的协调,人们希望提出更有效的控制方案——入口匝道协调控制。与单点控制相似,入Ul幔道协调控制分为静态协调控制和动态协调控制两种方式,由于动态协调控制方式能实时适应交通流变化,因此得到了越来越多的关注,根据其实现方式不同,又可分为系统最优协调控制‘139‘1441、状态调节器控制和启发式协调控制‘145。47】三类,系统最优协调控制由于模型过于复杂,求解较为繁琐,状态调节器控制引入了反馈机制,需要求解Riccati方程,求解困难,而启发式协调控制由于不存在最优控制目标,所求得的匝道调节率为次优解而非最优解。针对以上问题,本文研究了近似动态规划方法在快速路入口I幔道控制系统巾
北京交通大学博士学位论文
的具体应用,针对交通流强非线性、不确定性等特点,设计了基于近似动态规划的单入口匝道以及多入口匝道控制算法,避开了交通流建模难的问题,仿真结果表明控制器具有良好的暂态性能。
1.5论文主要工作及组织结构
1.5.1论文主要工作
本文研究了近似动态规划方法的应用及若干问题,论文的主要研究内容可分为理论研究和应用研究两大部分,论文主要工作总结如下:
在理论研究方面:
(1)鉴于神经网络权值初始值对近似动态规划方法的收敛结果和收敛速度有着重
要的影响,本文提出了一种权值初始值复合修正方法。仿真结果表明,与权值初始值随机设定方法相比,该方法提高了近似动态规划方法的学习成功率;(2)提出了一种近似动态规划网络优化加速算法。在权值调整期间加入前期权值信
息,增强了训练的稳定性;使用Steffensen迭代算法进行加速,使网络训练较快地收敛=.有效地解决了传统神经网络收敛慢的缺点。在此基础上,给出了一种ADHDP改进方法,简称ADHDP(D)。仿真结果表明该方法误差稳步下降,没有出现ADHDP方法中振荡的现象,且达到收敛稳定的速度更快。
在应用研究方面:
(1)研究了快速路交通流模型参数辨识问题,针对快速路交通的强非线性、不确定
性等特点,探讨了近似动态规划方法在快速路交通流模型参数辨识中的应用,通过严格的数学论证,证明了该方法的收敛性,最后,在Matlab平台上进行仿真研究,结果验证了该辨识算法的有效性;
(2)研究了快速路短时交通流预测问题,通过近似动态规划方法的引入,提出了一
种自适应单指数平滑法,结合实际交通流数据对指数平滑法巾的参数进行调整,使得平滑系数随预测过程自动更新,从而保证了预测的实时性、准确性。仿真结果验证了算法的有效性;
(3)研究了城市交叉口均衡控制的最优信号配时问题,设计了基于排队长度均衡的
两相位和三相位绿灯时间近似动态规划控制算法。仿真结果表明基于近似动态规划的控制算法可以根据实时交通车流信息实现绿灯时间的自适应调整,克服14
1绪论
了定时控制不能随着流量的变化而分配绿灯时间的缺点;
(4)研究了快速路系统中单入El匝道以及多入ISl匝道基于近似动态规划的控制算
法,设计了基于近似动态规化的控制器,避开了交通流建模难的问题。仿真结果表明控制器具有良好的暂态性能,能够适应实时变化的交通状况,平滑交通流,在一定程度上缓解了交通拥堵。
1.5.2论文结构安排
论文的主要内容及结构安jq}771:1下:
第1章是绪论部分,综述了近似动态规划方法的发展及研究现状,以及在理论研究和应用研究领域所取得的成就。之后,回顾了交通控制和过程控制现状及其发展过程,在其基础上,着重介绍了交通流模型参数辨识、短时交通流预测、城市交叉口信号控制、快速路入l_JI幔道控制的研究现状,最后介绍了论文的主要工作和结构安排。
第2章鉴于神经网络权值初始值对近似动态规划方法的收敛速度和收敛结果有着非常重要的影响,提出了一种权值初始值复合修正方法。仿真结果表明,与权值初始值随机设定的方法相比,算法提高了近似动态规划方法的学习成功率。此外,提出了一种近似动态规划网络优化加速算法,在权值调整期间加入前期权值信息,增强了训练的稳定性;使用Steffensen迭代算法进行加速,使网络训练较快地收敛,有效地解决了传统神经网络收敛慢的缺点。在此基础上,给出了ADHDP改进方法,简称ADHDP(D)。仿真结果表明该方法误差稳步下降,没有出现ADHDP方法中振荡的现象,且达到收敛稳定的速度更快。
第3章研究了快速路交通流模型参数辨识方法,针对交通流模型的强非线性、不确定性等特点,提出了基于近似动态规划的交通流模型参数辨识算法。该算法具有自学习和自适应的特性,不依赖于被控对象的解析模型,严格的理论推导证明了这种参数辨识方案的收敛性,仿真结果验证了该算法的有效性。
第4章研究了快速路短时交通流预测方法,针对平滑指数法缺乏有效的平滑系数选取方法,提出了。-f'l'基于近似动态规划方法的自适应单指数平滑法,结合实际交通流数据对指数平滑系数进行优化,使其随预测过程自动更新,从而保证了预测的实时性、准确性。严格的理论推导证明了这种预测方法的收敛性,仿真结果验证了算法的有效性。
第5章将近似动态规划算法应用于城市道路交通中的过饱和单交叉路口,设计了基于排队长度均衡的两相位和三相位绿灯时间近似动态规划控制算法,仿真结果表明基于近似动态规划的控制算法可以根据实时交通车流信息实现绿灯时间
北京交通大学博士学位论文
的自适应调整,随着流量的变化而动态分配绿灯时间。此外,以三相位交叉口为例,验证了第二章中神经网络权值初始值影响近似动态规划方法收敛:速度和收敛结果的结论。
第6章研究了近似动态规划方法在快速路入口匝道控制系统中的具体应用,针对交通流强非线性、不确定性等特点,设计了基于近似动态规划的单入口匝道以及多入口匝道控制算法,避开了交通流建模难的问题,仿真结果表明控制器具有良好的暂态;性能。第7章。营.结了论文研究的主要内容和贡献,提出了值得进一步研究的方向。
正在阅读:
近似动态规划方法及其在交通中的应用06-08
2011年区促进商业服务业专项资金第一批项目拟支持汇总表xls08-30
整改措施监督落实制度03-31
商场员工规章制度03-31
销售员工手册和规章制度03-31
党支部听取共青团工作汇报制度03-31
销售部销售总监岗位职责制度03-31
岗位职责制度机制外部环境风险03-31
珠宝规章制度03-31
- 教学能力大赛决赛获奖-教学实施报告-(完整图文版)
- 互联网+数据中心行业分析报告
- 2017上海杨浦区高三一模数学试题及答案
- 招商部差旅接待管理制度(4-25)
- 学生游玩安全注意事项
- 学生信息管理系统(文档模板供参考)
- 叉车门架有限元分析及系统设计
- 2014帮助残疾人志愿者服务情况记录
- 叶绿体中色素的提取和分离实验
- 中国食物成分表2020年最新权威完整改进版
- 推动国土资源领域生态文明建设
- 给水管道冲洗和消毒记录
- 计算机软件专业自我评价
- 高中数学必修1-5知识点归纳
- 2018-2022年中国第五代移动通信技术(5G)产业深度分析及发展前景研究报告发展趋势(目录)
- 生产车间巡查制度
- 2018版中国光热发电行业深度研究报告目录
- (通用)2019年中考数学总复习 第一章 第四节 数的开方与二次根式课件
- 2017_2018学年高中语文第二单元第4课说数课件粤教版
- 上市新药Lumateperone(卢美哌隆)合成检索总结报告
- 近似
- 及其
- 规划
- 交通
- 方法
- 应用
- 动态
- 钢芯铝绞线直流电阻及短路电流计算
- 《阅读与写作》(2)形成性考核册答案
- 九年级上册英语教案
- 2014年一级建造师继续教育物联网网络培训作业及参考答案
- nortel网络设备调试手册
- 第四章 学习动机(第二课)
- 制冷工顶岗实习报告
- AFLP分子标记技术及其在水产动物中的应用
- 自考工作分析笔记
- 低电压静电喷涂原理的探讨
- 语文s版二年级下册4单元习题2 (2) (1)
- RF降低信号耦合的PCB布线技巧(一)
- 世界上超难找的药方
- 欧洲汽车报废、回收制度
- 三国全面战争MOD公测版1.9包官方发布说明
- VC++拼图游戏设计
- 三(2)班校园安全日记
- 药学研究的设计与统计讲义
- 第三讲:辛亥革命与君主专制制度的终结(史春风)
- 2012-2013四年级上册数学总结