博弈论作业

更新时间:2024-04-23 02:21:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

河北工程大学研究生课程论文报告

课程名称: 信息经济学与博弈论 课程编号:SX0071F23 课程类型: 非学位课 考核方式: 考查

学科专业: 管理科学与工程 年 级: 2014 级 姓 名: 学 号: 10076140185

河北工程大学2014 ~ 2015学年第2学期研究生课程论文报告

课程论文评语: 成 绩 评阅教师签名 评阅日期 年 月 日

基于GA一RL的进化博弈求解主从博弈结构的供应链协调问题

摘 要:供应链协调问题多数基于主从博弈结构建模,但如果研究对象是相对复杂的供应链结构,理论求解主从博弈问题就变得困难。因此从求解一对一的供应链协调问题开始,针对主从博弈问题的特点,利用个体学习的进化博弈仿真手段,设计了经销商利用经验分布的预期随机需求的信念更新模式与最优反应的决策模式,为生产商分别设计了基于强化学习的信念更新模式与基于遗传算法搜索策略空间的决策模式,并将两者有机结合,取得了博弈问题的均衡解并且验证该解与理论求解结果一致,为进一步求解复杂问题提供了新的途径。

关键词:供应链协调;进化博弈论;强化学习(RL);遗传算法(GA)

Coordinating supply chain of Stackelberg game model based on evolutionary game with GA一RL Abstract: Problems of coordinating supply chain are based on Stackelberg game model, but if research object is complex supply chain, it is difficult to find equilibrium of Stackelberg game ,so evolutionary Game theory was introduced. According to characteristics of leaders and followers in Stackelberg game model, learning Meehan is designed for each Player respectively. An algorithm of reinforcement learning combined with genetic searching is proposed for leaders, and a learning model of best一reply is designed for followers(retailers).

Keywords: supply chain coordination; evolutionary game theory; reinforcement learning(RL);genetic algorithm(GA) 1引言

供应链协调问题是研究如何订立协调机制使分散控制的供应链中个体与整体之间的目标一致,解决供应链中企业个体自身的优化目标与供应链整体的最优解相冲突的状况。目前关于不同协调机制研究可以分为以下几类,一类是根据数量给予价格折扣,如根据经销商的销售量给予目标折扣(Sale re-bate)的问题[1],根据订货量给予线性折扣(Quantity discount)的问题[2];第二类是根据

共 6 页 第 1 页

河北工程大学研究生课程论文报告

订货周期给予价格折扣,依据订货周期(order frequency)实行价格折扣的分销系统协调机制[3],为了分散供应商的库存风险,提供给提前定货经销商价格折扣,建立单周期模型研究在需求的不确定有限情况下生产商制定合适的价格折扣激励经销商提早订货[4],在他的模型里生产商可以改变经销商竞争状态(领导/跟随);第三类是弹性的订货数量,如弹性订货经销商可以以全部价格退还商品,类似的回购契约[5]经销商可以一定的折扣价格退还未售出的商品。

但由于数学求解的困难,上述模型多数是针对两周期一对一的供应链问题,并且很多研究也只证明了哪种形式的协调机制可以协调供应链[6],但协调机制的参数如何制定却无法给出.而现实中的供应链往往是包括多个企业的链状和网状结构,解决这类问题应用数学建模与理论求解有相当的难度,因此本文尝试应用进化博弈的分析框架[7]。

本文在对目标数量折扣问题证明与求解的基础上,通过进化博弈的手段求解这类问题的均衡,为求解复杂的供应链协调问题提供一个新的途径。而对于进化博弈领域,基本没有对效用函数结构复杂博弈问题的研究。因此对于个体学习的进化博弈也是一种新的尝试。 2模型

假定模型中包括一个生产商(上游企业)和一个经销商(下游企业),他们都是风险中性的,面对的是报童问题(连续随机需求的订货问题):经销商必须在随机需求发生之前订购一定数量的产品.因此模型可以理解为如下过程:生产商向经销商提出某种协调机制形式和参数;假设这种协调机制被经销商接受,于是经销商在此基础上提出一定数量的订货[8]。

模型参数设置如下:q=经销商的订货量,p=经销商制定的市场零售价格,D=市场需求,分布为F(),需求的期望值为μ, cr=经销商每件产品的边际成本, Cs=生产商每件产品的生产成本, gr=经销商的边际缺货损失成本, gs=生产商缺货损失成本,v=期末未售出产品残值令c=cr+cs, g=gr+gs ,T=调机制(生产商与经销商之间的转移支付) [9]。

定义期望销售量:

S q =Emin q,D =q 1?F q + yf y dy=q? F y dy

0

0

q

q

期望剩余库存:

I q =E q?D =q?S q

期望缺货量:

L q =E D?q =μ?S q

因此经销商期望利润为:

Eπγ q,T =pS q +vI q ?grL q ?cr q ?T= p?v+gr S q ? cr?v q?grμ?T 假设供应商可以保证任何可能发生的订货,则生产商的期望利润为[10]:

Eπs q,T =T?gsL q ?Csq=gsS q ?gsμ?Csq+T

供应链的整体利润就是企业的利润之和,即:

Eπ q =Eπγ q,T +EπS q,T = P?v+g S q ?gμ? c?v q

上述模型相当于一种生产商作为领导者的主从博弈间题.博弈过程分成两个阶段,第一阶段生产商决定决策变量一协调机制T的参数;第二阶段经销商观测到生产商的决策后,确定决策变量一订货量q。作者已根据主从博弈的理论求解方法一逆向归纳法,从理论上求解博弈问题的均衡解为:

共 6 页 第 2 页

河北工程大学研究生课程论文报告

0 πqW?πqγγ

q0, q0,

ωq03进化博弈仿真求解供应链协调问题

供应链协调问题的过程可以描述为:首先,生产商选择自己的行动一某种协调机制形式和参数;然后,经销商在此基础上选择自己的行动一订货量:最后,经销商销售产品,在销售周期结束之后,实现了市场的需求,经销商与生产商分别获得相应的收益一个基本的进化博弈模型的分析框架为:决策者在博弈重复进行的过程中,只能观察到部分外界环境和对手的信息,决策者 根据一定的信念更新规则对未来的收益做出预期,然后根据预期采取某种决策规则进行决策[11]。

因此针对供应链协调问题设计进化博弈实验模型的结构为:生产商根据对收益或者经销商订货量的预期采取行动:对经销商来讲,生产商的行动已知,经销商面对的是未知的随机需求,因此在决策之前根据对需求做出一定预期,而采取相应的订货量;最后根据需求、经销商的订货量、生产商的协调机制分别产生的经销商与生产商的利润;生产商根据历史上经销商的订货量和自己获得的利润,更新对它们预期,经销商则根据历史的需求信息,更新对需求的预期,通过决策规则确定下一周期的行动,进入下一周期的博弈[12]。 3.1经销商学习机制

预期需求方法经销商在每个周期的博弈中面对的只有未知的随机需求,这里以经验分布作为对需求分布的预期.这种预期方法本质上是决策者对某一需求量发生的概率的预期,这个概率是这个需求量在历史上出现的频率。[13]因此,如果在周期艺发生需求为d,,那么更新需求d发生的概率Pt(d:)的预期:

Pt di =

pt?1 di × t?1 +1

t

pt?1 di × t?1

t

, Pt di =

,j≠i

决策规则经销商在知道生产商的行动之后,并对每一个需求量发生的概率预期为尸(司,采取最优反应的决策规则在离散的需求分布下,经销商在生产商给定一定的目标数量折扣T万时,最优订货量Q满足:

Q

Q?1

P d ≥

d=0

p+g?c

≥ P d

p+g?vd=0

经销商学习机制算法形式如下:

l)在博弈的开始艺t=0时,初始化对于需求的预测p0 di =0; 2)重复

(a)按照最优反应决策准则确定行动

qt=argmaxπt qr|T,σ,P d

(b)如果在时刻t发生需求为d,。那么更新对于需求发生概率的预期为

pt?1 di × t?1 +1pt?1 di × t?1

pt di =, pt di =, j≠i

tt3.2生产商学习机制

在进化博弈的分析中,个体的学习机制以强化学习为主,但传统的强化学习通常采取贪婪策略,对于初始状态有很强的依赖性,导致搜索广度不足.因此,本文引入遗传算法作为决策规则,遗传算法中采取复制,变异与交叉的策略来搜索策略空间,其中复制保留下了优良解的特点,而变异和交叉策

共 6 页 第 3 页

河北工程大学研究生课程论文报告

略恰恰保证了对策略空间的搜索广度[14]。

信念更新规则—强化学习每一轮博弈之后。生产商根据自己的历史策略与利润,采取强化学习更新行动.定义生产商的每一个行动的倾向值函数。每个阶段博弈之后,生产商根据历史行动与利润,更新每一个行动的预期收益函数,得到的实际收益为:

πt?1 ai ×timet?1 ai +πt ai

timet ai =timet?1 ai +`1 ,πt ai =

timet ai 对其他行动aj,j≠i

timet aj =timet?1 aj , πt aj =πt?1 aj

决策规则—遗传搜索策略当采取传统的遗传算法,利用每一轮博弈中企业得到利润函数作为适应值,因为外部的需求是一个随机变量,企业每一周期的利润会随着需求而波动,因此这种适应值会受短期利润的干扰。因此将强化学习中对利润的预期反(。,),作为遗传算法的适应值,并借鉴遗传算法的种群复制、交叉、变异规则,产生新策略。

遗传算法需要选定一组行动作为种群,对种群中的每个行动都要计算适应值,对于博弈问题,需要对每个行动都进行一次博弈,这里有两种可行的处理方法:其一为设置对应种群个数的个体,在每一轮博弈中,每个个体与对手随机匹配,进行博弈得到利润,进而计算每个个体在这一轮博弈中行动的适应值;第二种方法是,在确定一个种群之后,重复进行博弈,每一轮博弈中,决策者轮流采取种群中的行动,进而得到利润计算适应值。当一个种群中的所有行动都完成博弈,按照遗传算法的规则产生下一代群体,继续进行博弈.在本文的模型中,我们选择的是第二种处理方法,为了区别遗传算法的遗传代数与博弈的周期,用坛表示代数.产生下一代种群的遗传规则依次为:

复制规则:按照轮盘赌规则将种群中个体复制到下一代种群中[15];

被选择保留下来交叉规则:因为生产商的行动空间为目标订货量与折扣系数,交叉操作就是在复制后产生的种群中,以交叉概率p。随机选取两个个体,交换其中的折扣系数,即假设群体中有两个个体,ai= TI,σI , aj= Tj,σj 交叉后ai= TI,σI , aj= Tj,σj ;

变异规则:以变异概率脚`,随机选择行动空间中的行动代替种群中的个体.为了提高学习效率,保证搜索深度,采取适应性的交叉概率与复制概率,令

pc=pc?入c×tG, Pm=Pm?入m×tG

这里需要说明仿真的终止条件问题,由于博弈的均衡求解涉及到两个或两个以上个体的寻优过程,因此判断仿真的终止需要判断每个个体的策略与利润是否都收敛.本文的研究目的是在于通过个体学习的进化博弈找到博弈问题的均衡解,因此为了考察模型的演化路径, [16]本文进化博弈仿真实验中都采取以博弈周期为终止条件、生产商学习机制算法形式如下:

1)初始化:在博弈的开始t=0时,初始化对于需求的预测 π0 ai =0,timeo ai =0;在博弈的开始时,随机采取行动 2)

(a)按照群体中的行动顺序产生下一周期策略,进行博弈;

(b)如果周期t选择ai行动,得到收益πt ai ,更新πt+1 ai ,更新规则如下[17]: (b1)若生产商在t周期博弈中选择ai策略,得到的实际收益为πt ai 那么

πt?1 ai ×timet?1 ai +πt ai

timet ai =timet?1 ai +`1 ,πt ai =

timet ai 共 6 页 第 4 页

河北工程大学研究生课程论文报告

(b2)对其他行动aj(j≠i):

timet aj =timet?1 aj , πt aj =πt?1 aj

(c)如果t mod population_size不等于0,返回(a);如果t mod population_size等于0,进行复制、交叉、变异操作,产生下一代群体,即下一个mod population_size周期策略,返回(a)。 4算例分析

以某品牌的手机为例讨论目标数量折扣下的协调问题.该产品的生产成本cs=1200元,生产商制订的批发价格为w=2200元,上市初期市场价格为p=3000元,某经销商预测市场需求为正态分布F()一N(10000,20002),经销商的经销成本为cr=300元,缺货损失为gr=100元,生产商承担的缺货损失为gs=50元,期末的产品的处理价格v=1000元.在模型中定义,生成正态分布F()一N(10000,20002),的随机数d后,将其处理为INT(d/1000),1000.由正态分布的特征可以知道需求有95%的可能在[10000-1.96*2000,10000+1.96*2000]区间内,约[6000,一4000]之间, 因此经销商的策略空间也不会超出这个范围,即订货量的范围为:(6000,7000,8000,9000,10000,11000,12000,13000,14000).生产商的策略,目标订货量T离散化为(6000,7000,5000,9000,10000,11000,12000,13000,14000),生产商给与经销商的折扣量,要在保证自己的利润大于。的前提下,因此折扣量占三气产、0.45,因此折扣离散化为(0.05,0.1,0.15,0.2,0.25,0.3,0.35,0.4,0.45)。由逆向归纳法可求解得到在离散状态下,生产商可以有效协调供应链的策略集合见表1。

按照第3节学习机制进行仿真试验,其中population_size =50,初始的交叉概率为pc=0.5,初始变异概率pm=0.3,入c=0.01入m=0.01。通过仿真试验,在群体进化第四代后找到了最优解[18]。

表1离散状态下的协调策略与利润

生产商策略 经销商策略 生产商利润(万元) 经销商利润(万元) 总利润(万元)

遗传算法是种群间进化,因此生产商找到最优解之后,每一周期的企业行动并没有收敛.图2为企业利润的每50个周期移动平均值,可以看到,在博弈进行200个周期之后,企业的平均收益逐渐收敛.生产商的遗传算法机制,可以保证种群间的利润保持增长的趋势.可见将遗传算法的种群复制、交叉、变异策略引入学习机制,保证了对策略空间搜索的广度,采用强化学习中对利润的预期作为遗传算法中的适应值,避免了随机因素的干扰,保证了企业对利润的正确预期,最终得到了最优策略,即博弈的均衡策略。 5总结与展望

本文针对分散控制的供应链协调间题,建立了该间题的仿真模型.并基于主从博弈的特点,为处于跟随者地位的经销商设计了基于经验分布的需求预期方法与最优反应的决策规则,对处于领导者地位的生产商,将强化学习与遗传算法结合设计了学习机制,得到博弈问题的均衡解,为进一步研究复杂供应链协调问题提出一种新的思路.但有一些问题仍需要进一步研究:首先,个体的学习机制设计需要针对具体问题的特点灵活设计,要加强借鉴启发式优化算法与人工智能技术;第二,供应链协调问题的研究不仅要扩展至复杂供应链结构还需要涉及到企业的方方面面,比如,质量、促销手段、

共 6 页 第 5 页

10000,0.05 10000 886 416 1302

(11000,0.05)

11000 977 358 1335

12000,0.1 12000 935 403 1338

河北工程大学研究生课程论文报告

信息管理等等;第三,企业决策者的风险偏好不同,如何激励不同风险偏好下的企业采取协调供应链的策略,并且企业的偏好会随着经验而改变,这种变化如何描述,对供应链企业之间关系如何影响,也将是一个值得关注的问题。 【参考文献】

[1]张克勇. 闭环供应链系统定价与契约协调研究[D].西南交通大学,2011.13-25 [2]吴忠和. 基于扰动情形的供应链应急协调研究[D].电子科技大学,2013.56-67

[3]崔爱平. 基于供应链契约的物流服务供应链能力优化与协调研究[D].上海海事大学,2009.78-97 [4]李义斌. BTO环境下的供应链协调问题研究[D].华中科技大学,2011.25-64 [5]何龙飞. 基于激励契约与博弈的供应链协调机制研究[D].天津大学,2007.21-37

[6]郑本荣. 竞争环境下闭环供应链的定价、协调与网络均衡决策研究[D].武汉纺织大学,2014.12-32 [7]杨金刚. 基于博弈的供应链订货定价策略及分配机制方法研究[D].天津大学,2006.48-51 [8]曾顺秋. 供应链中的制造商—零售商合作广告博弈模型[D].重庆大学,2007.67-89 [9]易雪辉. 随机需求依赖价格三级供应链的契约协调研究[D].电子科技大学,2006.37-53 [10]喻杰. 随机需求下三阶层供应链回购协调模型研究[D].长沙理工大学,2010.19-34 [11]刘雪梅. 基于LF-GA的供应链期权契约协调与优化[D].河北工程大学,2011.31-51 [12]邱昊. 基于延期支付的供应链库存协调策略研究[D].中国科学技术大学,2007.44-56 [13]周海云. 政府干涉下闭环供应链的定价与协调机制研究[D].天津大学,2014.27-46 [14]姚锋敏. 基于博弈理论的供应链网络竞争模型及应用研究[D].哈尔滨理工大学,2010.67-84 [15]曹桂梅. 供应链中制造商与零售商合作广告博弈模型[D].重庆大学,2009.93-110

[16]陶胜. 供应链上制造商与销售商之间有关Stackelberg博弈问题的研究[D].合肥工业大学,2012.68-92

[17]刘会. 基于供应链契约的三级物流服务供应链能力协调研究[D].华南理工大学,2014.55-63 [18]孙嘉轶. 基于再制造的闭环供应链结构选择及协调模型研究[D].哈尔滨理工大学,2013.23-51

共 6 页 第 6 页

河北工程大学研究生课程论文报告

信息管理等等;第三,企业决策者的风险偏好不同,如何激励不同风险偏好下的企业采取协调供应链的策略,并且企业的偏好会随着经验而改变,这种变化如何描述,对供应链企业之间关系如何影响,也将是一个值得关注的问题。 【参考文献】

[1]张克勇. 闭环供应链系统定价与契约协调研究[D].西南交通大学,2011.13-25 [2]吴忠和. 基于扰动情形的供应链应急协调研究[D].电子科技大学,2013.56-67

[3]崔爱平. 基于供应链契约的物流服务供应链能力优化与协调研究[D].上海海事大学,2009.78-97 [4]李义斌. BTO环境下的供应链协调问题研究[D].华中科技大学,2011.25-64 [5]何龙飞. 基于激励契约与博弈的供应链协调机制研究[D].天津大学,2007.21-37

[6]郑本荣. 竞争环境下闭环供应链的定价、协调与网络均衡决策研究[D].武汉纺织大学,2014.12-32 [7]杨金刚. 基于博弈的供应链订货定价策略及分配机制方法研究[D].天津大学,2006.48-51 [8]曾顺秋. 供应链中的制造商—零售商合作广告博弈模型[D].重庆大学,2007.67-89 [9]易雪辉. 随机需求依赖价格三级供应链的契约协调研究[D].电子科技大学,2006.37-53 [10]喻杰. 随机需求下三阶层供应链回购协调模型研究[D].长沙理工大学,2010.19-34 [11]刘雪梅. 基于LF-GA的供应链期权契约协调与优化[D].河北工程大学,2011.31-51 [12]邱昊. 基于延期支付的供应链库存协调策略研究[D].中国科学技术大学,2007.44-56 [13]周海云. 政府干涉下闭环供应链的定价与协调机制研究[D].天津大学,2014.27-46 [14]姚锋敏. 基于博弈理论的供应链网络竞争模型及应用研究[D].哈尔滨理工大学,2010.67-84 [15]曹桂梅. 供应链中制造商与零售商合作广告博弈模型[D].重庆大学,2009.93-110

[16]陶胜. 供应链上制造商与销售商之间有关Stackelberg博弈问题的研究[D].合肥工业大学,2012.68-92

[17]刘会. 基于供应链契约的三级物流服务供应链能力协调研究[D].华南理工大学,2014.55-63 [18]孙嘉轶. 基于再制造的闭环供应链结构选择及协调模型研究[D].哈尔滨理工大学,2013.23-51

共 6 页 第 6 页

本文来源:https://www.bwwdw.com/article/l9ap.html

Top