球盟会网于三章完全且完美动态博弈.ppt

公司动态

于三章完全且完美动态博弈.ppt

添加时间：2024-02-03

《于三章完全且完美动态博弈.ppt》由会员分享，可在线阅读，更多相关《于三章完全且完美动态博弈.ppt（56页珍藏版）》请在悦读文库上搜索。

1、第三章完全且完美动态博弈博弈种类：静态，动态；完全信息，不完全信息；完美信息，不完美信息 3.1 动态博弈的表示法和特点 n 动态博弈根本特征是各博弈方不是同时的，而是先后、依次进行选择或行动。 n 信息不对称：后行为的博弈方有更多的信息帮助自己选择行为。 n 具有较多信息就一定有较好结果并不总是成立； n 单人博弈，两人博弈 n 完美博弈与不完美博弈 3.1.1 阶段和扩展形（扩展式）表示 n 各博弈方选择行动有先后次序，各博弈方的选择行动会形成依次相连的时间阶段，因此，动态博弈中一个博弈方的一次选择行动常称为一个 “阶段 ”（ stage）。 n 动态博弈中也可能

2、存在几个博弈方同时选择的情况，这时这些博弈方的同时选择构成一个阶段。 n 一个动态博弈至少有两个阶段。动态博弈又称 “多阶段博弈 ”（ games），又称 “序列博弈 ”（ “序贯博弈 ”）（ games）。 n n 通过选择节点、从选择节点出发表示博弈方各种可能选择的线段，以及博弈终端处的得益数组表示动态博弈的方法。这种表示法称为 “扩展形 ”（ “扩展式 ”）， “博弈树 ”。 n 扩展式可以反映动态博弈中博弈方的选择次序和博弈的阶段，因此是表示动态博弈的最佳方法。因此，动态博弈有时被称为 “扩展式博弈 ” （

3、ve form game） n 枝 n 信息集 3.1.2 动态博弈的基本特点 n 动态博弈的策略和结果 n 静态博弈：博弈方一次性同时选择的行动（行为）就是博弈方的策略，这些策略的策略组合，以及所对应的各方得益，就是博弈的结果。 n 动态博弈：动态博弈博弈方决策的内容，也是决定博弈结果的关键，不是博弈方在单个阶段的行为，而是各博弈方在整个博弈中轮到选择的每个阶段，针对前面阶段的各种情况作相应选择和行为的完整计划，以及由不同博弈方的这种计划构成的组合。这种计划就是动态博弈中博弈方的 “策略 ”。 n 动态博弈的结果 : n 首先是指各博弈方上述类型的策略构成的策略组合。

4、 n 其次，是各博弈方的策略组合形成的一条联接各个阶段的 “路径 ”（ path）。 n 最后，实施上述策略组合的最终结果，落实到上述路径终端处得益数组中的数字。 n 在一个动态博弈中，博弈的结果包括双方（多方）采用的策略组合，实现的博弈路径和各博弈方的支付（得益）。 n 动态博弈的非对称性 n 先后次序，且后行动者能观察到此前选择行动博弈方的选择行动，地位是不对称的。同样存在，信息综合症。 3.2 可信性（可信度）和纳什均衡的问题 n 所谓可信性是指动态博弈中先行为的博弈方是否该相信后行为的博弈方会采取对自己有利的或不利的行为。 n 后行为方将来会采取对先行为方有利的

5、行为相当于一种 “许诺 ”，而将来会采取对先行为方不利的行为相当于一种 “威胁 ”，因此我可将可信性分为 “许诺的可信性 ” 和 “威胁的可信性 ”。 n 开金矿： 3.2.1 相机选择和策略中的可信性问题 n 动态博弈中，博弈方的策略是他们自己预先设定的，在各个博弈阶段，针对各种情况的相应行动选择的计划。这种策略实际上没有强制力，而且实施起来有一个过程，因此只要符合博弈方自己的利益，他们完全可以在博弈过程中改变计划。我们称这种问题为动态博弈中的 “ 相机选择 ”（ play）问题。 n 相机选择的存在使得博弈方的策略中，所设定的各个阶段、各种情况下会

6、采取行为的 “可信性 ”（）有了疑问。 n 开金矿： n乙的策略： “第一阶段借，当甲第二阶段选择不分时，第三阶段选择打 ”，甲的策略 “第二阶段无条件分 ”，构成纳什均衡。 n 内在不稳定性： “不可信的 ”“空头威胁 ”（ empty ） n 先来后到： 1 1 2 2 进不进进不进 (0,10) (0,10) 打不打打不打 (-3,6) (5,5) (-3,6) (5,8) 先来后到博弈先来后到不可信博弈 3.2.2 逆推归纳法（逆向归纳法） n 逻辑基础：动态博弈中先行动的理性的博弈方，在前面阶段选择行动时

7、，必然会考虑后行动博弈方在后面阶段中将会怎样选择行动，只有在博弈的最后一个阶段选择的，不再有后续阶段牵制的博弈方，才能直接作出明确选择。而当后面阶段博弈方的选择确定以后，前一阶段博弈方的行动也就容易确定了。 n 方法：从动态博弈的最后一个阶段开始分析，每一次确定所分析阶段博弈方的选择和路径，然后再确定前一个阶段的博弈方选择和路径。逆推归纳到某个阶段，那么这个阶段及以后的博弈结果就可以肯定下来，该阶段的选择节点等于一个结果终端。我们甚至可以用不包括该阶段与其后所有阶段博弈的等价博弈来代替原来的博弈。 n 方法 :就是从动态博弈的最后一个阶段或最后一个子博弈开始 ,步向

8、前倒推以求解动态博弈的方法 . n 开金矿： n 先来后到： 1 1 2 进不进进不进 (0,10) (-3,6) (0,10) 打不打 (-3,6) (5,5) 先来后到博弈 n 逆推归纳法把多阶段动态博弈化为一系列的单人博弈，通过对一系列单人博弈的分析，确定各博弈方在各自选择阶段的选择，最终对动态博弈结果，包括博弈的路径和各博弈方的得益等作出判断，归纳各个博弈方各阶段的选择则可得到各个博弈方在整个动态博弈中的策略。 n 逆推归纳法确定的各个博弈方在各阶段的选择，都是建立在后续阶段各个博弈方理性选择的基础之上，因此自然排除了包含不可置信的威胁或承诺的可能性，因此得出

9、的结论是比较可靠的，确定的各博弈方的策略组合是稳定的。 3.3 子博弈和子博弈完美纳什均衡 n 3.3.1 子博弈 n 定义：子博弈即能够自成一个博弈的某个动态博弈的从其某个阶段开始的后续阶段，它必须有一人初始信息集，且具备进行博弈所需要的各种信息 3.3.2 子博弈完美纳什均衡 n 定义 1：如果在一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个 “子博弈完美纳什均衡 ”。 n 定义 2：如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成一个纳什均衡，则

10、称该策略组合为一个 “子博弈完美纳什均衡 ”。满足条件 : n 1.既是纳什均衡 ,从而具有策略稳定性 ; n 2.又不能包含任何的不会信守的许诺或威胁 , n Nash 子博弈精炼纳什均衡（， 1965）泽尔腾 n 目的：将不可置信的威胁策略的纳什均衡从均衡中剔除，从而给出动态博弈结果的一个合理预测。 n 与纳什均衡的根本不同之处：能够排除均衡策略中不可信的威胁或承诺，因此是真正稳定的。 n n 子博弈完美纳什均衡本身也是纳什均衡，是比纳什均衡更强的均衡注意点 : n 第一 :在动态博弈中强调要求各博

11、弈方的策略对每阶段每种可能的情况都设定一个行动方案 ; n 第二 :在分析动态博弈时 ,必须始终假定和强调所有博弈方都有是理性的和不会犯错误 . 海盗分金 n 五个海盗要分配抢来的 100枚金币，第一个人提出一种分配方案，如果同意这种方案的人达到半数，那么提议通过，否则提议的人就被扔进大海，由剩下的人再进行同样的过程。假设五人提议的次序给定，金币不能分割，而且海盗的本性让他们觉得，如果对自己的收益没有影响，则很乐意看到别人被扔进大海，这时，理性结局应该什么样的？逆向归纳法： n 我们用 I=1,2,5表示按顺序先后提议的五个参与者， xi表示每个人获得的金币数。 n

静态博弈和动态博弈案例_静态博弈动态博弈_公司里的动态和静态博弈

12、如果只剩下 2个人（ 4和 5），则 4会建议 x4=100， x5=0。 n 如果剩下 3个人，则 3会建议 x3=99， x4=0， x5=1 n 如果剩下 4个人，则 2会建议 x2=99， x3=0， x4=1， x5=0 n 博弈开始， 1会建议 x1=98， x2=0， x3=1， x4=0， x5=1. n 博弈结束。子博弈完美均衡。 3.4 几个经典动态博弈模型 3.4.1 寡头的模型 - - 动态的寡头市场产量博弈 n 寡头市场两厂商，一方强一方弱，决策内容是产量 n 产量由较强的一方先进行选择，较弱方则根据较强一方的产量选择自己的产量 n 领先

13、企业 1，追随企业 2 n 决策内容：产量的选择，无数个，扩展式，得益函数（支付函数） n 策略空间都是中的所有实数 n 最大限度产量，企业生产能力中较低的一个水平 n 同古诺模型惟一区别只是两博弈方的选择是先后而不是同时厂商 1是领头企业，厂商 2追随者，生产同质产品，先后决定各自的产量； n 产量分为 q1、 q2，总产量 Q= q1+q2 n P是产品价格 =市场出清价格， P是所有厂商生产的总产量的减函数，即： P=P(Q)=a-Q=8- Q，说明当一个厂商增加产出时，它不仅对自己的产出降低价格，而且同时降低价格的行为被所有别的厂商接受； n 两厂商的生产都无固定成

14、本，且每增加一单位产量的边际生产成本相等 C1=C2=2 生产 q1、 q2产量的成本为 2q1、 2q2； n U1= q1P(Q)-C1q1= q18-(q1+q2)-2q1 = q1q1 n U2= q2P(Q)-C2q2= q28 (q1+q2) 2q2 =6q2 q1q2 q2q2 采用逆向归纳法： n 先分析第二阶段厂商 2的决策，厂商 1的 q1已决定，并且厂商 2 知道 q1，即对厂商 2来说相当在给定 q1的情况下求使其 U2实现最大化的 q2， q2满足： n 6 q1 2q2=0 q2=3-q1 /2 n 厂商 1在选择 q1时已知道厂商 2按上式确定

15、其产量，则将 q2代入： n U1 =6q1 - q1 q2 - q1q1 =3q1-q1q1 /2 n q1=3 q2 =1.5 U1= 4.5 U2= 2.25 p=3 3.4.2 劳资博弈 n 里昂惕夫（， 1946）：代表劳资双方的工会和企业之间的博弈 n 该博弈模型假定工资完全由工会决定，企业只是根据工会要求的工资高低决定雇佣工人的数量。 n 工会追求的目标：工资率，就业数 n 企业：假设收益，企业只有劳动成本，总成本，利润函数 n 假定博弈过程：先由工会确定工资率，再由企业据以决定劳动数 n 假定工资率和雇佣数是连续可分的，因此双方都有无限多种选

16、择。工会和企业的得益分别是效用，利润 3.4.3 讨价还价博弈议价 n 三回合讨价还价 n 两个人 1， 2 分享 10000元 n 规则： n 1提出方案， 2接受，结束；拒绝，继续进行 n 2提出方案， 1接受，结束；拒绝，继续进行 ; n 1提出方案， 2必须接受，结束。 n 谈判费用，利息损失等，消耗系数 n 第一回合： 1 S1， 10000 S1 ； S1， 10000 S1 2 S2， 10000 S2； 3 ； 3.5 有同时选择的两阶段动态博弈 n 博弈中存在在同一阶段有两个或两个以上博弈方同时选择的情况； n 不是完美信息，介于完美信息和非完美

17、信息间。案例：银行挤兑的成因和预防 n 假定一银行，只有两存户各存 100万，银行的全部资金就是这 200万。银行拿总数为 200万的这笔钱做投资。项目完成投资收回 280万，银行全部偿还给存户，每个存户得到 140万。但未到期抽回存款，则只能收回 140元，银行只有拿出 140万付给储户。 n 客户日期两种：日期 1-未到期；日期 2 到期 n 如果双方同时提前抽调存款，每人只能得 70万； n 如果双方期满支取存款，每人可得 140万； n 如果只有一方提前支取，那么他得到原来的存额 100万，而银行被迫提前抽回投资，可动用资金只有 140万，而另一储户期满时来兑现其存

18、款时，银行就要破产，他只能得到 40万的补偿； n 储户乙抽回不抽抽回储户甲不抽银行挤兑 -日期 1 n 储户乙抽回不抽抽回储户甲不抽银行挤兑 -日期 2 70,70 100,40 40,100 下一日期 140,140 180,100 100,180 140,140 n 储户乙不存存款不存储户甲存款银行挤兑 -第一阶段 n 储户乙提前到期提前储户甲到期银行挤兑 -第二阶段 1,1 1,1 1,1 下一阶段 0.8, 0.8 1, 0.6 0.6, 1 1.2, 1.2 n 储户乙不存存款不存储户甲存款银行挤兑 -第一阶段 1 n

19、储户乙不存存款不存储户甲存款银行挤兑 -第一阶段 2 1,1 1,1 1,1 1.2， 1.2 1， 1 1, 1 1, 1 0.8， 0.8 3.6动态博弈分析的问题和扩展讨论 3.6.1 逆推归纳法的问题 n 只能分析明确设定的博弈问题，要求博弈的结构，包括次序、规则和得益（支付）情况等都非常清楚，并且各个博弈方了解博弈结构，相互知道对方了解博弈结构。 n n 逆推归纳法不能分析比较复杂的的动态博弈。象棋博弈。 n n 遇到两条路径利益相同的情况时逆推归纳法也会发送选择困难。惟一最优选择，寻找均衡路径。存在多个子博弈完美纳什均衡。 n n 对博弈方的理性要求太高，不

20、仅要求所有博弈方都有高度的理性，不允许博弈方犯任何错误，而且要求所有博弈方相互了解和信任对方的理性，对理性（个体理性、集体理性、风险偏好等）有相同的理解，或进一步有 “理性的共同知识 ” of ， CKR n 子博弈完美纳什均衡是 “博弈方 1在第一阶段选择 L，第三阶段选择 T；博弈方 2在第二阶段选择 N”，相应博弈路径是博弈方 1第一阶段选择 L，博弈结束。 n 错误是偶然的吗？ 3.6.2 颤抖手均衡（ THPE） n 基本思想：在任何一个博弈中，每一个参与人都有一定的可能性犯错误；一个战略组合，只有当它

21、在允许所有参与人都可能犯错误时仍是每一个参与人的最优战略的组合时，才是一个均衡。 n “颤抖 ”：当一个参与人突然发现一个不该发生的事件发生时（即博弈偏离均衡路径），他把这个不该发生的事件的发生归结为某一个其他参与人的非蓄意错误。 n 定义 1：即无论犯不犯错误（即手有没有颤抖）都是最优的 n 定义 2：在考虑到博弈方的理性局限和犯错误可能性的情况下，具有稳定性的 NE，称为 “颤抖手均衡 ” n 不仅在其他参与人不犯错误时是最优的 NE，而且在其他参与人错误地选择时也是最优的。 n 颤抖在参与人之间是独立发生的，所以据此假设，任何包含弱劣战略的 NE都不可能是颤抖手

22、均衡。 n 理解有限理性的博弈方在动态博弈中偏离子博弈完美纳什均衡行为最重要的思想之一，也是精炼子博弈完美纳什均衡的一种均衡概念。例：求下得益矩阵表示的对称博弈的颤抖手均衡 n 博方 2 n A B C n 博 2 A 0,0 0,0 0,0 n B 0,0 1,1 2,0 n C 0,0 0,2 2,2 注：颤抖手均衡，首先必须是纳什均衡。其次是不能包含任何 “ 弱劣策略 ” ，也就是偏离对偏离者没有损失的策略。图 3.23：（ D， L），（ U， R）都是 NE，前者对 1较有利，后者对 2较有利 , 。不考虑博弈方的选择和行为偏差的情况下，这两个纳什均衡都是稳

23、定的，都是该博弈的可能结果。如果博弈方 2有可能选择 R？（ U， R）对于概率较小的偶然偏差来说具有稳定性，具有这样性质的策略组合就是 “颤抖手均衡 ”。例： 2*2博弈的颤抖手均衡两个颤抖手均衡颤抖手均衡，首先必须是纳什均衡。其次是不能包含任何 “ 弱劣策略 ” ，也就是偏离对偏离者没有损失的策略。扩展形动态博弈 3.25：两条子博弈完美纳什均衡的路径，一条是博弈方 1在第一阶段选择 L结束博弈，另一条是 R N T V。第二条不是颤抖手均衡路径，因为只要博弈方 1考虑到博弈方 2在第二阶段有任何一点偏离 N的可能性，第一阶段就不搞了坚持 R策略，因此，后一条路

24、径对应的子博弈完美纳什均衡是不稳定的。改变为 3.26： R N T V是该博弈中惟一的子博弈完美纳什均衡路径，同时也是颤抖手均衡。因为只要每个博弈方犯错误，偏离该路径的概率比较小，那么博弈方主观上都有坚持它的愿望。 3.6.3 序贯均衡（ SE） n 基本思想：在子博弈精炼纳什均衡或贝叶斯均衡概念上增加一个新的要求，即在博弈到达的每一个信息集上，参与人的行动必须由某种有关之前发生的事情（自然选择了什么类型或先行动者选择了什么行动）的信念（概率）合理化。 n 增加了 “对信念是一个理性信念序列的极限 ”的条件。 3.6.4 顺推归纳法 n 理解博弈方 “犯错误 ”性质的两种主要方法： n 颤抖手均衡：理解有限理性的博弈方在动态博弈中偏离子博弈完美纳什均衡行为最重要的思想之一，也是精炼子博弈完美纳什均衡的一种均衡概念。顺推归纳法 3.6.5 蜈蚣博弈 game问题 n （ 1981）：逆推归纳法的问题，错误，潜在利益，蜈蚣博弈的长度

返回列表

产品中心

联系我们

电话：400-123-4657

传真：+86-123-4567

地址：浙江温州市温州大道欧江大厦26188号

邮箱：admin@nxdls.net