范文一:博弈论的分类
须要求博弈方互相认识彼此的决策行为,即每个参与者都能预见其他参与者的均衡策略。当一个博弈中的参与者达到纳什均衡状态时,任何一个参与者都不能独自的改变本身的策略行为以增大自身的收益而不影响其他参与者的策略行为。因此,纳什均衡表示的是博弈的稳态性,一旦达到纳什均衡状态,表明该博弈各个参与者之间达到均衡状态,不再进行策略行为的选择。而纳什均衡也存在不足之处,纳什均衡的状态并不一定是唯一的,在有些实际问题中会存在多个纳什均衡。
2.2.6 帕累托最优
帕累托最优(Pareto Optimality),也称为帕累托效率(Pareto Efficiency, PE)。这个概念是由
意大利经济学家维弗雷多·帕累托在关于经济效率和收入分配的一篇论文中提出,在经济学、
工程学和社会科学中有着广泛的应用。帕累托最优是博弈论中非常重要的概念,指的是资源
分配的一种最优的状态,在不使任何参与者情况变坏的情况下,不可能再使某些参与者的处
境变好。
在一个基本的博弈 { }
1 1
, , ; , ,
n n
G = s s u u中,由每个博弈方的策略行为组成的策略集合
( )
1 1
1
, ,
n
s s ,如果不存在任何的策略行为集合
( )
2
1 2
, ,
n
s s 使得:
( ) ( )
2 2 1 1
1 1
, , , , ,
i n i n
U s s ≥ U s s i ∈ N(2.2)
则称策略集合
( )
1 1
1
, ,
n
s s 为该博弈的帕累托最优。
当在某个博弈中,博弈参与者达到帕累托最优状态后,不可能再有更多的帕累托改进的
余地,帕累托最优是公平与效率的“理想王国”。与纳什均衡不同的是,帕累托最优是从合作的角度出发,各博弈参与者互相交换各自的信息,从而获得整体最优的效益;而纳什均衡只是表示一种均衡状态,各博弈参与者只从自己的角度出发,选择自己的最优行策略,而并不考虑其他参与者策略行为的选择,是一种自私的行为策略选择。由此可见,纳什均衡只是博弈参与者达到平衡的一种状态,而并不是一种帕累托最优,不是一种完美的结局。
2.2.7 超模博弈
托普基斯(Topkis)在 1979 年提出了超模博弈模型(Supermodel Games)思[23] ,指出若博弈参与者的效益函数是超模的,则该博弈过程为超模博弈。超模博弈的定义:如果任意两个博弈参与者
i
a 和
j
a ,
i j
a ≥ a,他们的效用函数满足南京邮电大学硕士研究生学位论文 第二章 功率控制技术及博弈论
18
参与者的效率、公平和公正。研究的是博弈参与者通过合作的方式在一定的约束条件下如何分配所获得收益,合作博弈论也可称为联盟博弈,其存在的两个基本条件是:
(1)通过联盟的方式,系统所获得收益多于参与者单独所获得的收益和。
(2)在联盟内部,应存在具有帕累托改进性质的分配规则,即每个参与者都能获得比不加入联盟时多一些的收益。
合作博弈所包含的本身特性决定了这两个基本条件是否可以顺利满足并实现,即在联盟结构中各参与者的信息是可以互换的,必须遵循共同的约束协议。而在非合作博弈模型中,每个参与者单独选择策略行为,并不遵循保证整体效用的共同准则。合作博弈按照合作之后的收益变化可分为本质性的合作和非本质性的合作,若合作之后各博弈参与者及整体的收益有所增加,则此合作博弈是本质性的,即合作后该联盟存在净增收益;若合作之后各博弈参与者及整体的收益并没有增加反而下降,则此合作博弈为非本质性的。合作博弈与非合作博弈区别主要在于合作博弈是研究各参与者达成合作时如何分配合作
所得到的收益,即收益分配问题。而非合作博弈是研究参与者在利益相互影响的情况下如何选择策略行为使自己的收益最大,即策略行为选择问题。合作博弈强调的是联盟内部各参与者之间的信息互通,只有通过各参与者之间信息的互相交换,合作才可进行。
2.2.5 纳什均衡
在经济学中,均衡指的是各相关变量处于稳定状态。在博弈论中,可以通过均衡来判定博弈的稳态性,也可以判定算法是否收敛。约翰纳什在 20 世纪 50 年代发表了两篇关于非合作博弈的文章[22],对均衡解的思想作了阐述,并提供了证明均衡解存在性和唯一性的依据,即纳什均衡(Nash Equilibrium, NE)。纳什均衡是判定非合作博弈是否达到稳定状态的重要依据,奠定了现代博弈论发展的基础。在一个基本的博弈 { }
1 1
, , ; , ,
n n
G = s s u u中,由每个博弈方的策略行为组成的策略集合
( )
1
, ,
n
s s
,若任一博弈方的策略行为
i
s
都是其他博弈方策略集合
( )
1 1 1
, , , , ,
i i n
s s s s
+
的最佳策略行为,即
( ) ( )
* * * * * * *
1 1 1 1 1 1
, , , , , , , , , , , ,
i i i i n i i ij i n
u s s s s s u s s s s s
+ +
≥ (2.1)
对
ij i
s ∈ s都成立,则可认为 ( )
* *
1
, ,
n
s s 为基本博弈 G 的一个“纳什均衡”。由上可以看出,纳什均衡是所有博弈方的最优策略行为集合,此时的每一个博弈参与者的策略行为都是对其他参与者策略行为的最优反应,达到平衡的状态。要实现纳什均衡,必17
2.2.4 博弈论的分类
实际中可从不同的方面对博弈进行划分,比如依据博弈参与者的数量多少,可分为双人博弈和多人博弈;依据博弈参与者选择决策行为的先后顺序,可分为动态博弈(Dynamic Game)和静态博弈(Static Game);依据博弈参与者对其他参与者所了解信息的多少,可分为完全信息博弈(Game with Complete Information)和不完全信息博弈(GamewithIncomplete Information);依据博弈参与者相互的合作关系,可分为非合作博弈(Non-Cooperative Game Theory)和合作博弈(Cooperative Game Theory)。如表 2.1 所示表示了常见的博弈分类。 表 2.1 博弈的分类
分类依据 博弈类型
参与者数量 双人博弈;多人博弈
博弈次序 动态博弈;静态博弈
参与者信息 完全信息博弈;不完全信息博弈
合作关系 非合作博弈;合作博弈近年来博弈论的主要研究方向为非合作博弈及合作博弈。在非合作博弈中,根据博弈参与者的行为次序及在博弈中所获信息的不同,可将非合作博弈划分为:完全信息静态博弈、不完全信息静态博弈、完全信息动态博弈和不完全信息动态博弈。其中,完全信息静态博弈是由纳什提出的,对应的均衡即为纳什均衡;不完全信息静态博弈由海萨尼在 1967 年提出,在对其他博弈参与者类型进行预测时,需采用贝叶斯法则,因此对应的均衡为贝叶斯纳什均衡;赛尔顿在 1965 年提出了完全信息动态博弈,将完整博弈划分成若干个子博弈,所对应的均衡为子博弈精炼纳什均衡;不完全信息动态博弈由赛尔顿在 1975 年提出,所对应的均衡为精炼贝叶斯纳什均衡。如表 2.2 所示。 表 2.2 博弈按参与者信息的分类
时间次序信息静态 动态完全信息 约翰纳什纳什均衡赛尔顿子博弈精炼纳什均衡不完全信息 海萨尼贝叶斯纳什均衡赛尔顿精炼贝叶斯纳什均衡在合作博弈中,每个博弈参与者采取的是一种合作的方式,或者说是一种妥协,目的是通过合作的方式使得每个博弈参与者及整个系统的收益都达到最优。合作博弈注重的是整体南京邮电大学硕士研究生学位论文 第二章 功率控制技术及博弈论的值单调不减,即:
(2.3)
则称该博弈模型为超模的。由托普基斯的不动点定理可以得知纳什均衡的存在性,即超模博弈至少最在一个纳什均衡点。而一个超模博弈中的所有均衡点构成一个格,若其中一对均衡点已知,则其他纳什均衡点可通过计算得出。超模博弈的概念在博弈论中非常重要,在超模博弈中,每个博弈方增加其策略行为所引起的边
际效用随着其他博弈方策略行为的递增而增加。在博弈中,对最优反应的反应是递增的,所以博弈参与者的策略行为是“策略互补”的。当有两个博弈方参与时,对变量进行变化以后也可以采用超模博弈模型进行分析递减的最优反应的情况。
2.3 本章小结
功率控制技术作为认知无线电的关键技术,在保证接收端信干比的前提下,尽可能的降低每个认知用户的发射功率,减少系统间的相互干扰,使系统容量最大化。通过功率控制技术,使得网络中用户间的相互干扰达到最小,而且降低了终端的能源消耗。本章首先介绍介绍了功率技术的分类,包括开环、闭环功率控制及集中式、分布式功率控制技术等。然后,详细阐述了博弈论的基本知识,包括博弈论的基本概念、分类及基本模型,并介绍了博弈论中的重要理论:纳什均衡及帕累托最优,为研究基于博弈的认知无线电功率控制技术奠定了理论基础。 博弈论包含自身的博弈模型,其中,一个完整的博弈模型包含 3 个基本组成部分,即博弈参与方(Player)、策略行为集合(Strategy set)及效用函数(Utility Function, UF)。由此,可以从5 个方面来对博弈论的基本模型做详细的描述,即 G={P,A,S,I,U}。
(1)P(player),博弈的参与者,也可称为“局中人”“博弈方”,是指在博弈中独立决策、独立承担后果,并且使自身利益达到最好来选择策略行为的决策主体。其中,博弈的参与者可以是个人也可以是团体组织。无论参与者是个人还是团体,一旦参与博弈,各参与方互相平等,都必须按照一定的博弈规则确定自己的策略行为。
(2)A(action),所有博弈参与者的策略行为组成部分。指在博弈过程中,每个参与者在与其他参与者进行博弈时,可选择的行为策略。对于博弈局中人来说,在不同的博弈过程中可以选择的策略行为是不同的,即使同属于一个博弈过程中,可选择的策略行为也是不同的,可能是一种或是多种,甚至无限多种。
(3)S(strategies),博弈的次序。在实际的许许多多博弈决策中,当有许多博弈局中人需要进行决策行为时,有时这些博弈参与者需要在同一时间做出决策行为,以保证博弈方的公平性,而有时博弈参与者的决策行为要有不同的先后顺序,而且有的博弈参与者需要做出多次决策行为。因此,在博弈中,需要定义博弈参与者之间的次序,如果两个博弈仅仅次序不同,那么他们是不同的博弈。
(4)I(information),博弈信息。在博弈中,信息的掌握对于博弈方非常重要,信息掌握的越多,博弈参与者的决策行为就越准确。因此,博弈参与者应尽可能的掌握更多的博弈信息,在博弈选择决策行为时更为主动,从而确保决策行为的准确性。
(5)U(utility),博弈参与者的效用,又称为收益。是指博弈参与者选择策略行为后所获得的收益,对于每个博弈参与者来说是其策略行为的函数,是参与者最注重的,比如消费者所获得的收益、厂家所获得的利润。通常判断博弈结果的好坏是通过各博弈参与者数量关系的比较得出的,况且研究的大部分博弈模型,都包含着一定的数量关系。因此,可以采用包含博弈参与者策略行为的效用函数来表示博弈参与者的收益情况。在研究博弈问题时,当确定好以上五项的基本概念时,该博弈问题就可得到量化,将实际问题转化为数量关系模型。博弈论的基本思想就是运用以上五个方面,对每个博弈进行分析,以找到每个博弈参与者最优的策略行为。
范文二:博弈论的假定与博弈分类
第二章 博弈论的假定与博弈分类
第1节 博弈的定义及构成要素
先看一个例子。
例2-1.囚徒困境.两个共同作案偷窃的小偷被警察抓住,被带进警察局单独关押。他们面临的“政策”是“坦白从宽,抗拒从严”,具体的政策是:如果一方与警方合作,招认并供出自己与对方以前所做违法之事,而对方不招认,招认方无罪释放,不招认的另一方则会被判重刑10年;如果双方都与警方合作共同招认,各被判刑5年;而如果双方均不承认有罪,因警察找不到他们以前违法的证据,只能对他们的小偷行为进行惩戒,各被判刑3个月。这两个小偷如何作出选择?
这个博弈便称为囚徒困境博弈(prisoners’ dilemma )。普遍认为,囚徒困境最先是由普林斯顿大学的塔克(AlbertTucker)教授于20世纪50年代提出的。这个博弈模型是一类现实原型的抽象,该博弈被广泛地讨论;在后面我们将详细地分析它。
上述直观的博弈表述方式被称为支付矩阵,用之可表示2人博弈。该矩阵为诺贝尔奖获得者托马斯?谢林最先使用的,该发明对于博弈论的普及意义重大。
我们说过,一个博弈是其收益相关的两个或两个以上的参与人的策略互动。在博弈的标准式表示中,每个参与人同时选择一个策略,所有参与人选择策略的组合决定每个参与人的收益。形式地,一个博弈可定义为:
定义2.1. 在一个n人博弈的标准式中,一个博弈可定义为:G={S1,S2,?,Sn; u1,u2,?,un},其中S1,S2,?,Sn为参与人的策略空间;u1,u2,?,un为参与人的收益函数。
因此,简单地说,一个博弈涉及:第一,两个或两个以上的参与人;第二,参与人的策略空间;第三,收益。
对于以上述形式描述或定义的博弈,其“解”是什么?为了得到“解”概念,我们得先给出博弈论基本假定。
第2节 博弈论中的基本假定
基本假定:在博弈中每个参与人是理性的是博弈参与人之间的公共知识。
这里涉及两个问题:第一,什么是理性;第二,什么是公共知识。
我们先回答第二个问题。我们说:一个命题p是公共知识是指,每个人知道p,且每个人知道p,每个人都知道p,??或者p是公共知识指,每个人知道p且每个人知道p是公共知识。在下面的章节中我们会详细地讨论这个概念。
但对于第一个问题“什么是理性的”,我们很难给出准确回答。理性本指推理要符合逻辑规则。在决策中,这里的逻辑规则是广义的,它不仅包括形式逻辑的推理要求,而且包括决策规则。
对之,迈尔森说:“如果一个决策者在追逐其目标时能够前后一致地做决策,我们就称他是理性的(rational)。”这样,理性意味着逻辑一致性或无矛盾性。同时他说:“在基于
决策理论的基本结论而建立起来的博弈论中,我们假设每个局中人的目标是追求其个人期望支付值的最大化,支付则是用某个效用尺度来度量的。”(P2)这样,理性决策者应该按使自己的期望支付最大化的方式去做决策。
由于一个博弈涉及多个理性主体,由此,博弈论是研究交互理性(Interactive Rationality)。
第3节 参与人的目标:最大化期望效用
人们采取行动是为了获得收益,在不同行动进行权衡其目的在于获得最大收益。我们如何刻画收益呢?我们往往用效用来刻画收益。
效用是某个物品或行动结果给主体所带来的满足程度。这个满足程度与物品的量或刻画行动结果的参数之间是一个函数关系,这便是效用函数。
然而,我们所采取的行动与结果及效用之间往往是不确定性关系。我进行房产投资,是否能够从房价上涨中获益,这是不确定的;我将钱存入银行,获得本金及利息的确定性稍高,但没人能够保证这种确定是百分之百。如何刻画这种不确定性决策?
参与人决策的类型:确定性决策与不确定性决策。从上世纪20年代开始,拉姆齐
(F.Ramsey)、萨维奇(Savage)萨维奇和冯诺依曼等人发展了决策的期望效用理论。在确定性条件下,参与人的目标是效用最大化;在不确定性条件下决策者的目标是期望效用最大化。
博弈论的逻辑基础是贝叶斯决策理论,或主观主义决策理论。贝叶斯决策理论认为,理性决策者的行为被认为是对某个物品或结果的效用值与实现这个效用者的盖然性之间乘积的盘算。这里理性决策者所盘算或考虑的便是期望效用。这里,所涉及的两个概念效用与概率都是对主体的主观行为的度量,它们是主观值。我们说它们是主观的,指的是不同的人对同样的物品的效用评价及对同一个事件的发生盖然性能够是不同的。
效用与货币支付不成线性比例。帮助我们理解效用概念的两个决策悖论圣彼得堡悖论与交换悖论。
例2.2.圣彼得堡悖论。你和庄家进行这样一个投掷硬币的赌博。你给予庄家一定数量的赌金以进行如下赌博:若第一次硬币出现反面,游戏终止,你无所得,而若出现正面,庄家输2元给你,且赌博投继续进行;若第二次投掷硬币,硬币出现反面,游戏终止;而若出
1现正面,则庄家输给你4元,游戏继续进行??
似乎是,对你而言,预先付给庄家任何数量的金钱M进行这样的游戏,均是合算的。因为:
U1=2×1/2+4×1/4+?n×1/n+?=∞>M
是吗?
例2.3.他人的钱包总是诱人的。
1任何一个赌博都至少与一个不确定事件相关。一个公平的赌博是一个可交换位置的赌博。由于不同的人对于同一个不确定事件的配置的概率不同,对于一个人是确定性事件,对于另外一个人是不确定事件的赌博不可能是公平的。存在这样的情况,对两个人而言都有利的赌博。人们可通过设计涉及多个不确定事件的赌博而从中获利。
有两个钱包,甲乙知道,其中一个人钱包中的钱的数量是另外一个的两倍;并且他们已知道,钱的范围为5-160元。老师将钱包分给了甲和乙。甲和乙打开钱包后看到了自己钱包中钱数(看不到对方钱包中的钱的多少),假定甲钱包中的数量为20元;乙钱包中的钱包中的数量为40元。老师说:现在允许你们进行交换。问:甲、乙交换合算还是不交换合算?
分析:
对于甲,对方钱包中为40的概率为1/2,为10的概率为1/2。因此,若交换的话获得40×1/2+10×1/2=25>20。因此,交换是合理的。
对于乙:若交换,80×1/2+20×1/2=50>40.因此,交换是合理的。
但是,他们钱包中的总数是一定的,不可能通过交换双方的收益增加了。
定义。占优与被占优。对于两个策略S、S’,如果,采取S的效用在任意一个可能状态下都“不低于”采取S’的策略的效用,那么,我们说S与S’相比,S是占优策略,S’为被占优策略。
严格占优与严格被占优。如果采取S的效用在任意一个可能状态下都“大于”采取S’的策略的效用,那么,我们说S与S’相比,S是严格占优策略,S’为严格被占优策略。
例子:
S1相对于S2是严格被占优策略,S2相对于S1是严格占优策略。
注意:(1)某策略是占优的或被占优的是相对于另外一个策略而言的;因此占优策略或被占优策略是相对的。(2)该定义不要求策略下的效用是可计算的,但要求效用是可比较的(可计算的当然是可比较的,反之不成立)。
定理:理性人是不会采取严格被占优策略的。
这样,在决策中我们可以剔除或偿付剔除严格被占优策略来进行理性选择。
在实际中我们常用“策略排序法”来进行策略选择,这与剔除严格被占优策略是一致。我们通常说,“两害相权取其轻,两利相权取其重”便是策略决策法。《孙子兵法》中所体现的背后的决策原则也是策略排序法。如孙子曰:“上兵伐谋,其次伐交,其次发兵,其下攻城”,再比如“百战百胜非善之善者也,不战而屈人之兵,善之善者也”等,体现了孙子的从多种可选的策略中尽可能地确定上策。
第4节 多标准下的博弈分类
根据不同的标准,博弈分为静态与动态;完全信息与非完全信息;合作与非合作博弈。零和与非零和。
静态博弈和动态博弈。静态博弈指参与人同时采取行动,或者尽管参与人行动的采取有先后顺序,但后行动的人在行动时不知道先采取行动的人采取的是什么行动。动态博弈指参与人的行动有先后顺序,并且后采取行动的人在行动决策时可以观察到先采取行动的人所采取的行动。
合作性博弈和非合作性博弈。根据参与人能否形成约束性的协议、以便集体行动,博弈可分合作性博弈和非合作性博弈。纳什等博弈论专家研究得更多的是非合作性博弈。
所谓合作性博弈是指参与人从自己的利益出发与其他参与人谈判达成协议或形成联盟,其结果对联盟形成方均有利;而非合作性博弈是指参与人在行动选择时无法或没有达成约束性的协议。企业的形成、政治联盟的构建等都是合作性的博弈,而囚徒困境以及本书后面所讨论的公共资源悲剧都是非合作性的博弈。
从知识的拥有程度来看,博弈分为完全信息博弈和不完全信息博弈。信息是博弈分析所要涉及到的重要的内容。完全信息博弈指参与人对所有参与人的策略空间及策略组合下的支付有“完全的了解”,否则是不完全信息博弈。严格地讲,完全信息博弈是指这样的博弈,参与人的策略空间及策略组合下的支付是博弈中所有参与人的“公共知识”,否则是不完全信息博弈。
零和博弈与非零和博弈。所谓“零和博弈”是指,博弈各方在各种可能性下的得益之和均为一常数零;常和博弈是指,博弈各方在各种可能性下的所得之和为一个非零常数;而“变和博弈”指的是博弈各方在不同情况下的所得之和为变数或变量。
思考题:
1. 给出一个身边的博弈,给出它的博弈要素。
2. 分别给出动态博弈与静态博弈、零和博弈与非零和博弈、合作与非合作的博弈例子。
范文三:博弈论-博弈的基本分类
博弈基本的分类
北京邮电大学副 授教博、 高士丛 agoocg@nubpt.deuc.n
利益
交是易的提前
? ? ? 交易?利(益rtde aenbfeti) 留价保格(rserveaitonp ric)e经济 成本(ecoomicn ocs)t 会成本计acc(untoig ncos)
t
评价
(avuatloni
)? ? ? ? 有私信息(rpvati ineofmrtioan 消)费者市场益得(cnoumses’r srpuul)s生产 市者场益得produ(cres’s urlus) p供提曲(线ffeor curve
博弈)基本分的
?类 ?? 同?时决(simu策tlneoua—smve gomesa) 态静弈博(sttic gamae)s先 后策(sequenti决a—mlveoga me) s态动博(弈ynadmi gcmaes)
是清楚否各对种局情况下 每局个人的中益得
?全完息信博(g弈meas of cmpleoe itfonrmatoi)n? 完不全息信弈(g博mea of iscnmoplte enfioratmino ) 共?同识(知cmoon knomwelged)
四
部分内大容?
全信完的息态静博弈(tatsic ameg sofc mpoelt iefnomraito)n ? 完信息的动态全博弈(dnymia cgamse f ocopmelte nfirmatoin)o? 不全信完的静息态弈(s博ttiac games o incomplefet ifnromaitno )?不 全完信息动的态弈(博ydamnc gaiesm fo niocmplet ienormaftio)
n
动
博弈态?
完美信息 博弈(amge siwt phefrec itnofmariton)? 不完美 信博息弈(ameg sitw hmpirefce tifnrmatoon)
i
弈博分类
的?完全 并完美信息且博(弈agms eo compfetl ean perdfcte inofmratoi) ?n完全 但是完美不博弈g(mesaof c omlpeetb ut mpierfetci nofratiom)n? 不完全 但完美是信息博(gam弈es of niomplcete ut perbect fifonmatior) ?n不完全 并不完美且信息博弈g(mase fo nciopleme andti pmrfeectinf rmotiano
)博弈的分
? 类? ?? 和零弈博z(eo-srumg mae)非零和博 (n弈no-ero-zsmuga me )常博和(c弈ontasnt-sum ameg )变和博弈(vaiabrl-suemgame )
博弈
的分
类?合 博作弈coopera(tiv geaem ? )合作博弈非n(o-nocoepraitv egam)e
范文四:第二章 博弈论的假定与博弈分类
第二章 博弈论的假定与博弈分类
第1节 博弈的定义及构成要素
先看一个例子。
例2-1.囚徒困境. 两个共同作案偷窃的小偷被警察抓住,被带进警察局单独关押。他们面临的“政策”是“坦白从宽,抗拒从严”,具体的政策是:如果一方与警方合作,招认并供出自己与对方以前所做违法之事,而对方不招认,招认方无罪释放,不招认的另一方则会被判重刑10年;如果双方都与警方合作共同招认,各被判刑5年;而如果双方均不承认有罪,因警察找不到他们以前违法的证据,只能对他们的小偷行为进行惩戒,各被判刑3个月。这两个小偷如何作出选择?
这个博弈便称为囚徒困境博弈(prisoners ’ dilemma )。普遍认为,囚徒困境最先是由普林斯顿大学的塔克(Albert Tucker)教授于20世纪50年代提出的。这个博弈模型是一类现实原型的抽象,该博弈被广泛地讨论;在后面我们将详细地分析它。
上述直观的博弈表述方式被称为支付矩阵,用之可表示2人博弈。该矩阵为诺贝尔奖获得者托马斯?谢林最先使用的,该发明对于博弈论的普及意义重大。
我们说过,一个博弈是其收益相关的两个或两个以上的参与人的策略互动。在博弈的标准式表示中,每个参与人同时选择一个策略,所有参与人选择策略的组合决定每个参与人的收益。形式地,一个博弈可定义为:
定义2.1. 在一个n 人博弈的标准式中,一个博弈可定义为:G={S1,S 2,?,S n ; u 1,u 2, ?,u n },其中S 1,S 2,?,S n 为参与人的策略空间;u 1,u 2, ?,u n 为参与人的收益函数。
因此,简单地说,一个博弈涉及:第一,两个或两个以上的参与人;第二,参与人的策略空间;第三,收益。
对于以上述形式描述或定义的博弈,其“解”是什么?为了得到“解”概念,我们得先给出博弈论基本假定。
第2节 博弈论中的基本假定
基本假定:在博弈中每个参与人是理性的是博弈参与人之间的公共知识。
这里涉及两个问题:第一,什么是理性;第二,什么是公共知识。
我们先回答第二个问题。我们说:一个命题p 是公共知识是指,每个人知道p, 且每个人知道p, 每个人都知道p, ??或者p 是公共知识指,每个人知道p 且每个人知道p 是公共知识。在下面的章节中我们会详细地讨论这个概念。
但对于第一个问题“什么是理性的”,我们很难给出准确回答。理性本指推理要符合逻辑规则。在决策中,这里的逻辑规则是广义的,它不仅包括形式逻辑的推理要求,而且包括决策规则。
对之,迈尔森说:“如果一个决策者在追逐其目标时能够前后一致地做决策,我们就称他是理性的(rational )。”这样,理性意味着逻辑一致性或无矛盾性。同时他说:“在基于
决策理论的基本结论而建立起来的博弈论中,我们假设每个局中人的目标是追求其个人期望支付值的最大化,支付则是用某个效用尺度来度量的。”(P2)这样,理性决策者应该按使自己的期望支付最大化的方式去做决策。
由于一个博弈涉及多个理性主体,由此,博弈论是研究交互理性(Interactive Rationality )。
第3节 参与人的目标:最大化期望效用
人们采取行动是为了获得收益,在不同行动进行权衡其目的在于获得最大收益。我们如何刻画收益呢?我们往往用效用来刻画收益。
效用是某个物品或行动结果给主体所带来的满足程度。这个满足程度与物品的量或刻画行动结果的参数之间是一个函数关系,这便是效用函数。
然而,我们所采取的行动与结果及效用之间往往是不确定性关系。我进行房产投资,是否能够从房价上涨中获益,这是不确定的;我将钱存入银行,获得本金及利息的确定性稍高,但没人能够保证这种确定是百分之百。如何刻画这种不确定性决策?
参与人决策的类型:确定性决策与不确定性决策。从上世纪20年代开始,拉姆齐
(F.Ramsey )、萨维奇(Savage )萨维奇和冯诺依曼等人发展了决策的期望效用理论。在确定性条件下,参与人的目标是效用最大化;在不确定性条件下决策者的目标是期望效用最大化。
博弈论的逻辑基础是贝叶斯决策理论,或主观主义决策理论。贝叶斯决策理论认为,理性决策者的行为被认为是对某个物品或结果的效用值与实现这个效用者的盖然性之间乘积的盘算。这里理性决策者所盘算或考虑的便是期望效用。这里,所涉及的两个概念效用与概率都是对主体的主观行为的度量,它们是主观值。我们说它们是主观的,指的是不同的人对同样的物品的效用评价及对同一个事件的发生盖然性能够是不同的。
效用与货币支付不成线性比例。帮助我们理解效用概念的两个决策悖论圣彼得堡悖论与交换悖论。
例2.2. 圣彼得堡悖论。你和庄家进行这样一个投掷硬币的赌博。你给予庄家一定数量的赌金以进行如下赌博:若第一次硬币出现反面,游戏终止,你无所得,而若出现正面,庄家输2元给你,且赌博投继续进行;若第二次投掷硬币,硬币出现反面,游戏终止;而若出现正面,则庄家输给你4元,游戏继续进行??1
似乎是,对你而言,预先付给庄家任何数量的金钱M 进行这样的游戏,均是合算的。因为:
U1=2×1/2+4×1/4+?n ×1/n+?=∞>M
是吗?
例2.3. 他人的钱包总是诱人的。
1 任何一个赌博都至少与一个不确定事件相关。一个公平的赌博是一个可交换位置的赌博。由于不同的人对于同一个不确定事件的配置的概率不同,对于一个人是确定性事件,对于另外一个人是不确定事件的赌博不可能是公平的。存在这样的情况,对两个人而言都有利的赌博。人们可通过设计涉及多个不确定事件的赌博而从中获利。
有两个钱包,甲乙知道,其中一个人钱包中的钱的数量是另外一个的两倍;并且他们已知道,钱的范围为5-160元。老师将钱包分给了甲和乙。甲和乙打开钱包后看到了自己钱包中钱数(看不到对方钱包中的钱的多少),假定甲钱包中的数量为20元;乙钱包中的钱包中的数量为40元。老师说:现在允许你们进行交换。问:甲、乙交换合算还是不交换合算?
分析:
对于甲,对方钱包中为40的概率为1/2,为10的概率为1/2。因此,若交换的话获得40×1/2+10×1/2=25>20。因此,交换是合理的。
对于乙:若交换,80×1/2+20×1/2=50>40.因此,交换是合理的。
但是,他们钱包中的总数是一定的,不可能通过交换双方的收益增加了。
定义。占优与被占优。对于两个策略S 、S ’,如果,采取S 的效用在任意一个可能状态下都“不低于”采取S ’的策略的效用,那么,我们说S 与S ’相比,S 是占优策略,S ’为被占优策略。
严格占优与严格被占优。如果采取S 的效用在任意一个可能状态下都“大于”采取S ’的策略的效用,那么,我们说S 与S ’相比,S 是严格占优策略,S ’为严格被占优策略。
例子:
S1相对于S2是严格被占优策略,S2相对于S1是严格占优策略。
注意:(1)某策略是占优的或被占优的是相对于另外一个策略而言的;因此占优策略或被占优策略是相对的。(2)该定义不要求策略下的效用是可计算的,但要求效用是可比较的(可计算的当然是可比较的,反之不成立)。
定理:理性人是不会采取严格被占优策略的。
这样,在决策中我们可以剔除或偿付剔除严格被占优策略来进行理性选择。
在实际中我们常用“策略排序法”来进行策略选择,这与剔除严格被占优策略是一致。我们通常说,“两害相权取其轻,两利相权取其重”便是策略决策法。《孙子兵法》中所体现的背后的决策原则也是策略排序法。如孙子曰:“上兵伐谋,其次伐交,其次发兵,其下攻城”,再比如“百战百胜非善之善者也,不战而屈人之兵,善之善者也”等,体现了孙子的从多种可选的策略中尽可能地确定上策。
第4节 多标准下的博弈分类
根据不同的标准,博弈分为静态与动态;完全信息与非完全信息;合作与非合作博弈。零和与非零和。
静态博弈和动态博弈。静态博弈指参与人同时采取行动,或者尽管参与人行动的采取有先后顺序,但后行动的人在行动时不知道先采取行动的人采取的是什么行动。动态博弈指参与人的行动有先后顺序,并且后采取行动的人在行动决策时可以观察到先采取行动的人所采取的行动。
合作性博弈和非合作性博弈。根据参与人能否形成约束性的协议、以便集体行动,博弈可分合作性博弈和非合作性博弈。纳什等博弈论专家研究得更多的是非合作性博弈。
所谓合作性博弈是指参与人从自己的利益出发与其他参与人谈判达成协议或形成联盟,其结果对联盟形成方均有利;而非合作性博弈是指参与人在行动选择时无法或没有达成约束性的协议。企业的形成、政治联盟的构建等都是合作性的博弈,而囚徒困境以及本书后面所讨论的公共资源悲剧都是非合作性的博弈。
从知识的拥有程度来看,博弈分为完全信息博弈和不完全信息博弈。信息是博弈分析所要涉及到的重要的内容。完全信息博弈指参与人对所有参与人的策略空间及策略组合下的支付有“完全的了解”,否则是不完全信息博弈。严格地讲,完全信息博弈是指这样的博弈,参与人的策略空间及策略组合下的支付是博弈中所有参与人的“公共知识”,否则是不完全信息博弈。
零和博弈与非零和博弈。所谓“零和博弈”是指,博弈各方在各种可能性下的得益之和均为一常数零;常和博弈是指,博弈各方在各种可能性下的所得之和为一个非零常数;而“变和博弈”指的是博弈各方在不同情况下的所得之和为变数或变量。
思考题:
1. 给出一个身边的博弈,给出它的博弈要素
20世纪彩电大战: 竞赛参与者:长虹,tcl ,康佳,创维 策略空间: 长虹降价,后三者结成彩电联盟坚持不降价,但康佳后来突然改变主意 结果:1996-2000期间彩电行业全体亏本
2. 分别给出动态博弈与静态博弈、零和博弈与非零和博弈、合作与非合作的博弈例子。
1 囚徒困境的解说 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。
囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择:
若对方沉默时,背叛会让我获释,所以会选择背叛。
若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。
二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。
这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。
2 圣彼得堡悖论的解说
实际的投掷结果和计算都表明,多次投掷的结果,其平均值最多也就是几十元。正如Hacking (1980)所说:
“没有人愿意花25元去参加一次这样的游戏
圣彼得堡悖论
。我们需要承认它的期望值是无穷大;而实际上它的均值又不可能是无穷大,因为它是样本均值,样本均值随着样本容量的增加,以概率收敛于其期望值。
圣彼得堡悖论对于奖金额大小没有限制,比如连续投掷40次才成功的话,奖金为1.1万亿元。但是这一奖金出现的概率极小,1.1万亿次才可能出现一次。实际上,游戏有一半的机会,其奖金为2元,四分之三的机会得奖4元和2元。奖金越少,机会越大,奖金越大,机会越小。如果以前面 Hacking 所说。花25元的费用冒险参与游戏将是非常愚蠢的,虽有得大奖的机会,但是风险太大。因此,考虑采用风险厌恶因素的方法可以消解矛盾。
3 他人的钱包总是诱人的
张葵虽然知道自己的钱包里有多少钱,但不知道同学李奎的,他想:对方要么是我的1/2,要么是我的2倍,如果是前者,那么我损失了一半;如果是后者,那么我增加了一倍,一倍的收益大于一半的损失,所以这个赌是划算的。李奎也是这样想,于是两个人都愿意打这个赌。我们可以用数字更详细说明一下两人的判断:比如,张葵钱包里装的是10元(于是他估计他要么得到5元,要么得到20元,前者损失了5元,后者得到10元,也就是说,在对等情况下,他的收益比损失多5元) 。
但是如果你和某人玩猜硬币,正面朝上输1元,背面朝上赢2元,这个赌应该打,因为哪一面朝上的几率相同,而收益则大大多于损失,如果多玩几次,你的所得肯定大于所失。只是恐怕没有人愿意和你这样玩。
这里出了问题:既然没有人愿意打一个必输的赌,那么交换钱包为什么却是双方自愿的呢?为什么别人的钱包更诱人了?双方交换钱包,不可能使他们的结果都有所改善,因为用来分配的钱不可能交换一下就变多了。
假如张葵和李奎都是理性的,而且估计对方也是这样,那就永远不会发生交换的事情。这一推理过程在于它假设对方交换钱包的意愿不会泄露任何信息。我们通过进一步考察一方对另一方思维过程的看法,就能解决这个问题。首先,我们从张葵的角度思考李奎的思维过程。然后,我们从李奎的角度想像张葵可能怎样看待他。最后,我们回到张葵的角度,考察他怎样看待李奎怎样看待对自己的看法。
假定张葵知道自己的钱包里有160元,多于一般水平(比如他装这么多钱是为了到饭馆吃一顿大餐,或者要交纳某项费用) ,在这种情况下,他知道他的数目比较大,而对方钱包里装着320元的可能性很小,也就不愿加入交换。既然张葵在160元的时候不愿交换,李奎应该在他80元的时候拒绝交换,因为张葵惟一愿意跟他交换的前提是张葵只有40元,若是
这种情况,李奎一定更想保住自己原来的80元。不过,如果李奎在80元的时候不愿交换,那么张葵就不该在40元的时候交换钱包,因为交换只会在李奎只有20元的前提下发生。
如果双方掌握了信息(一个人的钱包里一般情况下装多少钱) ,就会作出理性的决策。相反,无法获取真实有效的信息往往就会做出错误的判断,这就是很多人在博弈中常犯的错误。
范文五:1.3.2博弈的分类
博弈的分类
博弈的形式各种各样,内容非常广泛。我们按照博弈所具有的 不同特征,采用分类研究的方法,将博弈问题分为如下类型:
一、合作博弈与非合作博弈
博 弈 论 按 照 参 与 人 之 间 有 没 有 具 有 约 束 力 的 协 议 (binding agreement ) 分为合作博弈和非合作博弈。 合作博弈 主要研究人们达成 合作的条件及如何分配合作得到的收益, 即 收益分配 问题; 非合作博 弈 研究人们在利益相互影响的局势中如何决策使自己的收益最大, 即 策略选择 问题。
合作博弈和非合作博弈的 区别 在于人们的行动为相互作用时,参 与人能否达成一个具有约束力的协议。若有,就是合作博弈;否则就 是非合作博弈。 例如, 两个寡头企业,如果他们之间达成一个协议, 意向是联合起来最大化垄断利润, 且各自按该协议生产, 即是合作博 弈, 其面临的问题是如何分享合作带来的增益。 但若两个企业间的协 议不具有约束力, 即没有哪一方能强制另一方遵守该协议, 每个企业 都只选择自己的最优产量(或价格等),则是非合作博弈。另外,合 作博弈强调的是团体理性、效率、公正和公平。非合作博弈强调的是 个人理性、个人最优决策,其结果可能是“理想”的,也可能是“不 理想”的。
现代的经济学家所谈的 博弈论在不做特殊说明的前提下一般指 非合作博弈 , 因为合作博弈论远比非合作博弈论复杂, 在理论上的成
熟度也远远落后于非合作博弈论, 所以现在的博弈论在理论上多注重 对后者的研究。
二、 完全信息与不完全信息博弈
按照参与人 是否清楚各种博弈策略的选择, 对成败利益的得失是 否有充分了解 , 分为完全信息博弈和不完全信息博弈。 如果参与人清 楚各种博弈策略的选择, 对成败利益的得失有充分了解, 则该博弈称 为完全信息博弈;反之,则称为不完全信息博弈。
三、 静态博弈与动态博弈
静态博弈是指局中人 同时 采取行动, 或者尽管有先后顺序, 但后 行动者 不知道 先行动者的策略的博弈; 动态博弈是指双方的行动有先 后顺序并且后行动者 可以知道 先行动者的策略的博弈。 在四人进行的 扑克牌游戏中,每个当事人所面临的是一场“完全无信息”的多人动 态博弈;而在桥牌比赛中, 每个当事人则面对的是一个“不完全无信 息”博弈(有一定量信息,因为有一个人要摊牌) 。在各种广为流传 的棋谱中, 要分析每一种可能的情况, 即分析对局者在每种局势下的 最佳走法,实际上进行的是二人轮流进行的“动态最优”博弈。 四、 常和博弈与非常和博弈
在每一个局势中, 全体局中人的 收益相加 是一个常数的博弈, 称 为常和博弈;否则,称为非常和博弈。
五、 结盟博弈与不结盟博弈
按照局中人 是否结盟 情况, 还可以将博弈分为结盟博弈与不结盟 博弈。