范文一:博弈论基础及其应用
第一讲 博弈论基础及其应用 一.要学点博弈论 1.几个富有启发性的案例
(1)商家作出最低价格承诺的真相是什么?所谓最低价格承诺是指商家承诺自己的价格比任何对手都低,一旦有对手的价格比自己低,作承诺的商家将退回差额,并且承诺支付一定金额的违约罚金。
思考:商家为什么要作出这种承诺呢?是为了促销或者恶性竞争吗?
(2)假设有三个候选人或候选方案:x、 y 和z;有三个参加投票的人:甲、乙、丙。三个人对候选对象的态度分别如下:甲:x y z;乙:y z x;丙:z x y。(注:候选对象排位越靠前,表示越喜欢)
现在分别有三个投票程序:程序1,x与y先pk,然后胜利者进入下一轮与z进行pk;程序2,x与z先pk,然后胜利者进入下一轮与y进行pk;程序3,z与y先pk,然后胜利者进入下一轮与x进行pk。
思考:(1)上面每个程序的最终获胜者是谁?(2)为了保证丙自己心目中最喜欢的z当选,如果丙能够操纵投票程序,他应该采用哪个投票程序?(3)如果您是甲,为了避免自己最不
喜欢的丙当选,应该怎么办?
(3)配硬币博弈的启示
乙
甲 正面 反面
A.配硬币博弈属于典型的零和博弈,它的制胜要点:a,切忌自己的行为有规律性,应该使自己的策略选择具有随机性,即采用混合策略(即以某个概率分布随机选择自己的策略)而已;b,绝对不能让对手知道自己的选择,能骗则骗,博弈双方没有通过沟通、交流、谈判实现双赢的可能;c,看看对手的行为选择是否具有规律,或想方设法获知对手的选择;d,猜硬币博弈具有后发制人的优势。
B.配硬币博弈的若干重要应用场合:a,是否监控员工就有可能演变成猜硬币博弈博弈:单位有时监控员工,员工有时会偷懒或偷单位的东西;b纳税人与税务部门也可能玩猜博弈博弈:税务部门可能查税,纳税人有时偷税。c,两军对垒时最容易出现猜硬币
博弈,如二战时同盟国与纳粹在确定登陆地点时就存在配硬币博弈。
(4)斗鸡博弈的启示 案例
白军
红军 进攻 后退
A.斗鸡博弈的制胜要点:a,重要的不是自己是不是男子汉,是不是勇敢,而是要想方设法让对手相信你是勇敢的男子汉,在这里,通常感觉就是现实(想一想有哪些办法?如烧钱)。b,一定想想对手会认为你是个什么样的人,在博弈中参与人通常要根据对手认为你会怎么做来决策。c,一定要认真判断对手是否是真正的勇敢的男子汉,一旦双方的判断失误,有可能出现两败俱伤的局面,在这里双方也不存在通过沟通交流避免伤害的可能。d,猜硬币博弈与斗鸡博弈在博弈策略上的比较:前者要能骗则骗,要有所隐瞒;后者则只有在进攻态度不坚决时才会试图有所隐瞒,否则就
应该让对手知道你一定会进攻,以不战而屈人之兵。故在猜硬币博弈中一定要做好保密工作,而在斗鸡博弈中不应该完全拒绝对手的打探,因为完全不欢迎对手的打探等于告诉对手你不是勇敢的男子汉。e,斗鸡博弈具有先发制人的优势。
B.斗鸡博弈的若干重要应用场合:a,在军事与家庭生活中存在诸多斗鸡博弈的情形;b,市场进入存在大量的斗鸡博弈(如沃尔玛的发家与第三次农村包围城市)。
体会:什么是纳什均衡?纳什均衡的特点就是:在均衡状态下没有人愿意单方面改变自己的策略,也就是说,博弈各方所选择的策略互相构成了最优反应。
(5) 协调博弈的启示
乙
甲 左
右
A.协调博弈的制胜要点:公开、诚实、信任与沟通是协调博弈中成功的秘诀,a,让别人知道你的选择,并千万要履行自己的承诺(与猜硬币博弈进行对比);b,相信你的对手(与斗鸡博弈进行对比);c,双方多沟通交流,并形成共识(习俗惯例就是协调博弈中大家的共识,不过这是一个大规模的协调博弈而已);d,做跟别人一样的事情,很多事情我们之所以要做是因为别人都在做这件事。
思考:习俗具有什么功能?为什么习俗如此地稳固,且大家无需强制就会自觉自愿地遵守它?这对组织文化、企业文化建设具有什么启示?
B.协调博弈的若干重要应用场合:(1)选择约会地点;(2)交通规则的确定;(3)行业共同标准的确定。
(6).信任博弈(trust game)的启示
乙
甲 推
不推
A.信任博弈与协调博弈的比较
a,二者非常类似,均要协调双方的行为。b,二者的差异在于信任博弈中参与人有退路,即每个参与人均存在安全策略,而协调博弈一旦协调不成功,就没有退路了。
B.信任博弈的制胜要点:a,在信任博弈中怀疑是致命的,连怀疑别人心存怀疑都是致命的;b,在信任博弈中,要实现博弈双方的协调,仅有互信还不够,还必须形成相互之间的无穷互信链条,即互信是双方的公共知识。这个博弈再一次告诉我们,自己做一个正直的、可靠的人还不够,必须让别人相信你是个正直可靠的人;这个博弈也告诉我们沟通互信的重要性。
C.信任博弈的若干重要应用场合:员工采取某项针对管理层的集体行动时经常属于信任博弈。
(7)开店博弈的启示
假设顾客均匀分布在一条街上,他们总是选择到离自己家最近得的商店购物;现有两位投资者均准备在街上开店,他们都希望到自己商店购物的顾客越多越好。请问:投资者应该把商店开在哪里?
A.开店博弈的启示:a,开店要扎堆,而且要扎在中心地带;b,商业中心是商家博弈自发的结果,政府打造商业中心应该顺应这一规律。
B.开店博弈在政治领域的启示:a,你的竞选纲领应该持中间派立场;b,你的竞选纲领应该模棱两可,使得左右两派都能从中找到对自己有利的解释。不过,这种人也许不值得成为朋友。
(8)智猪博弈的启示
小猪
大猪
按
等 问题:该博弈最终的结局会是什么样的?
智猪博弈在公共产品问题的分析中有着非常重要的应用价值。
(9) 夫妻博弈的启示
妻
夫 足球
芭蕾
思考:夫妻博弈最有可能出现的结局是什么?丈夫如何保证获得自己理想的结果——夫妻一起去看足球?妻子有没有办法扭转这一被动局面?
结论:看似非理性的选择实际上高度理性。 美苏冷战博弈
A.冷战时期(1949——1989)美苏为争夺对欧洲的控制权发生冲突。假设美国不在欧洲部署军队。此时,如果苏联不发动进攻,则双方各得3。如果苏联发动进攻,美国不反击,则苏联得5,美国得1;如果美国反击,则各得-2。
问题1:一旦苏联发动攻击,美国会选择反击吗?本博弈的结局是什么?
问题2:如果美国总统在欧洲部署少量的部队(所谓“用来战斗,人数太少;如果死伤,人数又太多”),能够有效地阻止来自苏联的攻击吗?
B.减少自己的选择
a,减少自己的选择又称“破釜沉舟”或称“自断退路”。Cortez攻占Aztecs曾经使用此招,但比中国迟了一千多年。色诺芬也许从另一个角度认识到了破釜沉舟。
b,破釜沉舟的关键不在于激励自己的部下,而在于让对手知道自己的承诺是可信的(如肯定不会后退,不会背弃盟友等)。所以,必须让自己的对手知道你在破釜沉舟。
c,破釜沉舟有着非常广泛的应用:如有能力的员工在与公司进行薪水谈判时,到处声称一旦不加薪就离职。
2.体会:什么是博弈?
(1)参与博弈的各方在利益上存在或多或少的冲突、差异,这是形成博弈的基本要素。
(2)参与博弈的各方所获得的最终结果既取决于自己的决策,也取决于对手的决策。
(3)参与博弈的任何一方在决策时必须考虑对手的反应并根据对手的反应来制定自己的最佳策略(思考:为什么田忌赛马不是博弈?因为齐王根本没有博弈的意识)。
经典的博弈现象:棋牌游戏、体育比赛、战争、商战、竞选。世界只要有两个人的地方就一定有博弈,但千万不要以为博弈就是勾心斗角、你争我夺。
3.博弈论就是要告诉人们如何在利益存在冲突的世界里,如何为自己制定合理的博弈策略;如何实现博弈各方的合作。其中后者是更加重要的。
二.博弈论的经典——囚徒困境及其应用 1.经典案例:囚徒困境
乙
甲 坦白
不坦白
2.囚徒困境理论的启示之一:双方的最佳策略均是“坦白”,然而双方得到的结局却是最糟糕的,它说明个人理性与社会理性、个人选择与社会选择存在深刻的冲突;它说明许多具有广泛性的集体性的悲剧并不是像常人想象的那样是人们素质低、愚昧的结果,而是一种囚徒困境。
3.囚徒困境理论启示之二——如何打造诚信社会
(1)为什么中国的商业诚信问题如此之多?流行的观点有两个,一是礼崩乐坏,二是法律惩治与政府监管力度太小。
(2)博弈论对诚信与合作的解释:决定人与人之间是否合作的关键也许是双方的博弈是否重复。所谓重复博弈就是指双方多次玩相同的博弈。
A.一次性博弈由于缺乏来自未来的奖惩机会,可能刺激博弈双方选择不合作。
B.重复博弈由于存在未来的奖惩机会,会刺激博弈双方选择合作,但是有两个前提条件:一是双方都看重未来的长期利益;二是每一次博弈结束后双方均认为存在下一次继续博弈的机会,即博弈是无限重复的。
C.在中国,改善商业伦理环境的重要途径之一就是鼓励与发展重复博弈,这更主要的是依赖博弈参与人自己的努力。
(3)在重复博弈中一定要警惕“最后一次不合作现象”,几乎所有的商业欺诈都与“最后一次不合作”有关。
(3)囚徒困境的启示之三——如何利用囚徒困境为公司服务?a,其实我们每个人都从囚徒困境中大获其利,因为没有企业间的竞争就没有消费者的今天,而许多竞争其实就是企业间的囚徒困境;也正是因为有了囚徒困境,才使得寡头之间的勾结难以成功。b,让你的员工处于竞争中。相对业绩考核其实就是利用了囚徒困境来调动员工的工作积极性。c,在利用囚徒困境为你服务时,一定要记住:囚徒困境必须和赏罚有关(如对供应商说,谁的更便宜就买谁的);尽可能在对手之间制造不信任、制造混乱。
三.政府配置资源一定就只能使用英国式拍卖吗?
1.基本的拍卖方式
(1)英国式拍卖:买方由低到高公开竞价,出价最高者获得拍卖品,并且以最高出价作为拍卖的成交价。
(2)荷兰式拍卖:拍卖主持人由高到低公开叫价,第一个应价的买方获得拍卖品,并且以他的应价作为成交价。
(3)密封第一价格拍卖:所有参与拍卖的买方向拍卖人递交密封的报价,出价最高者获得拍卖品,并以最高出价作为成交价。
(4)密封第二价格拍卖又称为“维克里拍卖”:所有参与拍卖的买方向拍卖人递交密封的报价,出价最高者获得拍卖品,但他只需要支付第二高的价格,即以整个报价中的第二高报价作为
拍卖的成交价。
2.政府拍卖的基本特点:共同价值拍卖——拍卖品的价值具有共同性、不确定性、非独立性;在英国式拍卖下要避免“倒霉的赢家”。
3.选择建议:公共资源拍卖应该尽量采用密封第二价格拍卖;不良资产的处置应该尽量采用荷兰式拍卖。
4.特别提示:拍卖的对面就是招标,即招标是负拍卖。
四.不对称信息博弈——逆向选择与道德风险
1.信息不对称的类型
(1)公共信息与私人信息
A公共信息是指博弈各方均知道的信息,且博弈双方都知道双方均了解该信息。
B私人信息是指博弈中一方知道而另一方不知道的信息。
C一旦存在私人信息,就会使得博弈双方处于信息不对称状态,一方是知情人而另一方是不知情人;信息不对称是社会生活的常态。
(2)信息不对称的两种基本类型
A隐藏知识(hidden knowledge):是指博弈参与人的类型一方知道而另一方不知道;我们既可以用博弈参与人的类型表示某个人的特征,也可以用博弈参与人的类型表示某个事物的特征;通常情况下是博弈参与人了解自己的类型而别人不了解,但也存在博弈参与人不了解自己的类型而别人反而了解的情形。
B隐藏行动(hidden action):是指博弈参与人采取的行动(如努力水平)一方知道而另一方不知道。
(3)信息不对称的后果
A隐藏知识会导致逆向选择;隐藏行动会导致道德风险。
B逆向选择一词来自于保险行业。
例如,假设投保客户可以分为低风险与高风险客户,如果是低风险客户,保险公司的收费是2000元;如果是高风险客户,保险公司的收费是8000元;但是投保客户属于何种风险类型只有他自己清楚,保险公司并不清楚,保险公司只知道客户有50%的可能性属于低风险客户,有50%的可能性属于高风险客户;于是保险公司的收费就是5000元,这样一来,低风险客户就不愿投保,保险公司吸引的都是高风险的客户,即保险市场上出现了低风险客户被高风险客户逐出市场现象。
逆向选择现象也同样会出现在其他隐藏知识场合,逆向选择其实
就是劣币驱逐良币,或者说,劣胜优汰。
阿克洛夫指出,逆向选择也许会导致市场完全崩塌。
C道德风险一词也是来自于保险行业。一个原本小心翼翼开车的低风险客户,在买了保险后有可能变得不再小心翼翼,这会给保险公司带来额外的风险或损失,过去人们认为这种额外的风险之所以发生,是投保人的道德素质出了问题,后来发现根源还是信息不对称问题。
道德风险也同样会出现在其他隐藏行动场合。道德风险问题一旦发生,意味着这个人采取的行动不符合对方或社会的利益。
4.信息不对称的根源
不管哪种信息不对称,其根源还是人们收集信息或观测的成本太高。
思考:如何准确理解隐藏行动?行为是否可观测,不是一个纯粹的生物学、物理学概念,而是一个经济学概念。即便在生物学、物理学上行为不能观测,但如果行为的结果(被称为“产出”)可观测,且行为的结果与行为存在一一对应的关系,那么我们就可以从结果准确推断出行为,这就相当于行为可观测。行为之所以不可观测,是因为行为的结果还要受随机因素的影响。
2.逆向选择问题的解决——如何让信息优势方讲真话?
(1)逆向选择问题的解决思路:
A.信息劣势方通过自己的调查获取更多的信息,这个方法的缺点非常明显,所以这个解决方法只能适用于一些简单情形以及起辅助性作用,难以从使信息不对称问题获得较好的解决。
B.由政府或第三方强制信息优势方充分地提供真实信息,如信息强制披露制度、强制标签制度。这个方法尽管在国内用得较多,但其效果非常令人怀疑。这个方法要奏效,必须具备一系列条件,如政府具有充分的监管能力,信息优势方是否披露了真实信息的事后验证成本对政府而言并不高,政府本身具有监管的积极性且公正无私,信息优势方不会存在说一套做一套的道德风险问题。
C.由第三方收集、提供信息。这种做法仅适合于专业化知识造成的信息不对称,在这些场合通过第三方收集、提供信息可以充分发挥专业化经济与规模经济的好处。在我国这种做法也非常普遍,如各种质量检测机构。但是这种做法要奏效,也必须满足一系列条件,如第三方是公正无私的,第三方具有足够充分的监管能力。
D.创造一种让信息优势方自愿“讲真话”的机制。
这种思路与前面三种思路的区别在于:在前面三种思路中,其实
是假设信息优势方不会自愿讲真话的;在前面三种思路中信息不对称的解决不是靠激励,而是靠其他手段,甚至是第三方的强制。 讲真话并不一定是通过言语,主要是指信息优势方的行动是否反映、提供了真实信息。
(2)让信息优势方自愿讲真话的两种基本机制
A.信号发送(signalling)机制:通过信号的发送,信息优势方主动向信息劣势方传递真实信息。这是斯彭塞开创的。
B.甄别(screening)机制:信息劣势方通过机制设计,诱使信息优势方不得不讲真话。这是斯蒂格利茨开创的。
(3)信号发送机制
A.信号发送的一个例子:产品免费维修期限
B出现信号发送机制的前提:信息优势方存在竞争。并非所有的信息优势方均会发送信号,有积极性发送信号的是高质量产品提供者或高能力者。
C信号发送机制成功的关键:信号发送成本要在不同类型的参与人之间存在显著的差异,使得这种信号不是所有人都发得出来。这样消费者就可以通过观测信号准确判断出对方属于哪种类型
的参与人。
思考:为什么在我国文凭不能成为能力的信号?为什么官员的声明、誓言不可信?为什么不能凭“衣着”取人?
不管何种类型的人均能够不费劲就发得出来的信号,也就是信号发送成本极低的信号,是无用的廉价信号,即cheap talking。
D信号发送机制的启发与应用
在一个信息不对称的社会,不要埋怨自己英雄无用武之地,不要埋怨自己没有遇到伯乐,不要埋怨别人误解你,用自己可靠的信号证明自己。
在一个信息不对称的社会,不仅要提高自己的能力以及产品质量,还要想方设法让别人相信你真正是高能力的,相信你提供的产品是真正高质量的。尽管中国的市场竞争很激烈,但中国企业的市场营销普遍缺乏积极创新良好的信号发送机制的意识。
(4)甄别机制
A甄别机制的一个例子:全赔与非全赔保险合同。
B甄别机制成功的关键:针对不同类型的参与人设计出不同的合同,即对方有几种类型,就必须提供几种合同;设计出的每种合同均应该满足激励相容条件。
激励相容是机制设计最重要的条件,在这里就是指设计出来的合
同必须满足这样一个条件,每种类型的参与人均认为选择为自己这种类型的人设计出来的合同是最佳选择,从而使得不同类型的参与人选择不同的合同,于是参与人就通过自己的行动讲真话了,对方可以通过观察行动准确判断出该参与人的类型。因此,要使得甄别机制成功有效,也许需要设计者进行精心的计算。 甄别机制实际上与信号发送机制没有什么本质的不同,除了在谁先行动上有区别外。甄别机制要有效,就必须使得不同类型的参与人做选择的成本有着显著的差异。如果选择成本有着本质的差别,那么就能够实现激励相容。
C甄别机制的启发与应用
不要抱怨别人不诚实,因为理性人通常是如果撒谎能够获利就会撒谎,机会主义是许多人的社会本性,真正有智慧的人应该通过自己巧妙的机制设计使得对方即便心存欺骗,也不得不老老实实讲真话。
我国的遴选、提拔、评级、升迁制度不合理的一个很重要的原因就是缺乏有效的甄别机制,从而无法阻止出现严重的逆向选择问题,引起了社会的广泛不满。
思考:学校在雇佣新员工、评教授中,如何设计出有效的甄别机制?
3.道德风险问题的解决——如何让人们努力工作或学习?
(1)道德风险问题的解决思路
A对隐藏行动者进行监督。这种做法在我国用得非常普遍,但这种机制存在两个问题,一是一旦监督者的监督成本非常高,监督就不可能是频繁的全方位的;二是监督者本身有没有监督的积极性,或者说,会存在监督者的监督问题。在我国,一旦面临监督者的监督问题就在监督者的上方在设一个层级更高的监督者,这种在我国非常普遍的解决问题的思路永远没有彻底解决监督者的监督问题。
B对隐藏行动者进行伦理教化。通过道德解决道德风险问题的成本非常高昂,这实际上是在改变人性,可这是我国非常推崇的一种方法,但推崇这种方法恰恰是缺乏智慧的表现。
C创造一种激励机制让隐藏行动者自愿努力工作或学习。 这种方法的实质就是尽量让人们自己监督自己。
经济学最核心的精神就是推崇这种能够个人利益与公共利益自动和谐的机制,这就是看不见的手。
(2)道德风险问题中的激励机制设计
A让隐藏行动者成为全部剩余收入的索取者。这种机制就是让另一方获得固定收入,道德风险制造者获得剩余收入,即他承担全
部的风险。这种机制要奏效必须要求隐藏行动者是风险中性的(思考:何谓风险中性?何谓风险厌恶?)。
在企业中要彻底解决监督者的监督问题,就必须让某个层级的监督者成为剩余收入索取者,即企业的所有人,这个人必须是风险中性者。所以,胆大的人就成了老板,胆大的人通常也是出资者,其出资行为也是承诺可信的一个保证。
B如果隐藏行动者是风险厌恶的,则为了激励他努力工作,只能将他的报酬与产出水平挂钩,即报酬依存于产出。这意味着隐藏行动者需要承担一部分风险。这种做法的典型有:分成制度,计件工资制度,销售人员提成制度,经理人员的股权奖励等。 这种做法实际上是告诉我们,激励合同只能依存于可观测变量。
思考:为什么小学生家长非常害怕得罪老师?为什么孩子上学以及求医时,人们喜欢找关系送红包?为什么做老师与做医生特别要强调职业道德?
五.在法不责众的情形下如何使自己的威胁变得可信?
1.案例:假设单位最多只能开除一个员工,不可能开除所有的员工,这一点也为员工所知道,那么员工就可能不害怕单位的威胁,从而不努力工作。如何解决这种问题?即如何让一个威胁激励所有人?
2.正确做法不是随机分配责任(因为一旦员工结盟,这种做法就会不奏效),而是让惩罚具有明确的连锁关系,先选一个责任最大的人,然后依次分配下去。这对管理有很重要的启示:在一个团队中应该按责任大小建立一个明确的惩罚链条,按照由大到小的顺序,依次进行惩罚。
3.思考与讨论:末位淘汰是解决这个问题的好方法吗?
六.如何增强自己的谈判力量?
1.让自己变得比对手更加有耐心。
2.最不在乎谈判成功与否的人反而拥有更大的谈判优势。
3.使用Boulwarism可以使自己“要么接受、要么退出”的出价可信。Boulwarism是GE的副总裁包尔瓦在与工会谈判时使用的策略,即提出合理价格后就拒绝继续谈判。多次使用这种策略可以为自己和公司积累起相应的声誉。这种做法的关键就是不给对手还价的机会,这种做法在很多行业、很多场合都在用。不过,更要注意的是,许多看似不能还价的地方其实能够还价。
4.你面临的谈判选择对象越多,你的谈判力量就越大。必要时,
想方设法让第三方牵涉到你的谈判中来。
5.让对手相信你已经交出了自己在谈判中的控制权(如聘请专业的谈判人员)。
6.利用边缘政策可以提高自己的谈判力量。所谓边缘政策就是把谈判引向失败边缘、把危机引向灾难边缘的做法,这种做法的实质就是做一些看起来有违自己利益的事情来使得自己的威胁变得可信,增强自己的谈判力。
七.要挟问题
1.一个著名的案例:阿拉斯加包装工人协会诉多梅尼克案
2.要挟问题在生活中极为广泛,如软件领域、如航空公司就经常被飞行员要挟,演艺公司以及俱乐部被明星要挟,垂直分工与横向分工均容易导致要挟(如著名的通用汽车公司收购费雪车身厂)。
3.要挟问题的实质:双方达成自愿合约后,契约的某一方利用另一方对他的依赖而要求修改合约,进行再谈判,以牟取额外的好处。
4.如何缓解要挟问题?
(1)签订长期合同,但长期合同存在不完备性问题(虚拟明星也许会大大缓解演艺界的要挟问题)
(2)降低专用性投资
(3)一体化
总结:经济学的思维方式——让个人利益与社会(或集体)利益自动保持一致。
拓展:经济学的两个基本假设——资源是相对稀缺的——无限资源是不需要经济学的;人是理性的——在约束条件下最大化自己的利益(它包括两层意思:自利及约束条件下的最优计算)。这是微观经济学的两个最基本的假设,前者可谓经济学的世界观,后者可谓经济学的人性观。
经济学要思考的基本问题:在一个充满着理性人的社会里,如何使有限的资源最大限度地满足人类社会的需要,使社会福利最大化,即资源的最优配置(即微观经济学要解决两个基本矛盾:有限资源与无限欲望的矛盾;个人利益最大化与整个社会资源有效利用之间的矛盾),注意:这里所说的福利是指社会或个体从拥有、消费有限资源中获得的满足,与“幸福”一词意思类似。
范文二:博弈论基础及应用
博弈论(对策论、游戏论)
博弈论又名对策论、游戏论,是一门研究互动关系“游戏”的参与者各自选择策略的科学,博弈论把这些复杂关系理论化,以便分析其中的逻辑和规律,并对实际决策提供指导和借鉴。
游戏三要素(博弈的规则、结构):
1、博弈、游戏参加者。
博弈论分析,假定参与者都是机智而理性的。
2、行为和策略空间。
博弈参与者必须知道他自己及其对手伙伴的策略选择范围,并了解各种策 略之间的因果关系。
3、有可评价优劣高下的决策行为结果。
博弈论用数字表示这类结果,并称之为支付。
支付矩阵
可以用支付矩阵(得益矩阵、收益矩阵、赢得矩阵)来描述一个博弈结构。
厂商B
厂商A 支配策略:
由于游戏参与者试图实现自身利益最大化并具有理性的决策能力,加上信息方面的假定,所以上述支付矩阵表示的博弈具有一个简单而确定的结果。从厂商A角度来说,它采取策略“下”而得到的支付总是好于“上”(2,1分别对1,0)。同样,对于厂商B来说,选择策略“左”得到的利益总是优于“右”(1,2分别对0,1)。因此,我们可以确定预期均衡选择策略是A选择“下”而B选择“左”的策略。
囚徒困境:
下面支付矩阵表示著名的“囚徒困境”游戏,从博弈论角度看,这是一个存在支配均衡的博弈;因为对囚犯
A、B来说,无论对方如何选择,“坦白”都是各自的最优选择。
虽然从两名囚犯共同利益看,最好的选择是合作,即同时选择保持沉默,然而,由于猜忌,试图获得更大好处(3个月刑期)等竞争性动机阻碍了他们达到更好的互利选择,他们面临“囚徒困境”。我们将看到,寡头垄断厂商经常面临类似的困境。
囚犯B
囚犯A
纳什均衡:
支配均衡是一个特例,并非每个博弈都存在支配均衡。下面修改的支配均衡表示博弈中,厂商A、B在选择做广告问题上存在的策略关系。其中厂商A没有支配策略,因为A的最佳决策取决于B的选择。例如,当B选择做广告时,A应当选择做广告,由此得到10而不是6的支付得益,然而,当B选择不做广告时,A应当选择不做广告,从而得到20而不是15的支付得益。假定两个厂商需要同时决策,A应当如何决策?
厂商B
厂商A 解答这个问题,A需要把自己放在B的位臵,从B的角度看什么是最好的选择,并在此基础上考虑自己的选择。支付矩阵表明B有一个支配策略:不论A选择如何,B选择做广告时利益较大(5,8对0,2),因而A可以判断B会选择做广告,而在B做广告时,A应当选择做广告,因而。均衡结果是双方都做广告。 上述均衡结果被称作纳什均衡。
纳什均衡指给定一组对手行为前提下,各博弈方存在的最佳选择;在纳什均衡状态下,只要其他参与者不变换策略选择,任何单个参与者不可能单方面通过变换策略来提高它的所获支付。美国数学家和统计学家纳什(Nash)50年代提出的折椅概念,所以称作纳什均衡。
纳什均衡和支配策略均衡的区别是:在纳什均衡下,“我(你)所做的是给定你(我)的选择我(你)所能做的最好的”。而支配均衡下,“我(你)所做的是不论你(我)的选择,我(你)所能做的更好的”。支配均衡必然是纳什均衡,纳什均衡未必是支配均衡。
一个博弈可能有好几个纳什均衡(即几组稳定并且自我坚持的策略),有时又可能不存在纳什均衡,下面左
A 重复博弈:
上面讨论的“囚徒困境”暗含所几个假定是静态所一次性的博弈,结果陷入了个体理性决策导致集体非理性结果的困境。现在我们改变条件,讨论博弈可以多次进行的重复博弈(Repeated Game
),这时,囚犯同时选择沉默有可能成为纳什均衡。
因为重复性博弈中,选择坦白的机会成本太高,可能成为不利的选择。例如:A有机会对B组成策略联盟,并对B宣布如下方针:我将选择沉默,并要求你也如此来增进各自利益;然而,如果你半途背叛选择坦白,我从下一阶段游戏开始一直选择坦白,这一方针跟A利益一致,因而是可信的。从B角度来看,如和A合作,可能每阶段得到1年监禁的较好结果;如中途变卦,固然当期可得3个月的更好结果,但此后便每次面临5年监禁的结果,显然是不利的。因而重复博弈中,“沉默”+“沉默”点可能成为双方的最佳选择,因而成为纳什均衡。——由于博弈条件由一次性变为重复性,均衡状态随之发生变化。
序列博弈
前面讨论的博弈是参与者同时选择。
在序列博弈(Sequential Game)中,各博弈方先后依次行动。
下面的支付矩阵描述了一个博弈,如果同时行动,它有两个纳什均衡(“甜,咸”或“咸,甜”)。假定A 可以先推出甜饼干(假如较快投入生产),就有了序列博弈:A先作决策,B随后选择。A决策是必须考虑竞争
厂商B
厂商A
者的理性反应;A知道不论自己推出哪种饼干,B处于自身利益会推出另一种;因而A推出甜饼干,B在给定A决策时选择咸饼干;给定B的选择,A的选择仍然最佳。结果两个纳什均衡点收敛为一个(下,左)。其中A由于具有先行者优势(First Mover’s Advantege)而得到较大利益。
中国电信、中国联通的价格竞争模型:
A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;
B(中国联通)刚成立不久,翅膀没有长硬,是政府为打破垄断鼓励竞争而筹建的,B得到了政府的一些优惠,其中就有B的价格可以比A低10%。这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。在这样的市场分配下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成了影响。这时候,A该怎么办?
B(中国联通)
A A降价、B维持,则A获利15,B损失 5,整体获利10;
A维持、B维持,则A获利 5,B获利10,整体获利15;
A维持、B降价,则A损失10,B获利15,整体获利5;
A降价、B降价,则A损失 5, B损失 5,整体损失10。
从A角度看,显然降价要比维持好,降价至少可以保证比B好,在概率均等的情况下,A降价的收益为15×50%-5×50%=5,维持的收益为5×50%-10×50%=-2.5,为了自身利益的最大化,A就不可避免地选择了降价。
从B角度看,降价也比维持好,其降价收益为5,维持收益为2.5,B也会选择降价。在这轮博弈中,A、B都将降价作为策略,因此各损失5,整体损失10,整体收益是最差的。这就是此博弈最终所出现的纳什均衡。电信业价格战博弈模型是典型的囚徒困境现象,各个局部都寻求利益的最大化,而整体利益却不是最优,甚至是最差。
许多其他行业的价格竞争都是典型的囚徒困境现象,如可口可乐公司和百事可乐公司之间的竞争、各大航空公司之间的价格竞争等等。
OPEC组织成员国之间的合作与背叛
“囚徒困境”告诉我们,个人理性和集体理性之间存在矛盾,基于个人理性的正确选择会降低大家的福利,也就是说,基于个人利益最大化的前提下,帕累托改进得不到进行,帕累托最优得不到实现。
上述我们在对电信价格竞争的博弈分析中,只是一次性的“囚徒困境”博弈,因此得到了互相降价的纳什均衡。而在现实生活当中,信任与合作很少达到如此两难的境地,无论在自然界还是在人类社会,“合作”都是一种随处可见的现象。比如中东石油输出国组织(Organizationg of Petroleum Expoting Countries 简称OPEC)的成立,本身就是要限制各石油生产国的产量,以保持石油价格,以便获取利润,是合作的产物。OPEC之所以能够成立,各组织成员国之间之所以能够合作,是因为囚徒困境如果是一次性博弈(One shot game)的话,基于个人利益最大化,得到纳什均衡解,但如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”(Folk Theorem)的含义。
但合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺(Credible commitment) ,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。如果该困境同时涉及多个对手,则要在博弈对手中形成声誉,并用心地维护这个声誉。这里“可信的承诺”是一个很牵强的翻译,“Credible commitment”并不是什么空口诺言,而是实实在在的付出。所以合作是非常困难的。 所以OPEC组织经常会有成员国不遵守组织的协定,私自增加石油产量。每个成员国
都这样想,只要他们不增加产量,我增加一点点产量对价格没什么影响,结果每个国家都增加产量,造成石油价格下跌,大家的利润都受到损失。当然,一些产量增加较少的国家损失更多,于是也更加大量生产,造成价格进一步下降--结果,陷入一个困境:大家都增加产量,价格下跌,大家再增加产量,价格再下跌……。
理论上,几乎所有的卡特尔(正是串谋在一起的厂商称作Cartel)都会遭到失败,原因就在于卡特尔的协定(类似囚犯的攻守同盟)不是一个纳什均衡,没有成员有兴趣遵守。那么是不是不可能有卡特尔合作成功了?理论上,如果是无限期的合作,双方考虑长远利益,他们的合作是会成功的。但只要是有限次的合作,合作就不会成功。比如合作10次,那么在第九次博弈参与人就会采取不合作态度,因为大家都想趁最后一次机会捞一把,反正以后我也不会跟你合作了。但是大家料到第九次会出现不合作,那么就很可能在第八次就采取不合作的态度。第八次不合作会使大家在第七次就不合作……一直到,从第一次开始大家都不会采取合作态度。
范文三:博弈论的基础知识与应用
博弈论的基础知识与应用(转)
1 基础知识 博弈论是一种独特的处于各学科之间的研究人类行为的方法。 与 博弈论有关的学科包括数学、经济学以及其他社会科学和行为科学。 博弈论(如同计算科学理论和许多其他的贡献一样)是由约翰.冯.诺 伊曼(John von Neumann)创立的。博弈论领域第一本重要著作是诺 伊 曼 与 另 一 个 伟 大 的 数 理 经 济 学 家 奥 斯 卡 . 摩 根 斯 坦 ( Oskar Morgenstern) 共同写成的 《博弈论与经济行为》 (The Theory of Games and Economic Behavior) 当然,摩根斯坦把新古典经济学的思想带 。 入了合作中, 但是诺伊曼也同样意识到那些思想并对新古典经济学做 出了其他的贡献。 ■一个科学的隐喻 由于诺伊曼的工作, 在更广阔的人类行为互动的范围内, “博弈” 成为了一个科学的隐喻。在人类的互动行为中,结局依赖于两个或更 多的人们所采取的交互式的战略, 这些人们具有相反的动机或者最好 的组合动机(mixed motives) 。在博弈论中常常讨论的问题包括: 1) 当结局依赖于其他人所选择的战略以及信息是完全的时候, “理性地”选择战略意味着什么? 2) 在允许共同得益或者共同损失的“博弈”中,寻求合作以实 现共同得益(或避免共同损失)是否“理性”?或者,采取侵略性的 行动以寻求私人利益而不顾共同得益或共同损失,这是否是“理性”
的? 3) 如果对 2)的回答是“有时候是” ,那么在什么样的环境下 侵略是理性的,在什么样的情况下合作是理性的? 4) 在特定情况下,正在持续的关系与单方退出这种关系是不同 的吗? 5) 在理性的自我主义者的行为互动中,合作的道德规则可以自 然而然地出现吗? 6) 在这些情况下,真正的人类行为与“理性”行为是否相符? 7) 如果不符,在那些方面不符?相对于“理性” ,人们更倾向 于合作?或者更倾向于侵略?抑或二者皆是? 因而,博弈论研究的“博弈”包括: 破产 门口的野蛮人(Barbarians at the Gate) 网络战(Battle of the Networks) 货物出门,概不退换(Caveat Emptor) 征召(Conscription) 协调(Coordination) 逃避(Escape and Evasion) 青蛙呼叫配偶(Frogs Call for Mates) 鹰鸽博弈(Hawk versus Dove) Mutually Assured Destruction 多数决定原则(Majority Rule)
Market Niche 共同防卫(Mutual Defense) 囚徒困境(Prisoner’s Dilemma) 补贴小商业 Subsidized Small Business 公共地悲剧 Tragedy of the Commons 最后通牒 Ultimatum 视频系统协调 Video System Coordination ■理性 新古典经济学与博弈论之间的关键链接就是理性。 新古典经济学 建基于这样一个假设之上,即人类在其经济选择行为中是绝对理性
的。确切地说,这个假设意味着每个人在其所面临的环境中都会最大 化自身的报酬——利润、收入或主观利益。在资源配置研究中,上述 假说服务于两个目的:一是稍稍缩小可能发生事物的范围;二是提供 了一个衡量经济体制效率的标准。 如果经济体制导致部分人的报酬减 少,而又没有对其他人产生更多的报偿(宽泛地讲就是成本大于收 益) ,那么在某些方面就产生了失误。污染、渔业资源的过度开发、 不恰当的资源用于研究(inadequate resources committed to research) 都是这类问题的例子。 在新古典经济学中,理性的个人面临特定的体制或制度,包括产 权、货币和高度竞争的市场。这些是个人纳入最大化报酬计算的许多 “情况”之一。财产权利、货币经济以及理想化的竞争市场的隐含意 义是经济个体不需要考虑自己与其他经济个体的行为互动。 他或她只
需要考虑自己的境况和“市场条件” 。但这导致了两个问题:一是理 论的范围受到局限。只要竞争受到限制(但没有垄断)或者产权没有 完全界定,众望所归的新古典经济学理论就不适用了,并且新古典经 济学也从未产生可接受的理论扩展以覆盖上述情况。 对于新古典经学 来说,决策是在货币经济之外做出的,这也是有问题的。 博弈论正好面对上述问题:提供一个关于人们直接(而不是“通 过市场” )互动的经济和战略行为的理论。在博弈论中, “博弈”始终 是针对人类社会严肃的互动行为的一个隐喻。 博弈论也许是关于纸牌 游戏或者棒球运动的理论,但却不是关于象棋的理论,它是关于这样 一些严肃的互动行为比如市场竞争、军备竞赛和环境污染的理论。只 不过博弈论涉及这些问题的时候使用的是博弈的隐喻意义: 在这些严 肃的互动行为中, 就象在游戏中一样, 个体的选择实质上是战略选择, 行为互动的结局依赖于每个参与人所选择的战略。通过这样的阐释, 研究“博弈”可以真正告诉我们关于严肃的互动行为的一些事情。但 是,究竟会告诉我们多少? 在新古典经济学理论中, 理性地进行选择就是要最大化自身的收 益。在某种观点看来,这是一个数学问题:在给定环境条件下选择最 大化报酬的行动。 因而我们可以把理性的经济选择当作一个数学问题 的“解” 。在博弈论中,情况就更复杂了。既然结局不仅依赖于自身 的战略和“市场”条件,也直接依赖于其他人所选择的战略,但我们 仍然可以把理性的战略选择当作一个数学问题——最大化行为互动 中的决策制定者群体的报酬——从而我们再次称理性的结果是博弈
的“解” 。 2 囚徒的困境 博弈论近来
的发展,特别是 1994 年诺贝尔纪念奖授予给三位博 弈论理论家以及 89 岁高龄的塔克(A. W. Tucker)在 1995 年 1 月的 去世,唤起了人们对博弈论创立时的回忆。尽管博弈论可以追索到更 早的时代,但其兴起的关键时期是 20 世纪 40 年代。当然, 《博弈论 与经济行为》的出版是一个特别重要的台阶。但是,在某种程度上, 塔克发明的“囚徒困境”例子更为重要。这个可以在一页纸上求解出 来的例子在 20 世纪下半叶的社会科学中可能是最具影响的一页。 这个杰出的创见并不是出自研究论文,而出自于课堂。正如 S. J. Hagenmayer 在 《费城调查者 (Philadelphia Inquirer)(“Albert W. Tucker, 》 89, Famed Mathematician,“ Thursday, Feb. 2, 1995, p.. B7)中写到: “在 1950 年,作为访问教授,塔克在斯坦福大学向由心理学家组成的听 众发表演说的时候,创造了‘囚徒困境’来说明分析某些类型博弈的 困难。塔克的简单解释导致了后来大量的文献。这些文献来自不同的 领域,比如哲学、伦理学、生物学、社会学、政治科学、经济学,当 然还有博弈论。 ” ■囚徒困境博弈 塔克是从这样一个小故事开始的:两个夜贼,鲍伯(Bob)和艾尔 (Al),在行窃现场附近被抓获并被警方隔离拷问。每个夜贼都必须选 择是否坦白和揭发对方。 如果两个贼都不坦白, 他们都将被判刑一年。 如果每个贼都坦白并揭发对方,他们都将在监狱中度过 10 年。但是,
如果一个贼坦白并揭发对方,而另一个贼不坦白,那么与警方合作的 贼将被释放而另一个贼将在监狱中度过 20 年。 在这个例子中的战略是:坦白与不坦白。赢利(payoff) (实际上 是处罚)是判刑。我们可以用“赢利表(payoff table) ”简洁地表达 上述信息,这类赢利表已经成为博弈论中很好的标准表达式。以下是 囚徒困境博弈的赢利表。 表 2-1 艾尔 坦白 鲍伯 坦白 不坦白 10,10 20,0 不坦白 0,20 1,1
这个表的读法是这样的:每个囚犯从两个战略中选择一个。即, 艾尔选择一列,鲍伯选择一行。每个单元格的两个数字告诉两个囚犯 相应的战略被选择后的结果。 逗号左边的数字表示选择行的人 (鲍伯) 的赢利,逗号右边的数字表示选择列的人(艾尔)的赢利。因此(先 阅读第一列) ,如果他们都选择坦白,每人将判刑 10 年,但是如果艾 尔坦白而鲍伯不坦白,鲍伯被判 20 年而艾尔将被释放。 那么: 怎样求解这个博弈?如果双方都想使自己呆在监狱的时间 最短,他们选择什么战略是“理性的”?艾尔可能会做这样的推理: “两种事件可能发生:鲍伯要么坦白要么保持沉默。假定鲍伯坦白, 我不坦白的话将被判 20 年,我也坦
白的话则判 10 年。另一方面,如 果鲍伯不坦白,我不坦白我被判刑 1 年,但在这种情况下,如果我坦
白我可以被释放。无论怎样,我选择坦白都是最好的。因此,我将坦 白。 ” 但是鲍伯能够而且大概也将做同样的推理——因此他们都将坦 白并且都在监狱呆 10 年。然而,如果他们“不理性”地行动,都保 持沉默,他们都可以在 1 年后被释放。 ■占优战略(Dominant Strategies) 这里发生的情况是,两个囚犯陷入了“占优战略均衡” 。 定义: 占优战略——让博弈的参与人单独地评估他面临的战略组 合中的每一个战略,并且,对于每一个组合,他从自己的所有战略中 选择一个使他赢利最多的战略。 如果对于参与人面临的每一个不同的 战略组合,参与人都选择同一个战略,这个被选择的战略就叫该参与 人在博弈中的“占优战略” 。 定义:占优战略均衡——在一个博弈中,如果每个参与人都有一 个占优战略,且每个参与人都采取占优战略,那么(占优)战略组合 及其相应的赢利被认为是构成了博弈的占优战略均衡。 在囚犯困境博弈中, 坦白是占优战略, 当两个囚犯都选择坦白时, 那就是占优战略均衡。 ■囚犯困境中需要考虑的问题 这个不同寻常的结果——两个囚犯出于自利的个体理性行动导 致双方情况变得更糟糕——在现代社会科学中产生了广泛的影响。 因 为在现代世界里有大量的行为互动与此极其相似, 从军备竞赛到道路 拥挤, 以及渔业资源贫化污染和地下水资源的过度开发等, 莫不如此。
这些行为互动在细节上有很大差异,但却如我们想象的一样,个体理 性给每个人带来了更差的结果,囚犯困境暗示了它们的发展方向。这 就是“囚犯困境”的威力所在。 当然,我们也必须坦白地承认,囚犯困境对于上述行为互动来说 是只一个非常简明扼要的概括——如果你愿意,也可说它“不切实 际” 。囚犯困境也孕育了许多对其进行批评的论点,这些论点构成了 许多学术文献的基础: 囚犯困境是二人博弈, 但是这一思想的许多应用场合是真正的多 人行为互动。 我们假定两个囚犯之间没有进行过沟通。 如果他们能够相互沟通 并谋求协调战略,我们有可能得到不同的结局。 在囚犯困境中,两个囚犯仅博弈一次。重复的博弈行为可以导致 大相径庭的结果。 导致占优战略均衡的推理也许是强制进行的, 但它并不是推导出 问题的唯一方式。也许它根本就不是最理性的答案。
3 一个信息技术的例子 博弈论提供了一个很有发展前途的方法去理解各类战略问题, 囚 犯困境及其他类似例子的简明和威力使它们有了一个自然而然的起
点。但是在更为复杂和现实的应用中,常常有一些我们必须考虑的冲 突。 怎样从一个简化的博弈转移到更现实的博弈模型?现在让我们来 看一个真实世界的战略思考的例子:选择信息系统。
这个例子中,参与人是:一个正在考虑选择新的内部电邮系统 (internal e-mail system) 或内部互联网系统 (intranet system) 的公司, 以及一个正在考虑制造它们的供应商。两个选择是:建立技术先进的 系统,或者建立一个功能简单的一般系统。我们假定更先进的系统真 的能够提供更多的功能,因此两个参与人的赢利,用户支付给供应商 的净额如表 3-1 所示。 表 3-1 用户 先进 供应商 先进 一般 20,20 0,0 一般 0,0 5,5
我们发现,如果建立先进系统,两个参与者的净收入都将更好。 (我们不是宣称现实永远如此! 我们仅仅是假设在这个特定的决策下 是如此) 。可能发生的最糟糕的情况是一个参与者确定先进系统而另 一个参与者却坚持一般系统。在这样的情况下将没有交易,大家也就 没有赢利。 为了在一起工作, 供应商和用户必须具有一个相容的标准, 既然标准的选择即战略选择,那么他们的战略必须相互吻合。 尽管第一眼看上去这很象囚犯困境博弈, 但它实际上是更复杂的 博弈。我们将逐一探讨几个复杂的方面: 仔细看一看,我们发现这个博弈没有占优战略。每个参与人的最 优战略依赖于对方所采取的战略。因而,我们需要一个新的可以容纳 这种复杂性的博弈均衡概念。当没有占优战略时,我们通常用一个叫
做“纳什均衡” (Nash Equilibrium)的概念来称呼均衡。纳什均衡是 根据诺贝尔奖得主纳什来命名得。 纳什均衡是一个非常美妙简单的思 想:给定其他参与人所选择的战略,每个参与人都选择最优战略,我 们将得到纳什均衡。例如,如果用户选择先进系统,那么供应商最好 也选择先进系统。于是(先进,先进)就是一个纳什均衡。但是,请 留意,如果用户选择一般系统,那么供应商最好也选择一般系统。这 里存在两个纳什均衡! 究竟哪一个会被选择呢?看起来选择先进系统 是更好的,因此它可能更容易出现,但是如果每个参与人都认为对方 陷在一般系统——恰如陷入泥土中的手杖之一段——那么双方选择 一般系统将是最好的。假定对方是一根陷入泥土的手杖,双方都会正 确选择的。这是一类非常危险的经典博弈,叫做“协调博弈” (coordination game) 。我们已经学习到的是,相容标准选择是协调博 弈。 我们假定赢利是确定而且大家都知道的。在现实世界,每一个战 略决策都有风险——针对先进系统的决策可能比针对一般
系统的决 策具有更大的风险。因而,要使例子完全现实化,我们还需要考虑参 与人对风险的主观态度,考虑他们的“风险规避” (risk adversion) 。 在这个例子中我们不做这样的尝试,但是我们必须把这些记在脑海 里。 在例子中我们假定赢利是以货币计量的。因而,我们不仅不考虑 风险规避,而且没有考虑无法用货币来计量的主观收益或损失。经济 学家有办法用货币项目来测度主观收益——有时候他们确实这样做
——不过, 我们将跨过这个问题并假定所有的报酬或惩罚都已经货币 计量化,并且在用户与供应商之间可以进行转移,反之亦然。 现实中,信息系统的选择可能包括两个以上的参与人,至少在长 期是如此——用户可能在几个供应商之间选择, 而供应商也可以有很 多客户。这使得协调问题更难以解决。例如,假设“beta”是先进系统 而 “VHS”是一般系统, 假设 90%的市场使用 “VHS”。 那么尽管 “beta” 是更好的系统,但仍将被“VHS”接管。许多经济学家,博弈理论家 和其他人相信,这是某种技术标准获得支配地位的原因。 (Macintosh 机 正在谱写这样的篇章。你是否能想到其他的象 beta 与 VHS 的例 子?) 另外, 例子中用户和供应商不能坐下来等待并观察对方采取什么 行动——他们可以坐下来商量,并达成协议。事实上,他们的确这样 做, 因为用户支付给供应商的金额——在此之前我们忽略了这个战略 决策——也必须达成协议。换句话说,与囚犯困境不同,这是一个合 作博弈(cooperative games),而不是非合作博弈(noncoorperative game) 。在一方面,这将使协调标准的问题变得容易,至少在短期如 此;在另一面,合作博弈需要不同的方法去求解。 4 零和博弈 从塔克发明“囚犯困境”开始,博弈论业已受到广泛关注。但是 绝 大 多 数早 期的工 作 主 要聚 焦在一 种 特 殊的 博弈上 : 零 和博 弈 (Zero-sum Gmes) 。 在早期的工作中,诺伊曼做出了一个惊人的发现。他发现,如果
玩纸牌的人最大化其报酬,他们采取欺骗来达到目的。并且,更一般 地,在很多博弈中支付是不可预知的。当然,这在本质上并无新意— —棒球投掷手早在诺伊曼写出混合战略前就知道投掷角度变换的球 了。但是诺伊曼发现的更多。他发现了一个明确而又独特的问题:在 这类没有市场、价格、产权和其他制度的博弈中,我如何最大化自己 的收益?这个问题是对新古典经济学绝对理性概念的一个主要扩展。 不过诺伊曼为他的发现付出了代价。代价就是极端简化的假定:诺伊 曼的发现仅能用于零和博弈。 例如,考虑一个叫“赌便士” (matching penni
es)的小孩游戏。 在这个博弈中, 两个参与人同意一个是 “Even(偶数)”一个是 “Odd (奇 数)。每个人同时出示一个便士,每个参与人可以展示便士的正面或 ” 反面。如果两人展示出同一面,Even 将赢得 Odd 的便士,反之如果 他们展示出不同的币面,则 Odd 将赢得 Even 的硬币。下面是该博弈 的赢利表(表 4-1) 。 表 4-1 Odd 正面 Even 正面 反面 1,-1 -1,1 反面 -1,1 1,-1
如果我们加总每单元格的赢利,我们会得到 1-1=0。这就是“零 和博弈” 。 定义:零和博弈——如果我们加总博弈的赢得和亏损,把亏损记
为负数,我们发现每一个选定战略的组合之支付加总之和为 0,这个 博弈就是“零和博弈” 。 用非正式的语言讲, 一个零和博弈即一方所得为另一方所失的博 弈。注意定义中要求每个战略组合的支付总和为 0。如果有一个战略 组合的支付加总不为 0,这个博弈就不是零和博弈。 ■另一个例子 这里有另外一个零和博弈的例子。 它是一个非常简单的价格竞争 模型。象奥古斯汀?古诺(Augustin Cournot,1840)那样,我 们考虑两个卖矿泉水的公司。每个公司在每一时期有$5000 的固定成 本,不管他们是否销售。我们随机地称这两个公司为毕雷矿泉水和阿 波里罗矿泉饮料。 这两个公司在同一个市场竞争,并且每个企业必须选择高价格 (每瓶$2)或者低价格(每瓶$1) 。以下是博弈规则: 1) 在$2 的价格上,可以出售 5000 瓶获得总收益$10000。 2) 在$1 的价格上,可以出售 10000 瓶获得总收益$10000。 3) 如果两个公司选择同样的价格,它们平分销售额。 4) 如果一个公司选择更高的价格,那么价格较低的公司得到全 部的销售量而价格高的公司一瓶也售不出去。 5) 赢利即利润——收益减去$5000 的固定成本。 以下是两个公司的赢利表(表 4-2) 。 表 4-2 毕雷矿泉水
$1 阿波里罗 $1 $2 0,0 -5000,5000
$2 5000,-5000 0,0
(自己检查一下,这是一个零和博弈) 。对于二人零和博弈,存 在一个清楚的解的概念。博弈的解就是最大化准则——即,每个参与 人选择最大化其最小赢利的战略。在这个博弈中,阿波里罗在价格$1 下的最小赢利为 0,在价格$2 下最小赢利为-5000,因此$1 最大化其 最小赢利。同样的推理适用于毕雷矿泉水,因此它们都将选择$1 的 价格。以下是最大化解背后的推理:阿波里罗知道任何情况下它所会 失去的就是毕雷所得到的;所以无论她采取何种战略,毕雷将选择使 行中支付最小化的战略。反过来,毕雷刚好进行相反的推理。 解:最大化准则——对于二人零和博弈,选择最大化其最小赢利 的战略对于每一个参与者来说都是理性的, 双方
最大化其最小赢利的 战略对子和赢利对子就是“博弈的解” 。 ■混合战略(Mixed Strategy) 现在让我们回顾一下“赌便士”博弈。这个博弈似乎没有确定的 解。 最小的赢利在两个战略下是相同的: 但是这不是全部的故事。 -1。 这个博弈可以有超过两个的战略。作为正面、反面两个明显战略的补 充,参与人可以一定的概率随机选择提供正面或反面,使其战略“随 机化” 这样的随机战略叫做 。 “混合战略” 两个显战略, 。 正面或背面, 叫做“纯战略(pure strategies) ”
古老的堆物博弈 有一种很有意思的游戏不知道你玩儿过没有, 就是有物体若干堆,可以是火柴棍或是围棋子等等均可。两个人轮流 从堆中取物体若干,规定最后取光物体者取胜。这是我国民间很古老 的一个游戏,别看这游戏极其简单,却蕴含着深刻的数学原理。下面 我们来分析一下要如何才能够取胜。 (一)巴什博奕(Bash Game) : 只有一堆 n 个物品,两个人轮流从这堆物品中取物,规定每次至少取 一个,最多取 m 个。最后取光者得胜。显然,如果 n=m+1,那么由 于一次最多只能取 m 个,所以,无论先取者拿走多少个,后取者都 能够一次拿走剩余的物品,后者取胜。因此我们发现了如何取胜的法 则:如果 n=(m+1)r+s, 为任意自然数,s≤m),那么先取者要拿 (r 走 s 个物品,如果后取者拿走 k(≤m)个,那么先取者再拿走 m+1-k 个,结果剩下(m+1) (r-1)个,以后保持这样的取法,那么先取者 肯定获胜。总之,要保持给对手留下(m+1)的倍数,就能最后获胜。 这个游戏还可以有一种变相的玩法:两个人轮流报数,每次至少报一 个,最多报十个,谁能报到 100 者胜。 (二)威佐夫博奕(Wythoff Game) :有两堆各若干个物品,两个人轮流从某一堆或同时从两堆中 取同样多的物品, 规定每次至少取一个, 多者不限, 最后取光者得胜。 这种情况下是颇为复杂的。 我们用 (ak, (ak ≤ bk ,k=0, 2, bk) 1, ...,n) 表示两堆物品的数量并称其为局势,如果甲面对(0,0) ,那么甲已 经输了,这种局势我们称为奇异局势。前几个奇异局势是: (0,0) 、 (1,2)(3,5)(4,7)(6,10)(8,13)(9,15)(11,18) 、 、 、 、 、 、 、
(12,20) 。可以看出,a0=b0=0,ak 是未在前面出现过的最小自然数, 而 bk= ak + k,奇异局势有如下三条性质:1。任何自然数都包含在 一个且仅有一个奇异局势中。由于 ak 是未在前面出现过的最小自然 数,所以有 ak > ak-1 ,而 bk= ak + k > ak-1 + k-1 = bk-1 > ak-1 。所 以性质 1。成立。2。任意操作都可将奇异局势变为非奇异局势。事 实上,若只改变奇异
局势(ak,bk)的某一个分量,那么另一个分量 不可能在其他奇异局势中,所以必然是非奇异局势。如果使(ak,bk) 的两个分量同时减少,则由于其差不变,且不可能是其他奇异局势的 差,因此也是非奇异局势。3。采用适当的方法,可以将非奇异局势 变为奇异局势。假设面对的局势是(a,b) ,若 b = a,则同时从两堆 中取走 a 个物体,就变为了奇异局势(0,0) ;如果 a = ak ,b > bk, 那么,取走 b - bk 个物体,即变为奇异局势;如果 a = ak , b ak , ak + k,则从第一堆中拿走多余的数量 a ; b= ak 即可; 如果 a
/2,可以先求出 j=[a(√5-1)/2],若 a=[j(1+√5)/2],那么 a = aj, bj = aj + j,若不等于,那么 a = aj+1,bj+1 = aj+1 + j + 1,若都不是, 那么就不是奇异局势。然后再按照上述法则进行,一定会遇到奇异局 势。 (三)尼姆博奕(Nimm Game) :有三堆各若干个物品,两个人 轮流从某一堆取任意多的物品,规定每次至少取一个,多者不限,最 后取光者得胜。这种情况最有意思,它与二进制有密切关系,我们用 (a,b,c)表示某种局势,首先(0,0,0)显然是奇异局势,无论 谁面对奇异局势,都必然失败。第二种奇异局势是(0,n,n) ,只要 与对手拿走一样多的物品,最后都将导致(0,0,0) 。仔细分析一下, (1,2,3)也是奇异局势,无论对手如何拿,接下来都可以变为(0, n,n)的情形。计算机算法里面有一种叫做按位模 2 加,也叫做异或 的运算,我们用符号(+)表示这种运算,先看(1,2,3)的按位模 2 加的结果:1 =二进制 01 2 =二进制 10 3 =二进制 11 (+) ——————— 0 =二进制 00 (注意不进位) 对于奇异局势(0,n,n)也一样,结果也是 0。任何奇异局势 (a,b,c)都有 a(+)b(+)c =0。如果我们面对的是一个非奇异 局势(a,b,c) ,要如何变为奇异局势呢?假设 a
果: a(+)b(+)(a(+) b)=(a(+)a)(+)(b(+)b)=0(+)0=0。要将 c 变为 a(+)b,只
要从 c 中减去 c-(a(+)b)即可。例 1。 (14,21,39) ,14(+) 21=27, 39-27=12, 所以从 39 中拿走 12 个物体即可达到奇异局势 (14, 21,27) 。例 2。 (55,81,121) ,55(+)81=102,121-102=19,所 以从 121 中拿走 19 个物品就形成了奇异局势(55,81,102) 。例 3。 (29,45,58) ,29(+)45=48,58-48=10,从 58 中拿走 10 个,变 为 (29, 48)例 4。 45, 。 我们来实际进行一盘比赛看看: 甲:(7,8,9)->(1,8,9) 奇 异 局 势 乙 :(1,8,9)->(1,8,4) 甲 :(1,8,4)->(1,5,4) 奇 异 局 势 乙 :(1,5,4)->(1,4,4) 甲 :(1,4,4)->(0,4,4) 奇 异 局 势 乙 :(0,4,4)->(0,4,2) 甲:(0.4,2)->(0,2,2)奇异局势乙:(0,2,2)->(0,2,1)甲:(0,2,1)->(0,1,1)奇异局 势乙:(0,1,1)->(0,1,0)甲:(0,1,0)->(0,0,0)奇异局势甲胜。
不会用博弈论害死了关羽 有人认为当时蜀国与魏、吴结怨很深,而荆州位于魏和吴夹击之 中,必然失守,诸葛亮应该认识到这一点,但还是让关羽留守荆州, 因此关羽之死诸葛亮应负一部分责任。笔者持不同的看法,从博弈论 的角度论证关羽之死责任不在诸葛亮,而在于关羽自己不会用博弈 论。 正因为荆州位于魏和吴的夹击之中,时时处于不稳定之中,才有 刘备不远千里去攻取西川,争取一个稳固的根据地。因此说守卫荆州 确实是一件难事,但并不是说肯定失守。我们可以建立一个博弈模型 来进行考虑。
当时的实力分析: (1)魏、吴单独和关羽交锋。魏、吴单独和关羽比处于下风或 至少势均力敌(从关羽和曹操的交战中可以看出这一点) ,任何一方 和关羽力拼必然损兵折将,另一方则可趁虚而入,不仅能够取得荆州 大部分地区,还避免了和关羽正面交锋的损失。设此时单独作战收益 为 X, 因为单独作战, 另一方会偷袭, 从而自己得不到荆州, X0。 (2)双方都对关羽作战,则关羽首尾不能兼顾,关羽必败。但 此时魏吴也会有一定的损失,取胜后为拼抢共同胜利的果实——荆 州,双方也会再起战事,因此此时的收益必定不如本方不战而偷袭所 得的收益,设此时双方的收益各为 Y2(0 我们可以看出,理论上,双方都力拼对魏和吴来说是最好的结果 (Y2,Y2) ,但双方都会认识到:假如对方力拼,自己的偷袭所得将 是 Y1!Y1>Y2,更坏的结果莫过于自己力拼,对方偷袭,自
己将遭 受损失(X
个博弈的纳什均衡是(0,0) ,即双方都会等待对方力拼,结果偷袭 都不会成功。这和囚徒困境是一个道理。 如果双方都是经济学上的理性人,那么结果会是(0,0) ,关羽 不会死。 但不幸的是曹操充当了傻子, 与关羽力拼, 搞得 “水淹七军” 不说,荆州九郡还全部落入孙权之手。诸葛亮则不愧为高人,看来他 那时对博弈论已经很清楚,而且运用自如(中华民族早已把博弈论运 用于战争之中,比那个纳什早了上千年) ,因此才嘱咐关羽切不可对 一方穷追猛打,否则会两面受敌,只守不攻乃为上上策。 只要听从诸葛亮的建议, 短期内荆州不会失守, 等巴蜀稳定下来, 魏、吴更会有所忌惮,不敢强攻荆州,那时荆州就会相对稳固起来。 因此说荆州是可以守卫成功的。 此时不得不提的一个人物是刘备,刘备此人对别人疑心很大。守 卫荆州最合适的人选莫过于赵云,但无奈赵云非刘备的嫡系,刘备最 信任的还是自己的结拜兄弟关羽和张飞,适才派关平来荆州,暗示诸 葛亮要关羽留守荆州。诸葛亮很熟悉关羽的个性——自傲、容易意气 用事,派他守荆州不会听从自己的建议,可能会出问题,无奈这是刘 备的意思,诸葛亮也没有办法,在临走前还千叮咛万嘱咐关羽不要冲 动,但最终关羽还是没听诸葛亮的话,死攻樊城,令陆逊偷袭成功, 导致自己败走麦城。 因此说,关羽的死并不是诸葛亮的错,而是关羽自己不会用博弈 论的结果。假如他明白其中厉害,不主动进攻,或见好就收(水淹七 军后马上收手) ,可能不会令陆逊有机可乘。
刘备也应当负一部分责任,他信不过诸葛亮的人选——赵云,而 把并不适合的人选关羽往刀口送。这种用人上的错误,也直接导致了 以后张飞和刘备自己的死。 博弈论在战争中的应用很多,远的不提,拿二战时的苏联来说, 他一方面要对德国作战,另一方面小日本对他也不断骚扰。但斯大林 深得博弈论之精髓, 在与日本的交锋中即使胜利了也草草签署一个战 和协议了事,并没有对小日本穷追猛打,才得以专心对德国作战,也 才有了最终的胜利。当然从我们中国的角度来说,斯大林做得很不人 道,但从苏联的角度来考虑,斯大林却是采取了最好的战略。话说回 来,假设当时苏联对日本猛打,小日本也不会侵占中国那么多土地, 中国不会遭受那么大的损失,日本更不会冒傻气去偷袭珍珠港,美国 不一定那么快参战,历史可能因此而改写。
范文四:《博弈论基础》与《动态博弈理论》
博弈论系列丛书选编之
《博弈论基础》与《动态博弈理论》
戴子渊?编辑
修远文化出版集团
博弈论基础
本讲要点:博弈论的基本思想,博弈的构成要素,简单博弈的求解方法,纳什均衡的概念,博弈的分类,动态博弈与重复博弈,信息不对称,道德风险,逆向选择,信号传递。
重点:博弈论的基本思想,纳什均衡的概念,信息不对称。
难点:博弈的构成要素,纳什均衡的概念。
讲授时间:6学时
一、博弈的基本要素
1、博弈论与古典经济学的区别
古典经济学的基本思路:给定约束条件,考虑行为主体的最优结果。
博弈论的基本思路:以行为主体之间的相互影响为前提,考虑行为主体的最优结果。
两者的根本区别:是否考虑对方的行为。
古典经济学中消费者行为理论:假定收入、商品价格以及效用函数给定,求最优消费组合。消费者A不会考虑消费者B的影响。
古典经济学中的厂商理论:假定生产函数、成本函数、商品价格给定,求厂商的最优生产决策。厂商A不会考虑厂商B的影响。
古典经济学中的宏观经济理论:假定一国的资源禀赋给定,考虑价格指数、利率等因素的变化对国民收入、就业等的影响。国家A不会考虑国家B的影响。
博弈论:每个人要考虑别人的行为怎样影响自己的选择。
扑克牌游戏:一个人不可能只顾自己出牌,而不考虑别人怎么出牌。
下棋:无论中国象棋、国际象棋、围棋,一个人在走某一步之前,都要考虑对手是怎么走的,以及对手在我走了一步之后会怎么走,以及我又会在对手走了一步之后怎么走,以至无穷。
高手与俗手的区别也就在此。高手往往能够考虑10步甚至20步以后的变化。
总之:你的输赢不仅取决于你的决策,而且取决于你对手的决策。
2、博弈论简史
博弈论的思路在古诺(Cournot,AntoineAugustin,1801-1977)的双头垄断模型中最早提出,冯?诺伊曼(JohnvonNeumann,1903-1957)和摩根斯坦恩(OskarMargenstern,1902-1977)在1944年出版了《博弈论与经济行为》(TheoryofGamesandEconomicBehavior)一书,最早提出了博弈论的概念。
现代博弈论则是由纳什(Nash,JohnF.)(有一本《美丽心灵》的书,专门介绍纳什和普林斯顿的,后改编为电影)、海萨尼(Harsany,JohnC.)、泽尔腾(Selten,Reinhard)、夏普利(Sharpley,LloydS.)等人发展起来的,1994年的诺贝尔经济学奖就授予了前三位经济学家。
现在,博弈论已经成为现代经济学的基本分析工具之一,并且应用到了政治、经济、军事、社会、自然科学等各个领域。
3、博弈的要素
构建一个博弈,需要以下基本要素:
(1)局中人(参与者)(players):每局博弈至少有两个参与者。有时,要引入一个特殊的参与者,自然(nature)。比如,一个人猜硬币,可以看成是你在和自然或上帝博弈。
(2)行动集(actionset):规定每个参与者可以采取的行动的集合。比如,猜硬币博弈,一个人有两个行动可供选择:正面,反面。如果是两个硬币,则行动集中的行动增加一倍:(正面,正面),(正面,反面),(反面,正面),(反面,反面)。
(3)时序(playingsequence):游戏规则中规定的每个参与者决策的先后次序。一般来说,在静态博弈中,局中人同时行动;在动态博弈中,局中人有行动的次序。
(4)策略(strategies):策略是局中人在一局博弈中的一套完整的行动计划。策略与行动不同,策略包括信息。比如囚徒困境,每个局中人的行动只有两种:坦白,抵赖。但策略就包括:(坦白,抵赖)、(抵赖,抵赖)、(抵赖,坦白)、(坦白,坦白)四种。尽管最后的均衡是(坦白,坦白),但策略有四种。策略告诉局中人,在每一种可预见的情况下选择什么行动。
(5)报酬(支付、收益)(payoffs):局中人在不同情况下所得到的效用。
(6)信息(information):局中人决策所依据的信息。
信息分为完全信息和不完全信息。
在完全信息中,局中人在决策时知道在此之前的全部信息,并且局中人A知道局中人B知道全部信息,并且局中人A知道局中人B知道局中人A知道全部信息,如此以至无穷。比如下棋。
在不完全信息中,局中人不知道与博弈有关的全部信息。比如猜“石头——剪刀——布”的游戏。
(7)结果(outcome):结果是博弈分析者所感兴趣的所有东西,或者说,博弈分析者(建模者)从行动、支付和其他变量中所挑选出来的他感兴趣的要素的组合。比如,均衡战略组合,均衡行动组合,均衡支付组合等。
(8)均衡(equilibria):均衡是所有局中人选取的最佳策略所组成的策略组合。
在上述要素中,局中人、行动集、时序、策略、报酬和信息规定了一局博弈的游戏规则。
下面以囚徒困境为例,分析以上各个要素。
囚徒乙
坦白
坦白
囚徒甲
抵赖-10,0-1,-1-6,-6抵赖0,-10
在囚徒困境中,
局中人:囚徒A和囚徒B;
行动集:每个囚徒的行动集是一样的,都是(坦白,抵赖)。
时序:同时。
策略:每个囚徒的策略集也是一样的,都是(坦白,抵赖)、(抵赖,抵赖)、(抵赖,坦白)、(坦白,坦白)。
报酬:(坦白,抵赖)=(0,-10)
(抵赖,抵赖)=(-1,-1)
(抵赖,坦白)=(-10,0)
(坦白,坦白)=(-6,-6)
信息:每个囚徒都知道上述报酬,并且也知道对方知道上述报酬。但每个囚徒在决策时不知道对方是怎么决策的。因为他们是同时决策的。而且只博弈一次。
结果:有四种可能的结果。
结果1:囚徒A想,囚徒B可能会选择抵赖,因为这是对双方来说最好的结果。囚徒A是个无赖,他乘人之危,不顾同伙的命运,选择了坦白,这样,得到的结果是(坦白,抵赖)。
结果2:结果1中的囚徒B和囚徒A刚好倒过来,则得到的结果是(抵赖,坦白)。
结果3:囚徒A想,囚徒B可能会选择抵赖,因为这是对双方来说最好的结果。囚徒A是个照顾朋友的人,他也选择抵赖,这样,得到的结果是(抵赖,抵赖)。
结果4:囚徒A和B互相不信任,则结果是(坦白,坦白)。
均衡:(坦白,坦白)。
4、更多的博弈例子
在上学期的教学中,介绍了“囚徒困境”博弈。现在再介绍几个著名的博弈。
battleofthesexes)(1)性别战()性别战(battlesexes)
设有一对恋人,男的喜欢看足球,女的喜欢看芭蕾,但两人更愿意在一起。
女
足球
足球
男
芭蕾0,01,2在这个博弈中,有两个均衡(足球,足球)和(芭蕾,芭蕾)。但完全可能出现(足球,芭蕾)或(芭蕾,足球)的结果。
boxedpigs)(2)智猪博弈()智猪博弈(boxedpigs)
设有两头猪,大猪和小猪。猪圈的一头是食槽,另一头是按键。按键的成本(劳动)为2。如大猪先到,吃9个单位,小猪吃1个单位;如小猪先到,吃4个单位,大猪吃6个单位;如同时到,大猪吃7个单位,小猪吃3个单位。
小猪
按等待2,1芭蕾0,0
按
大猪
等待5,19,-14,40,0均衡的结果是:(按,等待)。
这个博弈可应用到(大股东,小股东),(庄家,散户),(大企业,小企业),(富人,穷人),(领导,下属)等。
chickengame)(3)斗鸡博弈()斗鸡博弈(chickengame)
设有两人同时走到一条独木桥的中央。
B
进
进
A
退0,20,0-3,-3退2,0
这个博弈也有两个均衡:(进,退)、(退,进)。
冷战时期,美苏各占地盘,而不是在同一块地盘上争夺。
夫妻矛盾。
警察与游行队伍。
“两军相逢勇者胜”。政治上、军事上的强硬派往往能够出奇制胜,因为他们敢于“血战到底”。但如果对方不相信你是真正的勇士,或者,如果对方也是强硬派,则可能“两败俱伤”。
**的“敌进我退,敌退我进”游击战术。这是弱的时候的战略,后来,强大了,**又提出了“人不犯我,我不犯人;人若犯我,我必犯人”的战略。表述如下:
敌
犯不犯
犯
我
不犯-1,-1-3,00,-31,1即,两个均衡:(犯,犯)、(不犯,不犯)。
entrydeterrance)(4)市场进入阻挠()市场进入阻挠(entrydeterrance)
设有两家企业,一家已在市场上,另一家想进入这个市场。进入成本为10。垄断利润为200,寡头利润为100。
在位者
默许
进入
进入者
不进入40,500,200斗争-10,00,200这个博弈也有两个均衡:(进入,默许)、(不进入,斗争)。
注意:(不进入,默许)虽然支付与(不进入,斗争)一样,但不是均衡。
coordinationgame)(5)协调博弈()协调博弈(coordinationgame)
设甲乙两人去狩猎,如果合作捕杀老虎,则每人得到3;如合作捕杀野牛,则每人得到2;如不合作,则什么也得不到。成本(劳动)为1。
乙
虎
虎
甲
牛-1,-11,12,2牛-1,-1
该博弈有两个均衡:(虎,虎)、(牛,牛)。一般来说,他们先碰上什么,就会合作去捕杀什么。
假如虎和牛同时出现,会怎样呢?
甲乙两人如果可以协商,则会选择(虎,虎)。但如果不能协商,则结果会是,看到对方去捕杀什么,就跟进。
如果把上述博弈改写一下,就得到所谓的“危险的协调”。
乙
AB
A
甲
B-1000,-12,21,1-1,-1
从理论上说,上面博弈的两个均衡解(A,A)和(B,B)中,虽然后者优于前者,但由于对于甲来说,一旦受到乙的欺骗,则损失惨重。所以,对于甲来说,更可能选择的是A。
(6)诺曼底登陆
这是美国普林斯顿大学(现代博弈论奠基者JohnF.Nash获得博士学位和工作的地方,纳什后来得了精神分裂症,普林斯顿宽容的环境以及妻子的爱护使纳什的病情奇迹般地好转。)1981年的博弈论课程中的一道练习题,模拟诺曼底登陆。
我方2个师的兵力,敌方3个师的兵力,只能整师调动。有两条进攻路线。我方兵力超过敌方,则获胜;我方兵力小于或等于敌方兵力,则我方负。问如何决策?
1944年,艾森豪威尔为总司令的盟国远征军经过近一年的准备,在英国集结了强大的军事力量,准备横渡英吉利海峡,在欧洲开辟第二战场。
当时可供盟军选择的登陆地点有两个,一是塞纳河东岸的布隆涅——加来——敦刻尔克一带,这里海峡最狭窄的地方只有几十公里,是一个理想的登陆地点;另一个地点是塞纳河西岸的诺曼底半岛,这里海面宽阔,渡海时间较长,容易被敌人发现。
当时德军的总兵力是58个师,比盟军略多。所获情报表明,德军在布隆涅一带的防守兵力多于在诺曼底的防守兵力,盟军拟以诺曼底为登陆点。
诺曼底登陆战本来是计划在6月5日打响的,但遇上了暴风雨。盟军参谋部预测在6月6日有一段时间的好天气,艾森豪威尔当机立断,决定冒险抓住这个机会,发起进攻。
6月6日凌晨两点,盟军的2个伞兵师空降道德军的防线后面,接着,飞机和军舰猛烈轰击德军的防御阵地,凌晨6点半,第一批地面部队登陆。
现在回到普林斯顿的博弈论练习题。
敌方有四种方案:
A、三个师都驻守甲方向;
B、反过来,三个师都驻守乙方向;
C、两个师驻守甲方向,一个师驻守乙方向;
D、反过来,一个师驻守甲方向,两个师驻守乙方向。
我方有三种方案:
a、两个师从甲方向进攻;
b、反过来,两个师从乙方向进攻;
c、兵分两路,两个方向各派一个师进攻。
下面,我们用“+”表示获胜,用“-”表示失败,用上面大家熟悉的矩阵方式列于下面:
敌方
ABCD
a
我方b
c-,++,-+,-+,--,++,--,++,--,++,--,+-,+
在上面的对策矩阵中,“-”表示“负”,“+”表示“胜”。
现在我们来分析敌方的策略选择。A方案不如C方案,B方案不如D方案。
所以,敌方不会选择A、B方案,于是,剔除掉这两个方案,得到下面的对策矩阵:
敌方
CD
a
我方b
c-,++,--,++,--,+-,+
在剩下的对策矩阵中,再分析我方的策略选择。c方案比a、b方案都要差,所以,要将c方案剔除,得到下面的对策矩阵:
敌方
C
a
我方
b+,--,+-,+D+,-
所以,最后的均衡是:敌方不可能把所有兵力驻守在一个方向,我方也不可能兵分两路进攻,在两个进攻方向上,如果我方攻在敌方的薄弱之处,则我方取胜,反之,若攻在敌方的强大之处,则我方失败。因此,信息就非常重要。
不仅信息重要,而且,信号传递、双方统帅的性格等因素也非常重要。有时,佯攻甲方向实攻乙方向;有时,给人佯攻甲方向而实际上就是进攻甲方向。等等。
对于企业、个人的发展来说,该博弈也有参考意义。对于弱势方来说,一般是集中时间、精力和财力发展某一个方向,否则,只有失败。
二、优势策略与纳什均衡
1、优势策略
在囚徒困境中,不管乙的策略是坦白还是抵赖,甲的最优策略都是坦白;反之亦然。这种策略就叫优势策略(dominantstrategy)。
那么,两个囚徒能不能暗自订立“攻守同盟”呢?
问题是,没有一个会相信对方的承诺是可信的。这叫“不可置信承诺”。
黑社会采取以下办法让承诺变得可以置信。黑社会对于供出同伙的人,往往采取“格杀”的惩罚。这样,囚徒困境就改写为:
囚徒乙
坦白
坦白
囚徒甲
抵赖-10,-∞-1,-1-∞,-∞抵赖-∞,-10
这时,(抵赖,抵赖)就成了优势策略。
2、纳什均衡(NashEquilibrium)
给定其他参与人的战略s-i*,参与人i的战略si*是优的,如果对于所有的参与人和参与人的所有的策略来说,下式成立:
ui(si*,s-i*)≥ui(si,s-i*)
如果不等式严格成立,则成为严格优势策略。
3、优势策略与纳什均衡
优势策略肯定是纳什均衡,但纳什均衡不一定是优势策略。
在性别战、斗鸡博弈等博弈中,没有优势策略,但有两个纳什均衡。
4、博弈求解
一种方法是剔除劣势策略。比如在诺曼底登陆博弈中的做法。
但经常没有严格劣势的策略,比如性别战。
另一种方法是划线法:取每一种策略局中人最大的收益,在其支付下划线(或画圈),如果一个格中的两个支付都被划上线,则这个策略就是一个均衡。
复习上面讲过的博弈,用划线法求解。
5、博弈的分类
(1)静态(static)与动态(dynamic))静态(static)(static)与动态与动态(dynamic)
静态是指局中人同时决策或同时行动(simultaneous-move)。同时决策或同时行动不是指的时间上完全一致,而是指每个参与者不知道其他参与者的决策或行动。
比如囚徒困境,也许两个囚徒的坦白时间是不同的,但互相不知到对方是否坦白,所以是同时行动。再比如工程招标,不同的投标者投标的时间也许不同,但只要互相不知道对方的报价,则是同时行动。如果局中人的决策或行动按照规则是有先后次序的(sequential-move),则是动态博弈。后面要进行简单介绍。
(completeinformation)与不完全信息(incompleteinformation)(2)完全信息)完全信息(completeinformation)与不完全信息与不完全信息(incomplete
完全信息是指各种策略组合下局中人的支付函数是所有局中人的共同知识(commonknowledge)。
(perfectinformation)与不完美信息(imperfectinformation)(3)完美信息)完美信息(perfectinformation)与不完美信息与不完美信息(imperfect
完美信息是指局中人完全清楚到他决策时为止所有局中人的所有决策,或者说,了解博伊进行的历史。
(4)博弈的分类
博弈可分为以下几种基本的大类:
完全信息静态博弈(staticgamesofcompleteinformation)
完全信息动态博弈(dynamicgamesofincompleteinformation)
不完全信息静态博弈(staticgamesofcompleteinformation)
不完全信息动态博弈(dynamicgamesofincompleteinformation)
如果把信息完美与否考虑进来,则有:
完全且完美信息博弈(gamesofcompleteandperfectinformation)
完全但不完美信息博弈(gamesofcompletebutimperfectinformation)
不完全但完美信息博弈(gamesofincompletebutperfectinformation)
不完全且不完美信息博弈(gamesofincompleteandimperfectinformation)
只有动态博弈才考虑完美或不完美信息。
注意,在英语中,(不)完全信息博弈与(不)完美信息博弈的表达有细微的区别:gamesofcompleteinformation与gameswithperfectinformation。
另外,根据局中人支付的情况,又有以下分类:
零和博弈(zero-sumgame)和非零和博弈(non-zero-sumgame)。
常和博弈(constant-sumgame)和变和博弈(variable-sumgame)。
做一定的数学处理,可以把常和博弈处理成零和博弈。
变和博弈包含一个很重要的哲理:双赢(win-win)。
当然,也有共亏的局面,如囚徒困境,这也是一个重要的课题:个人理性与集体理性的矛盾。
三、动态博弈与重复博弈
1、动态博弈
前面讨论的博弈有两个共同特点:一,只博弈一次,博弈结束;二,博弈双方同时行动。这是静态博弈。
在动态博弈中,博弈双方进行多次博弈。比如下棋,你下一步,我下一步,这就是一个动态博弈。
动态博弈一般采用博弈树的形式表达,如以下博弈:
“利益一致”的“抓钱博弈”
“你死我活”的“抓钱博弈”
“温和对抗”的“抓钱博弈”
动态博弈采用“逆向归纳法”求解。
逆向归纳法(backwardinduction):也称倒推法(rollbackmethod),从博弈的最后一个决策阶段开始分析,确定该阶段局中人的策略选择;然后再确定前一阶段局中人的策略选择,一直推到起始点。
现在我们来分析前面的“抓钱博弈”。
在利益一致的博弈中,第4阶段由乙决策:乙如果拿,只能得到4,而如果不拿,则进入下一结点,得到支付5,所以乙选择不拿。
到第3阶段,由甲来决策,同样,甲会选择“不拿”。
所以,该博弈的均衡是:在前面几个阶段,甲乙都选择“不拿”,直到进入最后的结点,每人得到5的支付。
在“你死我活”的博弈中,在第4阶段,乙如果选择不拿,则进入最后的结点,得到0的支付;而如果选择拿,则得到8的支付,于是,选择拿,博弈结束。
到第3阶段,甲知道乙会在下一阶段会选择拿,因此,自己在本阶段的最有选择也是拿,一直倒推到起点。本博弈的均衡是:甲一开始就选择拿,博弈结束。
在温和对抗的博弈中,第4阶段由乙选择,若选择拿,得到支付5,若选择不拿,得到支付4,所以,乙选择拿,博弈结束。
到第3阶段,甲知道乙在第4阶段会选择拿,甲若选择不拿,只能得到3,而选择拿,则得到4。所以,
甲的选择也是拿,博弈结束。本博弈的均衡也是:甲一开始就选择拿,博弈结束。
2、重复博弈
重复博弈(repeatedgame)是指同一博弈重复多次。
一次博弈中存在的欺骗,可能在重复博弈中消除。典型的例子是游贩和坐摊的区别。游贩与买者之间因为是一次性博弈,往往采用欺骗的办法;而坐摊与买者之间是重复博弈,所以,能够诚信经商。
重复博弈之所以能够消除欺骗,是因为存在报复。比如坐摊,买者会采取报复手段:你如果卖了假冒伪劣商品给我,那我,一,会回来找你的麻烦,要求赔偿,甚至告发你的不正当行为;二,我今后再也不到你这里买东西。
现在以囚徒困境为例,分析无穷次重复博弈的结果。
所谓无限次重复,是指局中人不知道会重复多少次,而不一定是真正的无穷多次。
囚徒乙
坦白
坦白
囚徒甲
抵赖-10,0-1,-1-6,-6抵赖0,-10
两个囚徒都知道,大家保持沉默(抵赖)是集体利益最大的选择。但正如前面所说的,如果只是一次性博弈,则(坦白,坦白)是均衡的结果。
我们选择囚徒困境的另一种情况来说明比较好,因为严格的囚徒困境会限制博弈的次数,因为一个人的生命是有限的。
比如抛硬币博弈,如果甲乙两人都出正面,则1人得到1元的奖赏,如果两人都出反面,则1人得到3元的奖赏,如果不同,则出正面的得到4元的奖赏,出反面的没有奖赏。得到下面的博弈矩阵:
乙
正面反面
正面
甲
反面0,43,31,14,0
双方都知道出反面最好,所以,假定开始的时候大家都承诺要出反面。但这样的承诺是否可信呢?如果只是一次行博弈,则这样的承诺是不可信的,因为每个人有改变策略的驱动。
现在是无穷多次重复博弈,双方都知道,如果对方发现我上次出正面,那他就不会相信我的话了,今后就会出正面进行报复。也就是说,我只能占一次便宜;而对方也只会吃一次亏。从长远利益考虑,我的最优选择是信守承诺,出反面。
假定是n次博弈,局中人的计算是:
如果我前面m次出反面,第m+1次违背承诺出正面,那么我的支付是3m+(n-m),而如果一直出反面,则支付是3n,显然3n>3m+(n-m)。所以,我会选择一直出反面。
当然,如果知道n的确切数值,则狡猾的局中人会在最后一次改变策略,出正面,希望得到3(n-1)+4的支付,因为3(n-1)+4>3n。
但问题是,对方也不是笨蛋。
所以,只有当n为不确切的数值时,双方才会信守承诺。
四、信息经济学的基本问题
1、信息不对称(asymmetricinformation)
信息不对称:一方拥有的信息对方不知道。比如说,经理人是否努力工作,经理人自己最清楚,老板不一定清楚。
所以,设计机制或合约时,一定要以可证实的变量为基础。比如,工作是否努力是不可证实的。
至于目前各单位采用的许多变量,比如“政治上与党中央保持高度一致”、“廉洁奉公”、“努力学习”等等,都是不可证实的变量。因此,靠这些条件来考核,是不能真正考核出优劣的。
为什么会出现“会做的不如会写的,会写的不如会编的,会编的不如会唱的,会唱的不如会吹的”这样的结果?就是因为设计机制或合约时所依据的变量是不可证实的。
相对于“努力工作”来说,“工作业绩”(如销售收入、利润、成本)等是可证实的。
高校排名,评价的指标中主要是可证实的变量,如资产规模、教授数、学术论文、论著、科研经费等。设想一下,如果是采取一些不可证实的变量来排名,则恐怕谁也不服谁。
同样,教师不能完全以是否努力学习来评判学生,而需要采用成绩。这就是为什么不论哪个国家都要进行考试的原因。
在信息不对称的情况下,主要有道德风险、逆向选择、信号传递等基本问题。
2、道德风险(moralhazard)
亚当?斯密(1776)在《国富论》中就已经意识到了道德风险的存在,只是没有采用这样一个名词。“无论如何,由于这些公司的董事们是他人钱财而非自己钱财的管理者,因此很难设想他们会像私人合伙者照看自己钱财一样地警觉,所以,在这类公司事务的管理中,疏忽和浪费总是或多或少地存在的。”
道德风险是指从事经济活动的人在最大限度地增进自身效用时作出不利于他人的行动。
道德风险存在于信息不对称、合同不完备、合同实施成本过大等情况下。
信息不对称:由于一个人拥有私人信息,就占有信息优势,从而可以找机会偷懒或不负责任。
在委托-代理问题中,代理人具有委托人不知道的私人信息。
合同不完备:由于人们的知识和预测能力是有限的,不可能把所有可能发生的情况都写进合同中。
合同实施成本过大:即便能够把所有可能情况都写进合同中,由于实施成本过大,往往也难以完全实施。总之,由于信息不对称、合同不完备、合同实施成本等原因,人们往往宁愿接受由于道德风险所带来的损失。因为搜寻信息需要成本、制订完备合同需要成本、完全实施合同需要成本,当这些成本高于因道德风险造成的损失时,就选择任由道德风险的存在。
所以,在委托人-代理人之间,往往寻求的是一种均衡,当监督和签订、实施合同的边际成本等于道德风险的边际成本时,均衡就形成了。
3、逆向选择(adverseselection)
经济学家阿克洛夫(Akerlof,George)在1970年发表的论文“次品市场”(TheMarketofLemons,QuarterlyJournalofEconomics,84(3),August,488-500)中首次从现代经济学的角度对逆向选择进行了分析。
在二手车市场上,卖者对车的质量占有信息优势。假定有好、中、差三种车,对于卖者来说,这三种车的价值分别为11000美元、8000美元、5000美元;对于买者,这三种车的价值分别为12000美元、9000美元、6000美元。
如果信息是对称的,则三种车都有可能成交,比如,这三种车在11500美元、8500美元、5500美元的价值成交,对买卖双方都是有利的。
然而,由于信息不对称,买方不知道哪种车是好的,哪种车是差的,只能采取概率的方法。
假定三种车出现的概率相等,都为1/3。这样,对于买方来说,旧车的期望价值为:12000*1/3+9000*1/3+6000*1/3=9000美元。
于是,买方愿意出的最高价格为9000美元。
这样,卖方就不可能出售价值为11000美元的好车。于是,好车就退出市场。剩下的是中、差两种车。买方当然也知道这点,于是,重新修改预期价值:9000*1/2+6000*1/2=7500美元。
于是,买方现在愿意出的最高价格为7500美元。
这样,卖方就不愿意出售价值8000美元的中等车,中等车也退出市场。
最后,市场上剩下的是最差的车。
这就是逆向选择。
逆向选择的例子很多,比如保险市场、劳动力市场、货币市场等。
保险市场:愿意参加保险的人很可能是身体有问题的人。身体是否有问题,投保人比保险公司更清楚,也就是说,投保人具有私人信息。保险公司知道这点,就把保险费定得很高,这样,身体好的人就更不愿参加保险,这部分人就退出了市场。所以,热衷于买保险的人往往是身体不好或年龄较大的人。
劳动力市场:劳动者的能力是劳动者的私人信息。所以,企业愿意出的工资是一个平均数,这样,能力特别强的人就会退出这个市场。所以,在一般劳动力市场上的往往是能力中等或能力差的人。
但企业又需要能力强的人,于是就有了猎头市场。企业把识别劳动者能力的任务交给猎头公司,并且猎头公司要承担风险。
货币市场:项目是否有风险是借款人的私人信息。所以,贷款人对贷款利率的出价是一个平均风险水平的价格,这样,风险低、收益低的稳定型借款者就会退出市场。所以,银行的坏账一天天增加。
4、信号传递
由于信息不对称,每个人都希望向对方传递对自己有利的信号。
比如,在招聘时,应聘者总是显示自己最好的一面。谈判中,企业总是把最能显示自己实力的一面展示出来。公司越来越注意企业形象的塑造。女孩子总是把自己打扮得漂亮。人们总是把最好的衣服穿在外面。等等。
问题是,对方不一定相信你所传递的信号是真实的。
有的信号,一下子是难以识别真伪的,需要时间。所以,“百年老店”是最好的信号传递方式。
曾经有几家美国的企业联合控告日本公司倾销,美国法院的判决是:控告不成立,因为不可能有哪家公司能够长期采用低于成本的价格。
所以,长期采取低价策略的企业传递的信号是:我是低成本的,你成本高,别来。
长期在CCTV黄金时段做广告的厂商传递的信号是:我有实力,企业经营一直不错。
出示自己的高学历证书和各种获奖证书的求职者传递的信号是:我是一个优秀的应聘者。
有的小公司对业务采取不冷不热的态度,传递的信号是:我不愁没业务做。
故意装着要离开的顾客传递的信号是,把价格再降点,否则我走了。
初恋时经常找不怎么符合逻辑的借口去找对方但又不说出口,传递的信号是,我对你有意思,你呢?当然指望是对方先说出来。
由于对方不一定相信你传递的信号,而甄别信号需要成本,所以,一定要传递可信(可观测)、并且甄别成本低的信号。
为什么招聘单位看重学历,因为学历容易甄别,而且比起能力的描述来,相对可靠。
为什么顾客喜欢买名牌产品,因为名牌是经过很多年才形成的,广告、产品质量、服务质量等因素起了很大的作用,名牌传递的信号就是:质量好,服务好。
注意:无论发出信号或不发出信号,都是一种信号传递。
复习
1.博弈论与古典经济学的区别在于,前者考虑行为人的相互影响。
2.博弈论现在得到了很快的发展,已经在经济、政治、社会、文化、自然科学等领域得到了广泛的应用。
3.一个完整的博弈要有局中人、行动集、时序、策略、支付、信息等要素来刻画,不同的博弈构建者可能对各种要素的不同组合感兴趣。
4.囚徒困境是最著名的一个博弈,它揭示了个体理性与集体理性的矛盾。要改变囚徒困境的结局,需要改变博弈的规则。
5.纳什均衡是描述博弈均衡的一个非常重要的概念,指的是一种相对稳定的状态,在局中人的策略组合下,没有人愿意单独改变自己的行动。一个博弈可能有多个纳什均衡。
6.优势策略是指无论对方采取什么行动,我都将采取的策略。比如囚徒困境中的“坦白”。优势策略肯定构成纳什均衡,但纳什均衡不一定是优势策略。
7.根据局中人的支付函数是否是共同知识,以及是否同时决策,可以把博弈分为完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈和不完全信息动态博弈。
8.完美信息和不完美信息的区分依据是,局中人对前面对局的情况是否清楚。
9.动态博弈采取博弈树的方法来表示。博弈树的方法也叫博弈的展开式。求解动态博弈的方法之一是逆向归纳法,或倒推法,即从最后一个结点开始往前面推导。
10.重复博弈是指不断重复某一博弈。重复博弈可能会改变一次博弈的均衡。重复博弈是动态博弈的一种。
11.信息不对称是指某一局中人占有私人信息,从而占有信息优势。
12.在不对称信息条件下,协议签订前有逆向选择和信号传递问题,协议签订后有道德风险问题。
13.道德风险是指占有信息优势的一方在最大化自己利益的同时采取不利于他人利益的策略。
14.逆向选择是指信息不对称的市场会把优秀的资源赶出局,而不是把低劣的资源淘汰掉。
15.信息优势方总是传递对自己有利的信号,而信息劣势方不会轻易相信,所以,最后的均衡是:传递可观测的、甄别成本低的信号。
进一步阅读
对本讲内容有兴趣的同学可进一步阅读以下文献:
周惠中,2003:《微观经济学》,第13章,第14章,上海人民出版社
(因为是在“微观经济学”中讲述博弈论和信息经济学的有关知识,所以,内容的选择和难易程度比较适中,有“点到为止”的感觉,适合本科生阅读。)
张维迎,1996:《博弈论与信息经济学》,“0.导论”,“7.逆向选择与信号传递”,上海三联书店,上海人民出版社
(这是国内最早介绍博弈论和信息经济学的著作,到2004年,已先后印刷8次,印数超过5万,是国内经济学著作中的“畅销书”,引用率极高,几乎所有涉及博弈论和信息经济学的文献都要引用张维迎的这本著作。这本书的难度较大,但张维迎在书中创造了一些“中国特色”的例子,值得一读。而且,中国人自己写的书,比那些蹩脚的译本要容易读懂些。顺便提一下,国人所著的博弈论的书,还有上海财大施锡铨写的《博弈论》、复旦谢识予的《经济博弈论》等,都是不错的书。)
王则柯、李杰,2004:《博弈论教程》,中国人民大学出版社
(中山大学王则柯教授最新为本科生写的教材,难度适中,主要讲完全信息博弈,有一定数学基础的同学都可以看懂。)
Macho-Stadler,I.,andJ.DavidPerez-Castrillo,2004:《信息经济学引论:激励与合约》,“1.导论”,上海财经大学出版社
(这本书对“道德风险”、“逆向选择”、“信号传递”三个问题作了专门的分析,但对于本科生来说难度较大。)
Dixit,A.K.,andBarryJ.Nalebuff,2002:《策略思维》,中国人民大学出版社
(这是最通俗易懂的一本介绍博弈论的著作,书中很少使用数学,采用的案例来自于电影、小说、传记、日常生活等各个方面。这本书的译者是王则柯先生的女儿王尔山,与乃父比,文笔有更胜一筹之感。)
Akerlof,George,1970.Themarketforlemons.QuarterlyJournalofEconomics,84(3),August,488-500
(这篇文章可以在我的个人网页(http://web.cenet.org.cn/web/winninghu)的“下载资源”栏中找到,英语较好的同学,不妨一读。这篇文章没用什么数学,完全可以读懂。据说,当初就是因为该文的数学少,而遭到了杂志社的退稿。)
Wilson,Charles.“逆选择(adverseselection)”,《新帕尔格雷夫经济学大辞典》,第1卷,第35-6页
Postlewaite,A.“非对称信息(asymmetricinformation)”,《新帕尔格雷夫经济学大辞典》,第1卷,第144-5页
Kotowitz,Y.“道德风险(moralhazard)”,《新帕尔格雷夫经济学大辞典》,第3卷,第588-91页
Riley,J.G.“发送信号(signalling)”,《新帕尔格雷夫经济学大辞典》,第4卷,第355-8页
习题
1、把“田忌赛马”的故事改编为一个博弈,并用博弈矩阵表示出来。
2、把“老虎-鸡-虫-棒棒”的游戏改编成一个博弈,并用博弈矩阵表示出来。
3、分别用剔除劣势策略法和划线法找出以下博弈的纳什均衡,这个博弈有没有严格优势策略?
局中人2
LR
U
局中人2M
D2,12,50,31,70,23,2
4
、用逆向归纳法求出下面博弈的均衡解。
动态博弈理论
基本概念
静态博弈:所有局中人同时行动;后者局中人的行动有先后顺序,但是,后行动者不能观测到先行动者的行动。
动态博弈:局中人的行动有先后顺序,后行动者可以观测到先行动者的行动。
静态博弈的表示:局中人集合;局中人的决策集;局中人的支付(收益)函数。
动态博弈的表示(博弈的扩展式表达)
1、局中人集合;(其中包括虚拟局中人“自然”)
2、局中人的行动顺序:谁在什么时候行动;
3、局中人的行动空间(决策集):在每次行动时,局中人的可供选择的决策;
4、局中人的信息集:在每次行动时,局中人所知道的以前博弈过程的信息;
5、局中人的支付函数:每次行动时,局中人的所得(它是所有行动的函数);
6、外生事件(“自然”的选择)的概率分布。
博弈树:
多人有限策略的扩展式可以用博弈树表示
例:有房产商A和B各可以开发一栋楼,开发成本为1亿。若市场有两栋楼,当市场需求大时,每栋楼售价为1.4亿;当市场需求小时,每栋楼售价为7千万。若市场只有一栋楼,当市场需求大时,售价为1.8亿;当市场需求小时,每栋楼售价为1.1亿。房产商的决策选择为开发或不开发。这样,共有下列8种可能结果:
1、需求大,A开发,B不开发,则A的利润为0.8亿,B的利润为0;
2、需求大,A不开发,B开发,则A的利润为0,B的利润为0.8亿;
3、需求大,A开发,B开发,则A的利润为0.4亿,B的利润为0.4亿;
4、需求大,A不开发,B不开发,则A的利润为0,B的利润为0;
5、需求小,A开发,B不开发,则A的利润为0.1亿,B的利润为0;
6、需求小,A不开发,B开发,则A的利润为0,B的利润为0.1亿;
7、需求小,A开发,B开发,则A的利润为-0.3亿,B的利润为-0.3亿;
8、需求小,A不开发,B不开发,则A的利润为0,B的利润为0;
假设行动顺序为房产商A先行动,然后“自然”选择需求量(假设需求大或小的概率同为0.5)。房产商B观察到房产商A行动和“自然”选择后,再选择行动。则该动态博弈的博弈树如下:
博弈树的几个基本概念:
结:决策结和终点结。通常用在决策结的旁边标注局中人的方式来表示局中人行动顺序。
枝:决策结到它的直接后续结的连线。一个分枝表示局中人的一个选择。
信息集:按局中人对决策结是否了解,而将博弈树上的所有决策结分成不同的信息集。例如,前述房产商开发的博弈树中的7个决策结划分为7个信息集。
如果房产商B无法观察到“自然”选择就需要0采取行动,则B的信息集由4个减少为2个。如下图完美信息:后行动方了解此前的全部博弈过程,即他完全了解其他局中人的此前的所有行动。
完全信息:博弈各方了解其他局中人的收益函数。
完美且完全信息动态博弈
在动态博弈中,局中人的策略虽是局中人事先设定的,但是,这并没有强制执行的限制。因此,局中人完全可以在博弈过程中改变决策。这种情况称为“相机选择”。
相机选择问题导致了“可信性”问题。即博弈各方是否会真正始终按自己预先选定的策略行动。
动态博弈可以转化为静态博弈求解,即可以得到与静态博弈相同的纳什均衡概念。然而,可信性问题的存在使得人们对纳什均衡在动态博弈中的有效性产生了怀疑。因此,需要为动态博弈改进纳什均衡的概念。
例:在“自然:已选择了低需求,且它已是局中人的共同知识的条件下,考虑房产商开发问题。其博弈树如下:
由于A先行动,故他有两个可选择
的行动:开发或不开发。B在A之后行
动,他有四个可选择的行动:开发;A开
发则B开发,A不开发则B不开发;A
不开发则B开发,A开发则B不开发;
不开发。简记为{开发,开发},{开发,
不开发},{不开发,开发},{不开发,不
开发}。由此可得收益矩阵如下{开发,开发}
开发
不开发-3,-30,1{开发,不开发}-3,-30,0{不开发,开发}1,00,1{不开发,不开发}1,00,0
容易看出,该博弈有三个纳什均衡点:1:{开发,{不开发,开发}},2:{开发,{不开发,不开发}},3:{不开发,{开发,开发}}。
对于纳什均衡点3,成为均衡点是因为B威胁不论A是否开发,他都要开发。若A相信这个威胁,则A的最优选择是不开发。因此,当B假定A将选择不开发,此时,开发是他的最优选择。故{不开发,{开发,开发}}是纳什均衡点。
但是,A凭什么要相信这个威胁呢?毕竟,若A选择开发时,B选择开发的支付是-3,选择不开发的支付是0。此时B的最优选择是不开发。
因此,若A认为B是理性的,则A将选择开发,逼B选择不开发。这样,该均衡点是不可信的(不合理的)。
对于纳什均衡点2,虽然其结果是A开发,B不开发是合理的。但是,该均衡策略本身是不合理的。因为,若A选择开发,B的最优选择是不开发;但是,若A选择不开发,则B的最优选择是开发。因此,B的决策{不开发,不开发}本身就是不合理的。即是一个不可信的策略。
第一个对纳什均
衡的最重要改进是泽
尔腾的“子博弈精练纳
什均衡”。这一概念的
主要思想是在纳什均
衡点中,排除掉存在可
信性问题的纳什均衡
点。
子博弈:在一个动
态博弈中,从某一阶段
(不能是第一阶段)开
始的后续阶段构成的,
拥有初始信息集和进
行博弈的全部信息,能
够自己进行博弈的原
博弈的一部分称为原
博弈的一个子博弈。
定义:在动态博弈中,若一个策略组合是该博弈的纳什均衡,并且它对该博弈的每个子博弈都给出了纳什均衡,则称这个策略组合为子博弈精练纳什均衡。
下面以房产商开发为例子解释子博弈精练纳什均衡的概念。
该博弈及其子博弈如下图:
对于子博弈(b),B的最优选择是不开发;对于子博弈(c),B的最优选择是开发。
因此,对于纳什均衡点3,它在子博弈(c)上构成纳什均衡,但在子博弈(b)上不构成纳什均衡;而纳什均衡点2在子博弈(c)上不构成纳什均衡,在子博弈(b)上构成纳什均衡;只有纳什均衡点1,在子博弈(c)和(b)上都构成纳什均衡。
对于有限完全且完美动态博弈,可以用逆向递归方法求其子博弈精练纳什均衡点。该算法的基本思想是先从最后的决策点开始,寻找在该点决策的局中人的最优选择,再倒会到倒数第二个决策点,寻找第二个决策者的最优决策,如此等等。
例如,在房产商开发中,在第二阶段,若A选择开发,则B的最优选择是不开发;若A选择不开发,则B的最优选择是开发。即B的最优策略是{不开发,开发}。回到第一阶段,由于A预计到B会按上述规则行动,按照这一规则,A在第一阶段的最优选择是开发,因此子博弈精练均衡点是{开发,{不开发,开发}}。不完全信息静态博弈
例:(市场进入问题)假设某一市场已有一个厂商(在位者)。现有一个厂商(进入者)计划进入该市场。但是,进入者不知道在位者的成本函数,也不知道在位者是默认他进入,还是阻止他进入。为简单记,假设在位者的成本函数只有两种成本:高成本和低成本。并进一步假定的支付矩阵如下在位者
高成本
默认
进入
不进入40,500,300阻止-10,00,400默认30,800,400低成本阻止-10,1000,400
在本例中,进入者的信息是不完全的,而在位者知道进入者的成本函数。
用以前的技术是无法处理这种博弈的。因为进入似乎在与两个不同的在位者进行博弈:高成本在位者和低成本在位者。一般来说,若在位者有T种可能的成本,则进入者就象在与T个不同的在位者进行博弈。
为了处理这种博弈,Harsanyi引入一个虚拟局中人——“自然”。自然首先行动决定局中人的特征(成本函数),局中人知道自己的特征,其他局中人不知道。则上述博弈转换为下列图示的博弈:
此即Harsanyi转换。;利用Harsanyi转换,不完全信息与不完美信息之间的区别就不重要了。
一般来说,自然在博弈开始的选择包括局中人的决策集、信息集、收益函数等等。
称一个局中人所拥有的所有个人信息为他的类型。不完全信息意味着至少有一个局中人有多个类型。在不完全信息博弈中,与完全信息博弈相同的是局中人都是同时行动,都有各自的策略集。不同的是,局中人的行动集不等同于策略集。局中人的行动集可能依赖他的类型。即行动集是类型相依的。同样,局中人的收益函数也是类型相依的。
因此,描述不完全信息博弈需要表述局中人的类型集Θ1,L,Θn;条件概率p1,L,pn;类型相依的策略集A1(θ1),L,An(θn);类型相依的效用(收益)函数u1(a1,L,an;θ1),L,un(a1,L,an;θn)。
其中,局中人i知道自己的类型θi∈Θi。条件概率分布pi=pi(θLiθi)表示当局中人i的类型为θi时,他有关其他局中人类型θLi∈ΘLi的概率。定义局中人的期望效用为
vi=∑pi(θLii)ui(ai,aLi;θi,θLi)
贝叶斯-纳什均衡:若有一个策略组合,其中每个局中人在给定自己的类型及其他局中人的类型相依策略时,最大化自己的期望效用函数,则该策略组合称为该博弈的贝叶斯-纳什均衡。
例:不完全信息古诺模型
某市场有两个厂商1,2。市场需求函数为p=a?q1?q2。各厂商的不变单位成本为ci。因此,厂商的利润函数为
πi=qi(a?q1?q2?ci)
厂商1的单位成本是公共知识。厂商2的单位成本可能是c2或c2(厂商2自己知道)。厂商1只知道Lc2=c2的概率是μ。HL
为了简单,假设a=2,c,cLH
1=12=,c2=,μ=。
因为厂商2知道厂商1的成本,故它选择q2,最大化利润函数:
π2=q2(t?q1?q2)
其中,t=a?或t=a?。
由此可得厂商1的反应函数为
q*1
2=2(t?q1)
若它为高成本,记它的最优产量为qH*L*
2,它为低成本,它的最优产量为q2。
因为厂商1不知道厂商2的实际成本,故它只能最大化它的期望利润函数:
Eπ=1
2qL1H
11(1?q1?q2)+2q1(1?q1?q2)
得到反应函数为
q*111
2(1?2qL
2qH1
1=2?2)=2(1?Eq2)
联立反应函数解之,得到贝叶斯均衡为
q=1L11H5
13,q2=24,q2=24
范文五:博弈论与人工智能应用
博弈论与人工智能应用
02105010 021051 张佳宾
人工智能(AI)是智能机和计算机科学的分支,其目的是创建它。 教科书将该字段定义为“研究和设计的智能代理”,其中一个智能代理是一个系统,认为其环境,并采取行动,最大限度地提高成功的机会
?2个问题
2.1演绎,推理,问题解决
2.2知识表示
?2.3规划
?2.4学习
O 2.5自然语言处理
O 2.6运动和操纵
O 2.7感知
O 2.8社会智力
O 2.9创造力
O 2.10智能
?3个方法
3.1控制论和脑模拟
3.2符号
3.3小符号
3.4统计
O 3.5集成的方法
?4个工具
O 4.1搜索和优化
?4.2逻辑
?4.3的概率不确定性推理方法
?4.4分级和统计学习方法
O 4.5神经网络
?4.6控制理论
?4.7语言
?评估进展情况
?6个应用程序
?6.1比赛及奖品
?6.2平台
?7个哲学
?8个预测
演绎,推理,问题解决
早期的人工智能研究人员开发的算法,模仿一步一步推理,这些人常常想当然地使用时,他们解决难题,玩棋盘游戏或进行逻辑推理。
到了20世纪80年代末和90年代,人工智能研究也开发了非常成功的
方法处理不确定或不完整的资料,从概率论和经济学的用人理念。
对于难以解决的问题,这些算法都需要巨大的计算资源 - 最有经验的“组合爆炸”:内存或电脑的时间需要天文数字的问题时,超过一定规模的量。
寻找更有效的解决问题的算法是人工智能研究的一个高度优先事项。 人类解决他们的问题,使用快速,直观的判断,而不是有意识的,一步一步的演绎,早期人工智能的研究是能够模拟。
AI一直在模仿这种“子象征性”问题的解决取得了一些进展:
体现剂的方法强调的重要性ofsensorimotor技能,以更高的推理; 神经网络的研究试图模拟人类和动物的大脑,让这个技能的内部结构。 缺省推理和资格问题
许多事情的人都知道的“工作假设的形式。”例如,如果一只鸟在谈话中,人们通常想象的动物,是拳头大小,唱歌,和苍蝇。
这一切都不是真实的所有鸟类。约翰麦卡锡于1969年确定了这个问题的资格问题:任何常识性规则,人工智能研究人员关心的代表,往往是一个巨大的若干例外情况。几乎没有什么是简单的true或false的方式,抽象的逻辑要求。人工智能的研究,探索出了这个问题的解决方案。[51]
常识性知识的广度,
原子事实,一般人都知道的数量是个天文数字。
尝试的手,建立一个完整的知识基础的常识性知识(例如,CYC)需要大量的艰苦的本体论的工程 - 他们必须建立一个复杂的概念,在时间的研究项目。[52]一个主要目标是有计算机理解足够的能够读取来源,如互联网学习的概念,从而可以添加到自己的本体。
子象征性的一些常识
许多人都知道什么是没有代表的“事实”或“报表”,实际上,他们可以大声的说出来。例如,国际象棋大师将避免国际象棋一个特定的位置,因为它“感觉太暴露了”一名艺术评论家,可以采取一看,在一尊雕像,并立即意识到,这是假的。[54]这是直觉或倾向,表示不自觉地和子象征性的。
[55]这样的知识在大脑中的通知,支持,并提供了一个象征性的,有意识的知识背景。与子符号推理的相关问题,希望位于AI智能计算将提供这方面的知识的方式来表示。
规划
主要文章:自动规划与调度
学习
主要文章:学习机
自然语言处理
ASIMO使用传感器和智能算法,以避开障碍物和导航楼梯。
主要文章:自然语言处理
自然语言处理[64]给出了机器的能力,阅读和理解人类的语言说话。许多研究人员希望,一个足够强大的自然语言处理系统,将能够获得自己的知识,在互联网上提供的现有文本阅读。一些简单的应用程序包括信息检索,
自然语言处理(或文本挖掘)和机器翻译。[65]
运动和操纵
主要文章:机器人
机器人领域[66]是密切相关的AI。情报需要机器人能够处理等任务对象的操作[67]和导航,本地化的子问题(知道你在哪里),映射(学习什么是你周围)和运动规划(找出如何那里)。[68]
感觉
主要文章:机器感知,计算机视觉,语音识别
机器感知[69]使用输入推断出方面的world.Computer视觉传感器(如摄像机,麦克风,声纳和其他更奇特的)[70]的能力,分析视觉输入的能力。几个选定的子是语音识别,[72] [71]面部识别和物体识别。
社会智力
主要文章:情感计算
天命,机器人基本的社交技巧
情感和社会技能[73]一个智能代理扮演两个角色。首先,它必须能够预测他人的行为,了解他们的动机和情感状态。 (这涉及博弈论,决策论,以及模拟人类的情绪和感知能力,以检测情绪的能力)。此外,良好的人机交互,智能机也需要显示的情绪。最起码,它必须出现的人类交互的礼貌和敏感。在最好的情况下,它应该有正常的情感本身。
创造力
主要文章:计算创意
Topio的,可以打乒乓球的机器人,开发TOSY。
一分田的AI地址创造性的理论从哲学和心理学的角度和实践(通过系统的具体实现,产生输出,可以被认为是创造性的)。计算相关领域的研究,是人工的直觉和人工想象。
一般智力
主要文章:强大的AI和AI完成
大多数研究人员希望,他们的工作将最终将被纳入一般智力的机器(被称为强大的AI),结合以上所有的技能和超过人的能力在大多数或所有的人。
[12]有几个相信,像人工意识anthropomorphicfeatures或人造大脑可能会需要这样的项目。[74]
许多上述问题被认为是AI完成:解决一个问题,你必须解决这些问题。例如,即使是一个简单的,特定的任务,如机器翻译,要求机器按照作者的说法(原因),知道正在谈论什么(知识),并忠实地再现作者的意图(社会智力)。因此,机器翻译,被认为是AI完成:它可能需要强大的AI以及人类能做到这一点。[75]
方法
有没有建立统一的理论或范式,引导人工智能的研究。研究人员不同意有关的许多问题。[76]有几个最久的问题,尚未得到答复是:人工智能模拟自然的智慧,通过学习心理学,神经学?或者是不相关的人类生物学,人工智能研究鸟类的生物学航空工程?[77]智能行为的描述,使用简单,优雅的原则(如逻辑或优化)?它一定需要解决大量完全无关的问题呢?[78]智能
转载使用高层次的符号,类似的话和想法? [79]还是需要“子象征性的”处理?
控制理论与脑模拟
主要文章:控制论和计算神经科学
有没有达成共识的大脑应该是模拟如何密切。
在20世纪40年代和50年代,许多研究者探讨神经病学,信息论和控制论之间的连接。他们中的一些内置的机器,用电子网络表现出起码的情报,,如沃尔特·W.灰色的海龟和约翰霍普金斯大学的野兽。这些研究人员齐聚一堂,会议的目的论在普林斯顿大学协会和俱乐部在英国比[24]到1960年,基本上放弃了这种方法,虽然它的元素将恢复在20世纪80年代。
符号
主要文章:良好的老式人工智能
当进入数字式计算机成为可能,在20世纪50年代中期开始,AI的研究,探索人的智力可以减少符号操纵的可能性。三个机构债务工具中央结算系统,斯坦福大学和麻省理工学院的研究为中心,每一个研究开发出了自己的风格。约翰·Haugeland命名这些方法AI“好老土AI”或“GOFAI”。[80]
逻辑基础
与纽厄尔和西蒙,约翰·麦卡锡认为,机器没有需要模拟人类的思维,而应该尝试找到抽象推理和解决问题的本质,无论人们是否使用相同的算法
[77]他在斯坦福大学的实验室( SAIL)专注于使用正式的逻辑来解决各种各样的问题,包括知识表示,规划和学习。[83]逻辑的工作重点在爱丁堡和欧洲其他地方的编程语言Prolog的发展科学的逻辑编程。[84]
“反逻辑”或“邋遢”
在麻省理工学院的研究人员(如马文·明斯基和西摩纸)[85]发现,解决困难的问题,在视觉和自然语言处理所需的临时解决方案 - 他们认为,有没有简单的一般原则(如逻辑),将捕获所有方面的智能行为。罗杰Schankdescribed他们的“反逻辑”的方法为“邋遢”(作为反对的“整齐”的范例在CMU和斯坦福大学)。[78]常识性的知识基础(如Doug的陈忠郁)的“邋遢”AI的一个例子,因为必须建立在一个时间的手,一个复杂的概念。
[86]
基于知识的
当具有大容量内存的计算机成为所有三个传统的研究人员从1970年左右,开始建立知识转化为AI应用程序。[87]这种“知识革命”导致了专家系统的开发和部署的爱德华·费根鲍姆提出的第一个真正的成功的AI软件。
[35]是由许多简单的人工智能应用的实现,将需要大量的知识,也推动了知识革命。
小符号
在20世纪60年代,象征性的方法取得了巨大成功,在模拟小型示范项目的高层次思维。方法的基础oncybernetics或神经网络被遗弃或推到背景中。[88] 20世纪80年代,但是,进步的象征性AI似乎摊位,很多人认为
是象征性的系统将永远无法完全模仿人类认知的过程,尤其是感知,机器人技术,学习和模式识别。一些研究人员开始研究“子象征性”的方法,具体的AI问题。[79]
自底向上的,具体的,位于,行为或基于新式AI
研究人员从相关领域的机器人,如罗德尼·布鲁克斯,拒绝象征性AI和重点,使机器人移动和生存的基本的工程问题。[89]他们的工作恢复了非象征性的角度来看,早期的控制论研究的50年代和重新使用的控制理论在AI。这正好与所实施的头脑认知科学领域的相关论文:思想,身体方面(如运动,感知和可视化)需要更高的智力发展。
计算智能
在神经网络中的利息和“联结”的复兴大卫鲁梅哈特和其他人在20世纪80年代中期。[90]这些和其他子象征性的方法,如模糊系统和进化计算,现在集体研究的新兴学科的计算智能[91]。
统计
在20世纪90年代,人工智能研究人员开发出复杂的数学工具来解决具体的子问题。这些工具是真正的科学,在这个意义上,他们的结果是可衡量的和可核查的,他们一直负责许多AI最近取得的成功。共享的数学语言也允许一个高层次的合作与更成熟的领域(如数学,经济学或运筹学)。斯图尔特罗素和彼得彼特的描述这项运动不到的“革命”和“非紧急救护车队的胜利。”[38]
整合的方法
智能代理范式
智能代理是一个系统,感知环境,并采取措施,最大限度地提高成功的机会。最简单的智能代理程序解决具体问题。最复杂的智能代理是理性的,思考人类[92]的范式为研究人员提供了授权,研究孤立的问题,并找出解决方案,可核查的和有用的,不同意在一个单一的方法。剂,解决一个具体的问题,可以使用任何方法,工作原理 - 一些代理商是象征性的,合乎逻辑的,有些是象征性的子神经网络和其他人可能使用新的方法。该模式也为研究人员提供了一个共同的语言进行沟通与其他领域,如决策理论和经济学,还可以使用抽象代理的概念。智能代理范式在20世纪90年代被广泛接受。
[93]
代理体系结构和认知结构
研究人员设计了系统构建智能系统的相互作用在多Agent系统的智能代理。[94]系统的符号和象征性的子组件是一种混合智能系统,这样的系统是人工智能系统集成的研究。一个层次最低,反应水平和传统的象征性AI的最高水平,宽松的时间限制,允许规划和世界的建模,控制系统子象征性AI之间架起了一座桥梁。[95]罗德尼·布鲁克斯的包容结构是一个早期的建议这样的分级系统。
工具
在50多年的研究过程中,,AI已经开发了大量的工具来解决最困难的问题,在计算机科学。下面讨论这些方法中最一般的几个。
搜索和优化
主要文章:搜索算法,优化(数学),和进化计算
在AI的许多问题是可以解决的理论,通过多种可能的解决方案:智能搜索[96]推理可以减少执行搜索。 [97]例如,逻辑证明可以被看作是搜索的路径,导致处所的结论,其中每一步的推理规则是应用规划的目标和子目标树算法,通过搜索,试图找到一条通往目标的目标,这个过程被称为手段 - 目的分析[98]。Roboticsalgorithms移动四肢和把握对象的使用本地搜索,在配置空间。[67]许多学习算法,使用基于搜索算法的onoptimization。
简单的穷举搜索最现实世界的问题是远远不够的[99]:在搜索空间的地方(搜索),很快就会astronomicalnumbers。其结果是,过慢或无法完成的搜索。 ,许多问题,解决的办法是使用“启发式”或“经验法则”,消除选择,是不太可能导致目标(称为“修剪搜索树”)。启发式程序提供一个“最好的猜测”,解决的办法是什么样的路径上。[100]
一个非常不同的搜索开始崭露头角,在20世纪90年代,基于优化的数学理论。对于很多问题,这是可能的,开始搜索与某种形式的猜测,然后细化增量的猜测,直到没有更多的改进可以。这些算法可以可视化的作为盲爬山:我们开始搜索一个随机点的景观,然后,通过跳跃或步骤,我们继续前进,我们的猜测上坡,直到我们到达山顶。其他优化算法,模拟退火算法,梁搜索和随机优化。[101]
进化计算,使用优化搜索的一种形式。例如,他们可能会开始与人口的生物(猜测),然后让他们变异和重组,只选择最适合的,每一代人生存(提炼的猜测)。表格进化计算包括群intelligencealgorithms的(如蚁群粒子群优化)[102]和进化算法(如遗传算法[103]和遗传规划[104] [105])。
逻辑
主要文章:逻辑编程和自动推理。
逻辑[106]引入人工智能的研究由约翰·麦卡锡在他的1958年建议接受者的建议。[107]用于知识表示和解决问题的逻辑,但它可以被应用到其他的问题。例如,satplan算法使用逻辑规划[108]和归纳逻辑程序是这样一种方法forlearning [109]
人工智能的研究中使用的几种不同形式的逻辑。命题或句子的逻辑[110]是真或假的陈述,其中的逻辑。一阶逻辑[111]还允许使用的量词和谓词,并能表达对象的事实,性质,和他们的相互关系。模糊逻辑,[112]是一阶逻辑的一个版本,它允许真理的一份声明中表示为0和1之间的值,而不是简单地真(1)或FALSE(0)。用于模糊systemscan被不确定性推理,并已广泛应用于现代工业和消费电子产品控制系统。不同的和更明确的方式比模糊逻辑的的主观逻辑模型的不确定性:一个给定的的二项式认为满足“信念”+“难以置信+ Beta分布的不确定性= 1个。通过这种方法,无知可以区别于概率报表代理使得具有高可信度。默认的逻辑,非单调逻辑和界限[51]形式逻辑设计,以帮助默认推理和资格问题。一些扩展的逻辑被设计来处理特定的的域ofknowledge,如:描述逻辑[45]情景演算,演算和一口流利的事件积分(代表事件和时间); [46]因果关系演算[47]的信念积分;模态逻辑
[48]。
概率不确定性推理方法
主要文章:贝叶斯网络,隐马尔可夫模型,卡尔曼滤波,决策理论,效
用理论
推理,计划,学习,感知和机器人AI()中的许多问题需要代理操作,不完整或不确定的信息。在80年代末和90年代初开始,犹太珍珠和其他倡导使用从概率论和经济学的方法,设计一个功能强大的工具来解决这些问题。[113] [114]
贝叶斯网络[115]是一个非常通用的工具,可用于大量的问题:推理(使用贝叶斯推理算法),[116]学习(使用期望最大化算法),[117]规划(使用的决定网络)[118]和感知(使用动态贝叶斯网络)。[119]概率算法也可以被用于滤波,预测,平滑和找到的流的数据的解释,帮助感知系统的分析[120随着时间的推移发生的进程] (例如,隐马尔可夫模型[121]或[122]卡尔曼滤波器)。
从经济学的科学的一个重要概念是“实用”的措施多么宝贵的东西是一个智能代理。精确的数学工具已经开发出来,分析如何剂可以使选择和规划,决策理论,决策分析,[123]信息价值理论。[57]这些工具包括模型如马尔可夫决策过程,[124]动态决策网络[124]博弈论和机制设计[125]。
分类器和统计学习方法
主要文章:(数学),统计分类,分类和机器学习
最简单的AI应用程序可以被分为两种类型:分类器(“如果光泽然后钻石”)和控制器(“如果光泽然后拿起”)。控制器然而,分类条件之前推断的行动,因此,分类形成许多AI系统的核心部分。分类功能,使用模式匹配来确定一个最接近的匹配。它们可以根据实施例被调谐,使它们非常有吸引力的用于在AI。这些实施例中是已知的作为观察或图案。在监督学习中,每个模式有一定的预定义类。可以被看作是具有以作出决定的一类。所有的意见结合自己的类标签被称为一个数据集。当接收到一个新的观察,分类,根据以往的经验,观察。[126]
可以训练一个分类,以不同的方式,有许多统计和机器学习方法。使用最广泛的分类是神经网络,[127]内核的方法,如支持向量机,[128] k-近邻算法,[129]高斯混合模型,[130]朴素贝叶斯分类器,[131]和决策树。
[132]这些分类器的性能已经比在宽范围内的任务。分类器的性能在很大程度上取决于对数据进行分类的特性。没有单一的分类效果最好的在所有给定的问题,这也被称为“没有免费的午餐”定理。对于一个给定的问题确定一个合适的分类仍然是一门艺术,而不是科学。[133]
神经网络
主要文章:神经网络和联结
神经网络是一个相互关联的一组节点,类似于在人类大脑中的神经元的庞大网络。
人工神经网络的研究[127]在10年开始成立,前场的AI研究在沃尔特·皮茨和沃伦·麦卡洛的工作。其他重要的早期研究人员弗兰克·罗森布拉特是谁发明的感知和开发的BP算法的的保罗Werbos,[134]
的主要类别的网络是无环或前馈神经网络(其中的信号通过仅在一个方向)andrecurrent神经网络(允许反馈)。其中最流行的前馈网络感知器,多层感知器,径向基函数神经网络[135]在经常性的网络,最有名的是
Hopfield网络,吸引子网络的一种形式,这是第一次由约翰·霍普菲尔于1982年。 [137] 136]神经网络可以应用于智能控制的问题(机器人)或学习,使用这样的技术作为Hebbian学习和有竞争力的学习。
杰夫·霍金斯认为,在神经网络的研究已经停滞,因为它未能建模的基本属性theneocortex,并提出了一个模型(分层时间记忆),是基于神经学研究[138]。
控制理论
主要文章:智能控制
控制理论,控制论的孙子,有许多重要的应用,特别是在机器人技术。
[139]
语
人工智能编程语言的主要文章:
AI人工智能的研究,研究人员已经开发出多种专用语言,包括Lisp的
[140]和Prolog [141]。
评估进展情况
主要文章:在人工智能的研究进展
如何才能确定如果代理是智能? 1950年,阿兰·图灵提出了一个通用的智能代理,现在被称为图灵测试程序来测试。这个程序允许几乎所有的人工智能的主要问题进行测试。然而,这是一个非常困难的挑战,目前所有代理失败。
人工智能也可以评估的具体问题,如化学,手写识别和玩游戏的小问题。这样的测试被称为图灵测试主题专家。较小的问题,提供更多可实现的目标,并有不断增加的一些积极成果。
AI测试结果为两大类:
?最佳:它是不可能有更好的表现
?强大的超人类的表现比所有的人
?超人类:执行比大多数人更好
?子人:执行比大多数人更糟糕
例如,在草案的性能是最优的,[142]在国际象棋比赛中的表现是超人类和接近强超人类,[143]和性能在许多日常事务由人执行的是分人。
一种完全不同的方法进行测试,从数学定义智能测量机智能。这些类型的测试设计的智力测验使用柯尔莫哥洛夫复杂性和数据压缩的概念从90年代后期开始的。[144] [145]相似的机器智能的定义已提出马库斯 - 胡特尔在他的著作通用人工智能(施普林格2005 ),一个想法由美和胡特尔的进一步发展。[146]数学定义的两个主要优点是适用于非人类的智能,没有人测试人员的要求。
应用
主要文章:人工智能的应用
人工智能已成功应用在广泛的领域,包括医疗诊断,买卖股票,机器人控制,法律,科学发现,电子游戏,玩具,和网络搜索引擎。通常情况下,当技术达到主流应用,它不再被认为是人工智能的AI效果,有时被描述为
[147],它也可能成为集成到人工生命。
比赛及奖品
主要文章:在人工智能的比赛及奖品
有一些比赛和奖品,以促进人工智能的研究。促进主要领域有:普通机器智能,对话行为,数据挖掘,无人驾驶汽车,机器人足球比赛和游戏。
平台
的平台(或“计算平台”)被定义为“某种硬件架构软件架构(包括应用程序框架),允许软件运行。”由于罗德尼·布鲁克斯[148]指出,很多年前,它不是人工智能软件,它定义了AI功能的平台,而平台本身的实际影响的结果,即,我们需要工作的AI对现实世界的平台,而不是孤立的人工智能问题。
各种各样的平台,允许不同的AI方面的发展,从专家系统,尽管基于PC的,但仍然是整个真实世界的系统,各种机器人平台与开放的接口,如广泛使用的伦巴[149]
哲学
主要文章:人工智能哲学
人工智能,自称是能够重新的能力,人的心灵,是一个挑战,也是哲学的灵感。智能机可以有限制吗?人类智能和人工智能之间是有本质上的区别吗?一台机器可以有一记andconsciousness?下面给出几个最有影响力的这些问题的答案。[150]
图灵的“礼貌公约”
如果一台机器作为智能作为一个人,那么它是作为一个人的智能。阿兰·图灵的理论,最终,我们只能判断基于行为的智能机器。这个理论形成图灵测试的基础上的[151]
达特茅斯的建议
“学习的每一个方面或任何其他功能的智能可以如此精确地描述,一台机器可以模拟它。” [152]这种说法被印在1956年的达特茅斯会议的建议,和代表工作的人工智能研究人员的位置。
纽厄尔和西蒙的物理符号系统假设
“物理符号系统具有必要的和足够的手段,一般明智的行动。”纽厄尔和西蒙认为,智力是由的正式运营符号。[153]休伯特·德雷福斯认为,相反,人类的专业知识依赖于无意识的本能,而不是自觉的符号操作,有“感觉”的局面,而不是明确的象征意义知识。 (见德雷福斯的批评AI)[154]
[155]
哥德尔不完备定理
一个正式的系统(如计算机程序)不能证明所有真实的陈述。罗杰·彭罗斯是在那些谁主张,哥德尔定理的限制机器可以做什么。 (见皇帝的心灵。)[156] [157]
塞尔强大的AI假说
“用正确的输入和输出的适当编程的计算机将因此在同样的意义上,人类有思想有自己的主见。”[158]塞尔计数器这一说法与他的中国房间的说法,这要求我们看看里面的计算机,并尝试找到可能的“心”。[159]
人造大脑参数
可以模拟大脑。 [160]汉斯·摩拉瓦河,雷库日韦尔和其他人认为,它是大脑直接复制到硬件和软件技术上是可行的,而且,这种模拟将原来的基
本上是相同的。
原有文献
Artificial intelligence (AI) is the intelligence of machines and the branch of computer science that aims to create it.
Textbooks define the field as
?
o
o
o
o
o
o
o
o
o
o
?
o
o
o
o
o
?
o
o
o
o
o
o
o ?
? 4 Tools 4.1 Search and optimization 4.2 Logic 4.3 Probabilistic methods for uncertain reasoning 4.4 Classifiers and statistical learning methods 4.5 Neural networks 4.6 Control theory 4.7 Languages 5 Evaluating progress 6 Applications 2 Problems 2.1 Deduction, reasoning, problem solving 2.2 Knowledge representation 2.3 Planning 2.4 Learning 2.5 Natural language processing 2.6 Motion and manipulation 2.7 Perception 2.8 Social intelligence 2.9 Creativity 2.10 General intelligence 3 Approaches 3.1 Cybernetics and brain simulation 3.2 Symbolic 3.3 Sub-symbolic 3.4 Statistical 3.5 Integrating the approaches
o
o
?
? 6.1 Competitions and prizes 6.2 Platforms 7 Philosophy 8 Prediction
Deduction, reasoning, problem solving
Early AI researchers developed algorithms that imitated the step-by-step reasoning those humans were often assumed to use when they solve puzzles play board games or make logical deductions.
By the late 1980s and '90s, AI research had also developed highly successful methods for dealing with or incomplete information, employing concepts from and .
For difficult problems, most of these algorithms can require enormous computational resources — most experience a
The search for more efficient problem solving algorithms is a high priority for AI research. Human beings solve most of their problems using fast, intuitive judgments rather than the conscious, step-by-step deduction that early AI research was able to model.
AI has made some progress at imitating this kind of
approaches emphasize the importance of skills to higher reasoning; research attempts to simulate the structures inside human and animal brains that give rise to this skill. and the
Many of the things people know take the form of
The number of atomic facts that the average person knows is astronomical.
Research projects that attempt to build a complete knowledge base of (e.g., ) require enormous amounts of laborious — they [51]
must be built, by hand, one complicated concept at a time. A major goal is to have the computer understand enough concepts to be able to learn by reading from sources like the internet, and thus be able to add to its own ontology.
The sub symbolic form of some
Much of what people know is not represented as
[55]and sub-symbolically. Knowledge like this informs, supports and provides a context for
symbolic, conscious knowledge. As with the related problem of sub-symbolic reasoning, it is hoped that or will provide ways to represent this kind of knowledge. ]
Planning
Main article:
Learning
Main article:
Natural language processing
uses sensors and intelligent algorithms to avoid obstacles and navigate stairs.
Main article:
[64] gives machines the ability to read and understand the languages that humans speak. Many researchers hope that a sufficiently powerful natural language processing system would be able to acquire knowledge on its own, by reading the existing text available over the internet. Some straightforward applications of natural language processing include (or ) and .[65]
Motion and manipulation
Main article:
The field of [66] is closely related to AI. Intelligence is required for robots to be able to
handle such tasks as object manipulation and , with sub-problems
of (knowing where you are), (learning what is around you) and (figuring out how to get there).
Perception
Main articles: , , and
[69] is the ability to use input from sensors (such as cameras, microphones,
[70]sonar and others more exotic) to deduce aspects of the world.analyze visual input. A few selected subproblems are , and .[72][71] is the ability to
Social intelligence
Emotion and social skills[73] play two roles for an intelligent agent. First, it must be able to predict the actions of others, by understanding their motives and emotional states. (This involves
elements of , , as well as the ability to model human emotions and the perceptual skills to detect emotions.) Also, for good , an intelligent machine also needs to display emotions. At the very least it must appear polite and sensitive to the humans it interacts with. At best, it should have normal emotions itself. Creativity
A sub-field of AI addresses both theoretically (from a philosophical and psychological perspective) and practically (via specific implementations of systems that generate outputs that can be considered creative). A related area of computational research is and .
General intelligence
Main articles: and
Most researchers hope that their work will eventually be incorporated into a machine
with general intelligence (known as ), combining all the skills above and exceeding human abilities at most or all of them.[12] A few believe that features
[74]like or an may be required for such a project.
Many of the problems above are considered : to solve one problem, you must solve them all. For example, even a straightforward, specific task like requires that the machine follow the author's argument (), know what is being talked about (), and faithfully reproduce the author's intention (). , therefore, is believed to be AI-complete: it may require to be done as well as humans can do it.[75] Approaches
There is no established unifying theory or that guides AI research. Researchers disagree about many issues.[76] A few of the most long standing questions that have remained unanswered are these: should artificial intelligence simulate natural intelligence, by
studying or ? Or is human biology as irrelevant to AI research as bird biology is to ?[77] Can intelligent behavior be described using simple,
[78]elegant principles (such as or optimization)? Or does it necessarily require solving a large number of completely unrelated problems? Can intelligence be reproduced using high-level
[79]symbols, similar to words and ideas? Or does it require
Cybernetics and brain simulation
Main articles: and
There is no consensus on how closely the brain should be .
In the 1940s and 1950s, a number of researchers explored the connection between , , and . Some of them built machines that used electronic networks to exhibit rudimentary intelligence, such as 's and the . Many of these researchers gathered for meetings of the Teleological Society at and the in
England. By 1960, this approach was largely abandoned, although elements of it would be revived in the 1980s.
Symbolic
Main article:
When access to digital computers became possible in the middle 1950s, AI research began to explore the possibility that human intelligence could be reduced to symbol manipulation. The research was centered in three institutions: , and , and each one developed its own style of research. named these approaches to AI
Logic based Unlike and , felt that machines did not need to simulate human thought, but should instead try to find the essence of abstract reasoning and problem solving, regardless of whether people used the same algorithms.[80] His laboratory at () focused on using formal to solve a wide variety of problems, including , and . Logic was
also focus of the work at the Edinburgh and elsewhere in Europe which led to the development of the programming language and the science of
.
Researchers at (such as and ) found that solving difficult problems in and required ad-hoc solutions – they argued that there was no simple and general principle (like ) that would capture all the aspects of intelligent behavior. described their
Knowledge based
When computers with large memories became available around 1970, researchers from all three traditions began to build into AI applications. This
During the 1960s, symbolic approaches had achieved great success at simulating high-level thinking in small demonstration programs. Approaches based on or were abandoned or pushed into the background.[88] By the 1980s, however, progress in symbolic AI seemed to stall and many believed that symbolic systems would never be able to imitate all the processes of human cognition,
especially , , and . A number of researchers began to look into
Researchers from the related field of , such as , rejected symbolic AI and focused on the basic engineering problems that would allow robots to move and survive.[89][79] Their work revived the non-symbolic viewpoint of the early researchers of the 50s and reintroduced the use of in AI. This coincided with the development of the in the related field of : the idea that aspects of the body (such as movement, perception and visualization) are required for higher intelligence.
Computational Intelligence
Interest in and
the middle 1980s. These and other sub-symbolic approaches, such as and , are now studied collectively by the emerging discipline of .
Statistical
In the 1990s, AI researchers developed sophisticated mathematical tools to solve specific sub problems. These tools are truly , in the sense that their results are both measurable and verifiable, and they have been responsible for many of AI's recent successes. The shared mathematical language has also permitted a high level of collaboration with more established fields (like , or ). and describe this movement as nothing less than a
Integrating the approaches
Intelligent agent paradigm
An is a system that perceives its environment and takes actions which maximizes its chances of success. The simplest intelligent agents are programs that solve specific problems. The most complicated intelligent agents are rational, thinking humans.[92] The paradigm gives researchers license to study isolated problems and find solutions that are both verifiable and useful, without agreeing on one single approach. An agent that solves a specific problem can use any approach that works — some agents are symbolic and logical, some are sub-symbolic and others may use new approaches. The paradigm also gives researchers a common language to communicate with other fields—such as and —that also use concepts of abstract agents. The intelligent agent paradigm became widely accepted during the 1990s. and [93] Researchers have designed systems to build intelligent systems out of interacting in a .[94] A system with both symbolic and sub-symbolic components is a , and the study of such systems is . A provides a bridge between sub-symbolic AI at its lowest, reactive levels and traditional symbolic AI at its highest levels, where relaxed time constraints permit planning and world modeling.[95] ' was an early proposal for such a hierarchical system. Tools
In the course of 50 years of research, AI has developed a large number of tools to solve the most difficult problems in . A few of the most general of these methods are discussed below.
Search and optimization
Main articles: , , and Many problems in AI can be solved in theory by intelligently searching through many possible solutions:[96] can be reduced to performing a search. For example, logical proof can
[97]be viewed as searching for a path that leads from to , where each step is the application of an .
[98] algorithms search through trees of goals and subgoals, attempting to find a path to a target goal, a process called . algorithms for moving limbs and grasping objects use [67] in .on.
Simple exhaustive searches[99] Many algorithms use search algorithms based are rarely sufficient for most real world problems: the (the number of places to search) quickly grows to numbers. The result is a search that is or never completes. The solution, for many problems, is to use
A very different kind of search came to prominence in the 1990s, based on the mathematical theory of . For many problems, it is possible to begin the search with some form of a guess and then refine the guess incrementally until no more refinements can be made. These algorithms can be visualized as blind : we begin the search at a random point on the landscape, and then, by jumps or steps, we keep moving our guess uphill, until we reach the top. Other optimization algorithms are , and .[101] uses a form of optimization search. For example, they may begin with a population of organisms (the guesses) and then allow them to mutate and
recombine, only the fittest to survive each generation (refining the guesses). Forms of include algorithms (such as or )[103][102] and (such as ). and [104][105]
Logic
Main articles: and
[106] was introduced into AI research by in his 1958 proposal.[108] Logic is used for knowledge representation and problem solving, but it can be applied to other problems as well. For example, the algorithm uses logic for and is a method for.
[110]Several different forms of logic are used in AI research. or the logic of statements which can be true or false. First-order logic[111] is also allows the use
of and , and can express facts about objects, their properties, and their relations with each other. , is a version of first-order logic which allows the truth of a statement to be represented as a value between 0 and 1, rather than simply True (1) or False (0). can be used for uncertain reasoning and have been widely used in modern industrial and consumer product control systems. models uncertainty in a different and more explicit manner than fuzzy-logic: a given binomial opinion satisfies belief + disbelief + uncertainty = 1 within a . By this method, ignorance can be
distinguished from probabilistic statements that an agent makes with high confidence. , and [51]are forms of logic designed to help with
default reasoning and the . Several extensions of logic have been designed to handle specific domains of, such as: ; , and (for representing events and time);; belief calculus; and . Probabilistic methods for uncertain reasoning
Main articles: , , , , and
Many problems in AI (in reasoning, planning, learning, perception and robotics) require the agent to operate with incomplete or uncertain information. Starting in the late 80s and early 90s, and others championed the use of methods drawn from theory and to devise a number of powerful tools to solve these problems.[115] are a very general tool that can be used for a large number of problems:
reasoning (using the algorithm),the ),) (using (using Probabilistic algorithms
and (using ).can also be used for filtering, prediction, smoothing and finding explanations for streams of data, helping systems to analyze processes that occur over time[121] (e.g., or [122]).
A key concept from the science of is
Main articles: , , and
The simplest AI applications can be divided into two types: classifiers (
systems. are functions that use to determine a closest match. They can be tuned according to examples, making them very attractive for use in AI. These examples are known as observations or patterns. In supervised learning, each pattern belongs to a certain predefined class. A class can be seen as a decision that has to be made. All the observations combined with their class labels are known as a data set. When a new observation is received, that observation is classified based on previous experience.A classifier can be trained in various ways; there are many statistical and approaches. The most widely used classifiers are the ,
such as the ,,[127] , , and . The performance of these classifiers have been compared over a wide range of tasks. Classifier performance depends greatly on the characteristics of the data to be classified. There is no single classifier that works best on all given problems; this is also referred to as the
Neural networks
The study of [127] began in the decade before the field AI research was founded, in the work of and . Other important early researchers were , who invented the and who developed the algorithm. The main categories of networks are acyclic or (where the signal passes in only one direction) and (which allow feedback). Among the most popular feedforward networks are , and . Among recurrent networks, the most famous is the , a form of
attractor network, which was first described by in 1982.
Neural networks can be applied to the problem of (for robotics) or , using such techniques as and .
argues that research in neural networks has stalled because it has failed to model the essential properties of the, and has suggested a model () that is based on neurological research.
Control theory
Main article: , the grandchild of , has many important applications, especially in .[139]
Language
Main article:
AI researchers have developed several specialized languages for AI research,
including [140] and . Evaluating progress
Main article:
How can one determine if an agent is intelligent? In 1950, Alan Turing proposed a general procedure to test the intelligence of an agent now known as the . This procedure allows almost all the major problems of artificial intelligence to be tested. However, it is a very difficult challenge and at present all agents fail.
Artificial intelligence can also be evaluated on specific problems such as small problems in chemistry, hand-writing recognition and game-playing. Such tests have been termed . Smaller problems provide more achievable goals and there are an ever-increasing number of positive results.
The broad classes of outcome for an AI test are:
?
?
?
? Optimal: it is not possible to perform better Strong super-human: performs better than all humans Super-human: performs better than most humans Sub-human: performs worse than most humans
[142]For example, performance at is optimal,and nearing strong super-human,humans is sub-human. [143] performance at chess is super-human and performance at many everyday tasks performed by
A quite different approach measures machine intelligence through tests which are developed from mathematical definitions of intelligence. Examples of these kinds of tests start in the late nineties devising intelligence tests using notions from and .[144][145] Similar definitions of machine intelligence have been put forward by Marcus Hutter in his book Universal Artificial Intelligence (Springer 2005), an idea further
developed by Legg and Hutter. Two major advantages of mathematical definitions are their applicability to nonhuman intelligences and their absence of a requirement for human testers.
Applications
Main article:
Artificial intelligence has successfully been used in a wide range of fields including , , , , scientific discovery, , toys, and . Frequently, when a technique reaches mainstream use, it is no longer considered artificial intelligence, sometimes described as the .integrated into . It may also become
Competitions and prizes
Main article:
There are a number of competitions and prizes to promote research in artificial intelligence. The main areas promoted are: general machine intelligence, conversational behavior, data-mining, driverless cars, robot soccer and games.
Platforms A (or
software framework (including application frameworks), that allows software to run.
A wide variety of platforms has allowed different aspects of AI to develop, ranging from , albeit PC-based but still an entire real-world system to various robot platforms such as the widely available Roomba with open interface.
Philosophy
Main article:
Artificial intelligence, by claiming to be able to recreate the capabilities of the human , is both a challenge and an inspiration for . Are there limits to how intelligent machines can be? Is there an essential difference between human intelligence and artificial intelligence? Can a machine have a and? A few of the most influential answers to these questions are given below.[150]
If a machine acts as intelligently as a human being, then it is as intelligent as a human being. theorized that, ultimately, we can only judge the intelligence of a machine based on its behavior. This theory forms the basis of the .The
unconscious instinct rather than conscious symbol manipulation and on having a
A (such as a computer program) can not prove all true statements. is among those who claim that G?del's theorem limits what machines can do. (See .)[156][157]
The brain can be simulated. , and others have argued that it is technologically feasible to copy the brain directly into hardware and software, and that such a simulation will be essentially identical to the original.