博弈论 纳什均衡

2024-05-06 01:19

1. 博弈论 纳什均衡

建立方程曲线
根据赌徒的性判断选择策略的概率

博弈论 纳什均衡

2. 博弈论的纳什均衡

纳什均衡(Nash Equilibrium):在一策略组合中,所有的参与者面临这样一种情况,当其他人不改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博弈中,当局中人A采取其最优策略a*,局中人B也采取其最优策略b*,如果局中人仍采取b*,而局中人A却采取另一种策略a,那么局中人A的支付不会超过他采取原来的策略a*的支付。这一结果对局中人B亦是如此。这样,“均衡偶”的明确定义为:一对策略a*(属于策略集A)和策略b*(属于策略集B)称之为均衡偶,对任一策略a(属于策略集A)和策略b(属于策略集B),总有:偶对(a, b*) ≤ 偶对(a*,b*) ≥偶对(a*,b)。对于非零和博弈也有如下定义:一对策略a*(属于策略集A)和策略b*(属于策略集B)称为非零和博弈的均衡偶,对任一策略a(属于策略集A)和策略b(属于策略集B),总有:对局中人A的偶对(a, b*) ≤偶对(a*,b*);对局中人B的偶对(a*,b)≤偶对(a*,b*)。有了上述定义,就立即得到纳什定理:任何具有有限纯策略的二人博弈至少有一个均衡偶。这一均衡偶就称为纳什均衡点。纳什定理的严格证明要用到不动点理论,不动点理论是经济均衡研究的主要工具。通俗地说,寻找均衡点的存在性等价于找到博弈的不动点。   纳什均衡点概念提供了一种非常重要的分析手段,使博弈论研究可以在一个博弈结构里寻找比较有意义的结果。但纳什均衡点定义只局限于任何局中人不想单方面变换策略,而忽视了其他局中人改变策略的可能性,因此,在很多情况下,纳什均衡点的结论缺乏说服力,研究者们形象地称之为“天真可爱的纳什均衡点”。塞尔顿(R·Selten)在多个均衡中剔除一些按照一定规则不合理的均衡点,从而形成了两个均衡的精炼概念:子博弈完全均衡和颤抖的手完美均衡。 囚徒困境在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoner's dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。  囚徒困境博弈 [Prisoner's dilemma]A╲B  坦白  抵赖  坦白  8,8  0,10  抵赖  10,0  1,1  对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。但是,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡,即纳什均衡。不难看出,此处纳什均衡与帕累托存在冲突。单从数学角度讲,这个理论是合理的,也就是选择都坦白。但在这样多维信息共同作用的社会学领域显然是不合适的。正如中国古代将官员之间的行贿受贿称为“陋规”而不是想方设法清查,这是因为社会体系给人行为的束缚作用迫使人的策发生改变。比如,从心理学角度讲,选择坦白的成本会更大,一方坦白害得另一方加罪,那么事后的报复行为以及从而不会轻易在周围知情人当中的“出卖”角色将会使他损失更多。而8年到10年间的增加比例会被淡化,人的尊严会使人产生复仇情绪,略打破“行规”。我们正处于大数据时代,向更接近事实的处理一件事就要尽可能多地掌握相关资料并合理加权分析,人的活动动影像动因复杂,所以囚徒困境只能作为简化模型参考,具体决策还得具体分析。 智猪博弈 一、经济学中的“智猪博弈”(Pigs’payoffs) 这个例子讲的是:假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽(两猪均在食槽端),另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是在去往食槽的路上会有两个单位猪食的体能消耗,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时行动(去按按钮),收益比是7∶3;小猪先到槽边,收益比是6∶4。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。智猪博弈由纳什于1950年提出。实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪选择等待的话,小猪可得到4个单位的纯收益,而小猪行动的话,则仅仅可以获得大猪吃剩的1个单位的纯收益,所以等待优于行动;在大猪选择等待的前提下,小猪如果行动的话,小猪的收入将不抵成本,纯收益为-1单位,如果小猪也选择等待的话,那么小猪的收益为零,成本也为零,总之,等待还是要优于行动。用博弈论中的报酬矩阵可以更清晰的刻画出小猪的选择:    小猪     行动  等待  大猪  行动  5,1  4,4   等待  9,-1  0,0  从矩阵中可以看出,当大猪选择行动的时候,小猪如果行动,其收益是1,而小猪等待的话,收益是4,所以小猪选择等待;当大猪选择等待的时候,小猪如果行动的话,其收益是-1,而小猪等待的话,收益是0,所以小猪也选择等待。综合来看,无论大猪是选择行动还是等待,小猪的选择都将是等待,即等待是小猪的占优策略。在小企业经营中,学会如何“搭便车”是一个精明的职业经理人最为基本的素质。在某些时候,如果能够注意等待,让其他大的企业首先开发市场,是一种明智的选择。这时候有所不为才能有所为!高明的管理者善于利用各种有利的条件来为自己服务。“搭便车”实际上是提供给职业经理人面对每一项花费的另一种选择,对它的留意和研究可以给企业节省很多不必要的费用,从而使企业的管理和发展走上一个新的台阶。这种现象在经济生活中十分常见,却很少为小企业的经理人所熟识。在智猪博弈中,虽然小猪的“捡现成”的行为从道义上来讲令人不齿,但是博弈策略的主要目的不正是使用谋略最大化自己的利益吗? 美女的硬币 一位陌生美女主动过来和你搭讪,并要求和你一起玩个游戏。美女提议:“让我们各自亮出硬币的一面,或正或反。如果我们都是正面,那么我给你3元,如果我们都是反面,我给你1元,剩下的情况你给我2元就可以了。”听起来不错的提议。如果我是男性,无论如何我是要玩的,不过经济学考虑就是另外一回事了,这个游戏真的够公平吗?  绅士/美女  女正面  女反面  正面  3,-3  -2,+2  反面  -2,+2  1,-1  假设我们出正面的概率是x,反面的概率是1-x。为了使利益最大化,应该在对手出正面或反面的时候我们的收益都相等,不然对手总是可以改变正反面出现的概率让我们的总收入减少,由此列出方程就是3x+(-2)*(1-x)=(-2)*x+1*(1-x)这个方程通俗的说就是在对手一直出正面你得到的利益,和你对手一直出反面得到利益是一样的且最大。解方程得x=3/8,也就是说平均每八次出示3次正面,5次反面是我们的最优策略。而将x=3/8代入到收益表达式3*x+(-2)*(1-x)中就可得到每次的期望收入,计算结果是-1/8元。同样,设美女出正面的概率是y,反面的概率是1-y,列方程-3y+2(1-y)=2y+(-1)*(1-y)解得y也等于3/8,而美女每次的期望收益则是2(1-y)-3y=1/8元。这告诉我们,在双方都采取最优策略的情况下,平均每次美女赢1/8元。其实只要美女采取了(3/8,5/8)这个方案,不论你再采用什么方案,都是不能改变局面的。如果全部出正面,每次的期望收益是(3+3+3-2-2-2-2-2)/8=-1/8元如果全部出反面,每次的期望收益也是(-2-2-2+1+1+1+1+1)/8=-1/8元。而任何策略无非只是上面两种策略的线性组合,所以期望还是-1/8元。但是当你也采用最佳策略时,至少可以保证自己输得最少。否则,你肯定就会被美女采用的策略针对,从而赔掉更多。看起来这个博弈模型似乎没有什么用处,但是其实这可能牵涉了金融市场定价中最重要的一个模型:定价权重模型了。总的来说“博弈论”其本质是将日常生活中的竞争矛盾以游戏的形式表现出来,并使用数学和逻辑学的方法来分析事物的运作规律。既然有游戏的参与者那么也必然存在游戏规则的制定者。深入的了解竞争行为的本质,有助于我们分析和掌握竞争中事物之间的关系,更方便我们对规则进行制定和调整,使其最终按照我们所预期的目的进行运作。

3. 博弈论纳什均衡?

  纳什均衡,Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。
  纳什均衡是一种策略组合,使得同一时间内每个参与人的策略是对其他参与人策略的最优反应。
  假设有n个局中人参与博弈,如果某情况下无一参与者可以独自行动而增加收益(即为了自身利益的最大化,没有任何单独的一方愿意改变其策略的[1]  ),则此策略组合被称为纳什均衡。所有局中人策略构成一个策略组合(Strategy Profile)。纳什均衡,从实质上说,是一种非合作博弈状态。
  纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态,需要注意的是,只有最优策略才可以达成纳什均衡,严格劣势策略不可能成为最佳对策,而弱优势和弱劣势策略是有可能达成纳什均衡的。在一个博弈中可能有一个以上的纳什均衡,而囚徒困境中有且只有一个纳什均衡。

博弈论纳什均衡?

4. 博弈论,纳什均衡

第一题:
1)纳什均衡:(2,1)和(1,2)
2)纯策略纳什均衡点就是1)中的,混合博弈均衡点是男人以2/3概率选择足球,1/3概率选择肥皂剧,女人以2/3概率选择肥皂剧,1/3概率选择足球。纯策略纳什均衡时,男人和女人的期望收益均为1.5,混合策略纳什均衡时,男人和女人的期望收益均为2/3。可见对两人来说都是前者优于后者。
第二题:
1)没有优势策略
2)没有优势策略
3)混合策略纳什均衡为:甲乙都分布以1/3的概率选择石头、剪刀和布。
我这样解释的清楚吗?如果有地方不明白可以再问~

5. 博弈论之纳什均衡

纳什均衡的定义就是:在任何竞争或冲突中,如果各方不愿或者无法沟通,就至少会有一个纳什陷阱等着请君入瓮。
  
 比如那两个囚徒他没法沟通,他们俩在不同的房间里边,这样就阻断了他们的沟通,就一定会有一个纳什陷阱在等着:双方均已选定一种策略,任意一方独自改变策略将会使情形恶化。
  
 假如这两个人是惯犯,在进去之前都已经商量好了,说如果抓住的话打死也不承认,这样的话咱俩都是轻刑。但是如果有任何一方改变事先约定,都会使得情形变得更糟糕,这时候他们就进入到纳什陷阱当中。
  
 在各方都选择了同一策略的情形下,没有一方能够通过独自改变策略而获益,此时的策略搭配和后续结果,就构成了纳什均衡。
  
 就比如说有一方招了,然后你说我坚守,我不招。你不招,你判十年;而对方招了,对方获益,零年。这时候就是陷入纳什陷阱当中,同时达成了一个四四的纳什均衡,没有人有动力再去改变。
  
  
 
  
  
 在生活当中,经常会出现各式各样的纳什陷阱,还包括离婚。有生活经验的人会知道,离婚这件事发展到最后往往就是争财产。一开始大家都不这么认为,开始离婚的时候大家都会说,钱我不在乎,都给你都行,我走了。
  
 
  
  
 结果发现对方真的都拿走了,就开始生气,说凭什么你这样对我,我不蒸馒头争口气!然后就开始打官司,不断地折腾。最后你会发现大量的钱用作了律师费,用作了消耗的社会成本。原因就是双方各不退让,不愿意妥协。
  
 一开始的姿态都很好,但是由于一方做的让对方不满意,激起了对方的恶意,开始大量地争执,最后陷入到一个纳什均衡当中。

博弈论之纳什均衡

6. 博弈论——纳什均衡

纳什均衡,Nash equilibrium,又称为非合作博弈均衡,是博弈论的一个重要术语,以约翰·纳什命名。——百度百科。
  
 简单地说,纳什均衡就是别人采取那样的策略,我不得不采取这样的策略,在别人不改变策略的情况下,我也无法采取别的策略,如如形成了一种“非合作博弈均衡”。
  
 你可能听说过这个故事。老师让全班所有的同学想一个0到100之间的整数,说谁想的数字最接近全班平均值的2/3,谁就获胜。那么聪明的学生就会这么想:假设如果全班的同学都随机选了一个数字,那么平均值就是50,我的答案应该是50的2/3,也就是33;如果再进一步想,如果大部分的同学都足够聪明,想的也是33,那么平均值就变成了33,那么更聪明的我答案就要变成22。但是如果全班的同学也足够聪明,想到了22,那么我的答案就是22/3*2=14。所以假定所有的学生都会这一样一步一步的推理,最后得出的答案就是0。而事实上没有哪个班的学生能聪明到这个程度,也就是给那个最极端的答案0.
  
 生活中的大多数人也不会聪明到那个程度,去做那个极端的推理并执行。但是博弈论可以帮助我们理解社会上一个看似复杂又矛盾的现象。比如为中小学生“减负”的呼声一直没断过,中学生作业多、任务重已成为一个事实,很多学生晚上要花3个小时甚至4个小时做作业,到了晚上11点、12点还不能睡觉,周末的各学科的练习卷会有十几二十份,根本没有玩的时间。但是与此同时,在周末或者晚上很多家长又把孩子送出去加各种各样的兴趣班、辅导班。这不是让孩子的负担更重了吗?难道大多数的家长不知道孩子的学业已经很沉重了吗?
  
 难道学校的想布置这么多作业吗?难道学习喜欢做作业到深夜吗?难道家长喜欢晚上周末不怨其烦的送孩子去各种班吗?答案当然都是不是。有人这些都是被逼的。不错,其实这是三个“纳什均衡”。
  
 先看学校的老师为什么要布置这么多的作业。那是因为别的学校也布置了那么多的作业。如果自己的学科不布置那么多的作业,那么学生的各项学科技能(考试成绩)将落后于同一地区的兄弟学校。这是老师不远看到的,也是学校领导不愿意遇见的,很多时候也是家长的意愿,即想看到我的孩子有个好成绩。
  
 再看学生为什么不得不完成那么多的作业。其实也是被逼的。同班同学都完成了,为什么你完不成?这是老师的责问。同班同学都完成了,为什么我完不成?这是自我能力的怀疑。所以孩子们都孜孜不倦地完成了一天数个小时的作业量。完不成的孩子,要么已经完成了自我否定,破罐子破摔,成了老师、家长眼中的“差生”;要么鼓起勇气对抗到底,成了老师、家长眼中的“顽劣”、熊孩子。
  
 最后家长为什么要送孩子去各种兴趣班、辅导班。那是因为别的家长也把孩子送过去了。别家的孩子去某某钢琴班,考了个十级被某学校提前录取了;那家的孩子去了舞蹈班拿了个金奖,都去北京演出了;哪家的孩子去了哪个辅导班,成绩一下子提高了30分,上次考试都进了班级前10名。所以没有哪个家长是做得住的,不管孩子有多少兴趣,有没有时间玩自己的游戏,都得送过去。
  
 理解了博弈论中“纳什均衡”,可以帮助我们懂得人生中的很多无奈。我想这也是自我修养的一种提升。

7. 有关纳什均衡和博弈论的问题?

要识别纳什均衡其实可以使用划线法,首先我们从经销商的角度来看,如果制造商采取产品升级策略,那么经销商的最佳策略是继续特价销售,如果制造商采取不升级,那么经销商的最佳策略是采取不停止特价销售;接着我们站在制造商的角度来看,如果经销商采取停止特价销售,那么制造商的最佳策略是产品升级如果经销商继续特价销售,制造商的最佳策略是采取产品升级。因此综合上面的分析不难发现,该博弈中的优势策略即为唯一的纳什均衡策略(继续特价销售,产品升级)。第三个问题其实是将原有的静态博弈模型转变为了一个动态博弈模型,可以通过逆推归纳法来分析,由于比较麻烦如果你有需要可以直接找我,将原有的博弈展开成为一个博弈树不难发现,无论是谁先动,该博弈的子博弈完美纳什均衡仍然是经销商选择继续特价销售,制造商选择产品升级。如果加入更新成本后,响应的在产品升级那一列中制造商的收益都减5,然后继续使用划线法,不难发现新博弈模型中(停止特价销售,不升级)是新的纳什均衡。

有关纳什均衡和博弈论的问题?

8. 小白也懂博弈论:纳什均衡

 原文发布于自己的博客平台【 http://www.jetchen.cn/nash-equilibrium/ 】
   具有竞争或对抗性质的行为称为博弈行为,并且博弈理论在经济学、国际关系、军事战略等很多领域都有广泛的应用,其中以纳什均衡为代表的非合作性博弈理论在日常中最为常用。
   在很多场景下,比如玩德州扑克等游戏时,虽然有些时候选择的策略并不一定是全局的最优解,但却是相对于其他人的策略而做出的最优解,即每个人都是对自己最有利的解决方案,我们将其称为为 纳什均衡 。
   纳什均衡(或者纳什平衡),Nash equilibrium ,又称为非合作博弈均衡,是博弈论的一个重要策略组合,以约翰·纳什命名。
                                           再解释一下,所谓纳什均衡,指的是参与者的一种策略组合,在该策略上,任何参与人单独改变策略都不会得到好处,即 每个人的策略都是对其他人的策略的最优反应 。换句话说,如果在一个策略组合上,当所有其他人都不改变策略时,没有人会改变自己的策略,则该策略组合就是一个纳什均衡。
   枯燥的描述很难理解,下面使用几个案例来理解下。
   背景:有两个囚犯A和B,犯事儿进去了,然后警官对其分开审讯,所以A和B是没有机会进行串供的
   奖惩:如果双双招供,则各判2年,如果双双不招供,则各判1年,如果一个招供一个不招供,则招供的人立即释放,不招供的人判刑十年
   结果:最后囚犯A和B都会选择招供,所以各判2年,这个便是此时的纳什均衡。
   但是明明双双不招供才是最优解啊,其实不然,回头再看一下概念,纳什均衡其实并不是全局的最优解,而是每个人相对于每个人的策略而做出的最佳策略,下面来解释下。
   我们来建立一个数学模型,使用 -2、-1、0、-10 来形容上面的奖惩,见下面的分析图。
    A的心路历程: 
   所以,不管B招不招供,A只要招供了,对A而言是最优的策略。
                                           同理,对于B的心路历程也相似,B也会选择招供:
                                           所以最终的结果是A和B都选择了招供。
    即此时的纳什均衡点为:A和B都招供。 
   综述,敲黑板,纳什均衡的前提是: 决策圈中的个体是独立,不合作,不横向沟通的 
   背景:有两只猪,一只是大猪,另一只是小猪,然后有一个食槽,里面会有食物落下,但是需要去远处按一下按钮,每次按一下按钮,食槽中便会补满食物。但是呢,在按按钮的来回路上,是需要消耗一定的能量的。
   奖惩:跑过去按一下按钮再跑回来吃食物,会消耗一些能量,记为 -2,每次食槽中补满食物,总食物量为 10份,大猪先吃的话能吃到 9 份,小猪先吃的话,大猪能吃到 6 份,一起吃的话,大猪能吃到 7 份
   结果:大猪会选择去按按钮,而小猪会选择不去按按钮,即在原地等着。
    小猪心路历程: 
   所以,不管大猪怎么样,小猪都会选择在原地等待。
                                            大猪心路历程: 
   所以,表面上看,大猪的决策是受到小猪的决策所影响的,但是分析小猪的心路历程得知,小猪是不会去按按钮的,那么大猪最后的决策还是会选择去按按钮,这样大猪的收益才会最大化。
                                           所以综上,最终结果是大猪去按按钮,而小猪在原地等待着。
    即此时的纳什均衡点为:大猪去,小猪不去。 
    在每次参与者都只有有限种策略选择并且允许混合策略的前提下,纳什均衡是一定存在的。 
   比如选举、群体之间的利益竞争、会议中的法案竞争等,是必然存在纳什均衡的。
   以公司间的价格战为例:如果对方一直降价,那我方继续降价必然会出现亏本买卖,然而如果不降价,也会出现失去市场的情况,损失更大,但如果对方不降价,我方更要降价才能谋得一丝丝利益,所以只要出现价格战,必然会两败俱伤,这是纳什均衡体现的必然结局。所以要改变这种结局,双方必须坐下来谈判寻求新的利益评估分摊方案,从而改变原先的利益格局(比如当年京东和当当的一场价格战,最终以双方各占某一方面的主市场从而获得新的利益分割方案)。
    纳什均衡是基于非合作博弈论的平衡不动点解 
   例如上文的囚徒困境问题,如果两个囚徒是有合作的,则必然不存在纳什均衡点。
   所以,在现实生活中,纳什均衡这一博弈是很重要但是也是很有限的,因为在很多情况下,即使知道平衡不动点必然存在,但是往往却很难找到。
    纳什均衡(这一非合作博弈论模型)仅仅是突破了博弈论中的一个局限 
   因为在社会这一庞大的博弈环境下,还会掺杂着复杂的经济行为,虽然社会中的大家并非是集体合作性的,但在这种庞大的非合作性对象中,纳什均衡点是几乎不可能找到的。
    纳什均衡属于NP问题    (摘自 wik i上面的一段话,暂时看不懂但却觉得很有道理)纳什均衡属于NP问题,Daskalakis 证明它属于 NP 问题的一个子集,不是通常认为的 NP-完全问题,而是 PPAD-完全问题。这项研究成果被一些计算机科学家认为是十年来博弈论领域的最大进展。