博弈最优策略精选(九篇)

时间：2023-09-28 16:06:13

博弈最优策略

第1篇：博弈最优策略范文

摘要：研究介绍了一般博弈论和体育博弈现象的的必然联系，提出了篮球运动博弈论是研究篮球运动中如何去战胜对手、提高胜算、获取优胜的科学理论，这项理论由篮球运动博弈人、篮球运动博弈行动、篮球运动博弈信息、篮球运动博弈策略、篮球博弈得益、篮球运动博弈制胜因素、篮球运动博弈实战、篮球博弈类别等等构成它的基本理论体系。

关键词：篮球运动；博弈论；基本理论

中图分类号：G41.02 献标识码：A 章编号：1007-3612(2009)03-0116-04

A Study of Game Theory System in Basketball

YUE Feng, FAN Qiguo

(P.E. Department, Hubei Economics University, Wuhan 430205, Hub ei China)

Abstract: The essential connection in general game theory and sports game phenom enon is introduced in the paper. It is suggested that basketball game theory isscientific theory of how to beat the rival, increase the rate of winning and w in a game. Its basic theoretical system involves persons, actions, information, trategy, profit, winning factors, practice and types of gaming in basketball.

Key words: basketball; game theory; fundamental theory

篮球运动从一个简单系统扩展成一个具有复杂因素的巨系统。然而，研究它的科学理论却是分散在诸多学科之中，如体育管理学、体育社会学、运动训练学、运动竞赛学、运动选材学、运动生理学、运动解剖学、运动生物力学等等。对篮球运动竞争优胜这个事件来讲，长期没有一门宏观的理论来研究这个对象。篮球博弈论不是从某一学科出发，而是从宏观的角度出发，应用一般博弈论的研究方法和思想方法去探索决定篮球运动竞争优胜的，对于其发展过程具有决定性力量的理论。同时，篮球博弈论又从微观的角度探讨篮球博弈制胜的各个具体对策问题。

1 篮球运动博弈论概念

篮球博弈论的概念有三层含义：1) 这是一门关于人类理性选择的理论；2) 这门科学理论的研究对象是篮球运动；3) 这门科学理论的研究内容是篮球运动如何博弈并竞争优胜。因此，篮球博弈论是篮球运动中如何去战胜对手、提高胜算、获取优胜的科学理论。

1.1 篮球运动基本理论体系

1.1.1 篮球运动博弈人

篮球运动博弈人是指在篮球博弈中独立决策、独立承担博弈结果的个人或组织。篮球运动博弈人并不是指一个“自然”人，既可以是个人，也可以是一个队、一个俱乐部、一个国家。比如一个篮球运动员、教练员、篮球俱乐部、篮球管理中心等都可以称为篮球运动博弈人。 “篮球运动博弈人”在本文以后论述中，简称“博弈人”

博弈人有四个方面的特征：1) 博弈人是有理性的，在博弈中都尽可能选择行之有效的行动策略以获取更大的“胜算”和“得益”；2) 博弈人的理性是有限的，由于信息的不完整和规则的排他性，博弈人追求个人最大“得益”的结果可能实现也可以不实现；3)

博弈人要独立决策和独立承担博弈结果；4) 博弈人的策略具有相互依赖性。在同一个博弈中，一个博弈人选择的策略影响到其他博弈人博弈结果。博弈人的数量越多，这种策略之间越复杂，根据博弈人的数量将博弈分为“单人博弈”“双人博弈”“多人博弈”，本文将在篮球运动博弈分类中对“单人博弈”、“双人博弈”、“多人博弈”进行论述。

1.1.2 篮球运动博弈的行动

篮球运动博弈行动指博弈人为了达到某种目的，在篮球运动博弈某个时点所选择的方法和手段。行动可以说是一个变量，在某一个时点所选择的方法和手段有一种或者很多种，这些方法和手段的全体就组成了行动集合。不管是选材、训练、比赛、管理等都包含着行动。教练员根据不同的需要选择运动员的方法；在篮球训练中为了达到某种目的采用的训练方法和手段，这些方法和手段都称为行动。运动员在比赛中应用的个人技术动作、配合技术动作、整体配合动作等都称为篮球博弈行动。比如，在比赛中一个持球队员的博弈行动有：投篮、传球、突破，这三种行动构成了持球队员的行动集合；防守有球队员的行动有：防投篮、防传球、防突破，这三种行动构成了防有球队员的行动集合。一个技术全面的篮球运动员，在同一个情况下他的行动很多，可以组成一个集合体，根据对手防守情况选用不同的行动，因此，对手很难防守一个技术全面的篮球运动员。

与博弈行动相关的一个重要问题是行动的顺序，行动顺序对于博弈结果是非常重要的。事实上，有关篮球运动静态博弈与篮球运动动态博弈的区别就是基于行动的顺序做出的。行动有先后博弈就是动态博弈；同时行动的博弈就是静态博弈。在篮球比赛中篮球运动员之间的博弈大多是动态博弈。比如，一个持球队员和防守其队员的博弈，一个是可能持球队员先行动（投篮、传球、突破），防守队员根据进攻队员的行动选择行动（防投篮、防传球、防突破）；一个是防守队员先行动（防投篮、防传球、防突破），进攻队员后行动（投篮、传球、突破）。因此，我们将可以看到，同样的博弈人，同样的行动集合，行动的顺序不同，每个博弈人的最优选择就不同，导致博弈的结果也就不同。特别是在不完全信息博弈中，后行动可以通过观察先行动者的行动来获得信息，从而使得博弈分析成为预测博弈人的行为的一个强有力的工具。

1.1.3 篮球运动博弈信息

篮球运动博弈信息指博弈人对博弈人所处的环境、条件、特征和行动等情况的了解，是博弈人决策的依据和决策博弈结果的重要因素。例如，篮球比赛的临场指挥“知己知彼，百战不殆”就是说明信息的重要意义。知已就是要做到，对本队队员的身体、技术、战术、心理、性格等因素，本队的打法特点、作风、比赛特点，对全队及全体队员要有一个客观的估计和清醒的认识，特别是存在的弱点、问题要做到心中有数，有备才能无患；知彼就是要做到，对对方整体实力、主要阵容、习惯、内外线特点、中锋特点、主要得分手，主要队员的位置、身高、技术特点和存在的缺点，核心队员的基本情况和替补队员的调配使用情况等等。一般对手情况的信息来源可以通过以往的比赛交流、对手比赛的名次或技术报告、对手比赛的文献资料、媒介的分析报道以及赛前有目的的侦察。

1.1.4 篮球运动博弈策略

篮球运动博弈策略指博弈人在给定信息集的情况下的行动规则，它规定博弈人在什么时候选择什么行动。策略就要求博弈人能够随机应变，不同的时候而采用不同的行动。比如：毛泽东“人不犯我，我不犯人；人若犯我，我必犯人”就是一个典型的策略。这里的“犯”与 “不犯”是两个行动，策略规定了什么时候“犯”什么时候“不犯”。在篮球博弈中的策略实质上也是一个时机的掌握。也就是看运动员、教练员、管理人员等把握机会的能力。时机就是那么一瞬间，在这一瞬间采取的最优化行动就是你的策略，机会摆在你面前，在这个机会面前有很多方法和手段选择，具体选择什么手段和方法，就是你的一种策略。比如，给你一个运动员，你是训练他打中锋、前锋还是后卫，这时你训练他打什么位置，就是你的策略。

应该强调指出的是，策略和行动是两个不同的概念，策略是行动的规则而不是行动的本身。在前面的例子，“犯”与“不犯”是两种行动，策略规定了什么时候选择“犯”什么时候选择“不犯”。但是在静态博弈中，策略和行动是相同的，这是因为，作为博弈人行动的规则，策略依赖于博弈人获得的信息，在静态博弈中，所有博弈人同时行动，没有任何人获得他人行动的信息，从而，策略的选择变成简单的行动选择。比如，一场篮球比赛即将开始，教练员要安排战术行动。在教练员不知道对方信息，也不知道对方采用什么行动的情况下，教练员要求队员采用防守人盯人、进攻以内线为主的行动，那么行动和策略是相同的。在动态博弈中，行动和策略就完全不同了。当比赛开始了，教练员得到了信息，觉得开始安排的策略或行动不能遏制住对手，马上要改变行动，变为联防、进攻以外线为主，这时的变就是策略。

1.1.5 篮球运动博弈得益

篮球运动博弈得益是参加博弈的各个博弈人从博弈中所获得的利益，它是各个博弈人追求的根本目标，也是他们行动和决策的主要依据。在篮球运动博弈中，竞赛最能体现出篮球博弈的特点。竞赛有胜和负，博弈人是理性的，在竞赛中以获得“个人得益最大化”为目的。但是，由于信息的限制以及情感、个人偏好和心理等诸多因素的影响，在实际比赛中只能确定“满意程度的下限”。此外，博弈人的理性是有限的、博弈人也可能犯错误。因此，篮球博弈人在选择策略时具有很大的随机性、动态性和变更性。即：博弈人的策略必需根据对方的变化随时进行变化。

博弈得益可以是具体的利润、收入等量化的效用，也可以是定性的社会效益等。由于在篮球比赛中除了获得胜利、好处、收益和正效用以外，也会得到失败等负效应。因此，博弈的得益有正有负的，这种博弈为零和博弈；但是最好的博弈结局为“多赢”，这种博弈为非零和博弈。零和博弈是指博弈中各方得失总和均为零；非零和博弈是指一方有所得，他方未必有所失。但在篮球博弈中从不同角度看博弈结果是不同的。比如，篮球比赛博弈，结果总是有一方输，另一方赢，全体博弈人得益之和为“0”，可以把它看为零和博弈。但是从社会效益看，比赛给人们带来了享受、带来了快乐，给国家带来了荣誉等，这样可以把它看作为非零和博弈，结果是双赢或多赢。博弈结果是博弈人最关心的问题，都是为了达到满意的结果而展开博弈活动的。

1.1.6 篮球运动博弈现象

篮球运动博弈现象，是指篮球运动实践中存在的各种矛盾、冲突、对抗与竞争活动。其具体表现在篮球运动过程参与者的各个方面。包括篮球运动管理中心的篮球运动发展战略研究、组织管理的高科技之争、仪器设备的研制，到篮球运动员的选材、训练方法、训练手段、训练模式之争以及篮球职业俱乐部引进外援的策略等。

1.1.7 篮球运动博弈制胜因素

制胜因素是指比赛双方取胜对手的要素。竞技篮球运动制胜因素是由篮球竞赛规则和篮球运动本身的规律特点决定的。篮球运动制胜因素的组成结构见图1。篮球运动博弈的胜负是以上主客观因素综合作用的结果。其中，运动员在比赛中所表现出来的竞技能力是影响比赛胜负内因中的关键，是最根本和最重要的因素。篮球运动博弈制胜因素最优化的组合，取得比赛优胜或得到最满意的结果就是篮球运动博弈的目的。

1.2 篮球运动博弈的分类

篮球运动博弈分类可以从多个角度进行。根据不同的分类原则，篮球博弈的分类很多。比如，根据不同过程弈人数的多少，可以将篮球博弈分为单人、双人和多人博弈；根据篮球的竞技过程将篮球博弈分为选材博弈、训练博弈、竞赛博弈、管理博弈；根据博弈人行动的先后次序将篮球博弈分为静态博弈和动态博弈；根据信息，即博弈人对有关其他博弈人的特征、策略、行动、得益等方面的知识，可以将篮球博弈分为完全信息博弈和不完全信息博弈等。本研究主要研究篮球单人博弈、双人博弈、多人博弈。

1.2.1 单人博弈

篮球单人博弈一个主要特点，就是一个博弈人，由于不存在其他博弈人对这种博弈人的决策和行动的反应和反作用，相对于人数多的博弈较为简单。其实质就是一个最优化的问题。比如，给你一个篮球运动员，教练员如何把他培养成为一个优秀的篮球运动员，那么教练员就此采用的最优化和最合理的训练方法和手段来提高运动员水平，这就是一个单人博弈；一个篮球队有12～15名篮球队员，教练员把他们合理的组合成为一个优秀的球队，也可以说是一个单人博弈。

单人博弈的特点表现在：1) 博弈人策略的最优化；2) 博弈人的知识和信息越多越好，包括对篮球运动的本质、规律、特点等的掌握情况；3) 单人博弈中的创新对提高运动员的水平很重要。

1.2.2 双人博弈

双人博弈就是在两个各自独立决策，相互具有策略依赖关系的博弈人之间的博弈问题。双人博弈在篮球运动博弈中是最普遍、最常见、也是最重要的博弈类型。比如，在篮球竞赛中双方运动员直接对抗、双方的教练员之间、运动员之间的斗智、斗勇。看谁能将技能、体能、谋略这三个因素进行最佳的组合，谁就能获优胜。

双人博弈的特点：1) 两个博弈人之间总是相互对抗，策略相互依赖；2) 在两人博弈中，掌握信息较多的一人就可能保证得益最多；3) 各个博弈人追求自身最大利益的行为并不能导致整体的利益最大化。比如，在比赛中一个队员单打，一场可能得30～40分，但是最后球队也有可能会输，也就是要处理好整体与局部的关系。

1.2.3 多人博弈

多人博弈就是在多个各自独立的决策，相互具有策略依存关系的博弈人之间的博弈问题。有 3个和3个以上博弈人参加的博弈称为多人博弈。多人博弈本质与双人博弈相似。多人博弈与双人博弈的区别之处在于，多人博弈是可能存在的“破坏者”。所谓的“破坏者”即具有下列特征的博弈人：其策略选择对自身的得益没有任何影响，但会影响其他博弈人的得益，有时候这种影响甚至有决定性作用。比如，篮球分组循环比赛，A、B、C三个篮球队进行比赛，前两名有复赛资格，在比赛过程中构成了“连环赛”的话，往往最后一场比赛会出现“ 破坏者”。假设：A胜B 6分，B胜C 4分，最后一场A与C的比赛，如果A输给C 5分，A输5分以内对自己没有厉害关系，但是把B挤出参加复赛资格，在这里A就是“破坏者”。

1.3 篮球运动博弈实战分析根据定义博弈的要素，一个篮球博弈活动的要素，必须具备5个要素：1) 有篮球博弈人参加；2) 能找到篮球博弈人的所有可选择行动；3) 具有篮球博弈活动的信息；4) 篮球博弈人的战略，即篮球博弈人选择的策略；5) 有明确的篮球博弈结果。下面分析比赛中几个经典的篮球运动博弈，以帮助理解篮球运动博弈理论。

1.3.1 “输分倒赢球”的博弈分析

1987年在南斯拉夫举行的第14届世界大学生运动会篮球比赛的过程控制。中国女篮在小组比赛中和意、南三队构成了“连环赛”小组最后一场中国与美国的比赛构成了微妙局面。中国队的形势是：胜或负3分以内，在小组第一出线；输5分以下小组第二出线，中国队出线，则把美国队挤出前四名；如果输6分以上，中国队则进不了前4名。当中国队与美国女篮进行到最后13秒时，打成82：82平。同时，中国队获得罚球机会。罚完球后，估计美国队还有一次进攻机会。此刻，教练员吕长新要求暂停，要求郑海霞只准罚中一分。因为中一分，美国队进攻，无论投中2分或3分都不会成平局，就不会打决胜期，因为决胜期5分钟，中国对有可能输更多分，而不能出线。最后美国队中了2分，虽然以84：83取胜，但却被挤出前4强，与决赛无缘。这实际上就是教练员与教练员之间的一种博弈。博弈人就是中国队与美国队的教练员；中国队策略或行动是罚球中2分还是1分；美国队的策略或行动是投中2分或3分。信息是中国队知道美国队的策略，美国队知道中国队的策略，并且知道每个队自己和对方结果。这时中国队最优的得益结果是不成平局，而美国队的得益结果是希望平局。策略选择扩展形如图2。这个例子实际上就是一个动态博弈，因为博弈人的行动有先后顺序，这时A 先行动罚球（中1分或者中2分）；然后B行动（进攻得3分或2分）。并且这是一个完美信息博弈，在暂停时A和B都知道对方的行动，并且知道每一种行动的结果，因此，叫做完美信息动态博弈。可用扩展式表述构造战略摸式。

首先注意到，A只有一个信息集，两个可选择的行动，A的行动空间也即是战略空间：SA =（罚中1分，罚中2分）。B有两个信息集，每个信息集上有两个可选择的行动，那么B有四个战略，分别为：{罚中1分，进攻的2分}，{罚中1分，进攻得3分}，{罚中1分，进攻得2分，}， {罚中1分，进攻得3分，}。四个战略行动的得益分别为83和84、83和85、84和84、84和85。中国队用A表示，美国队用B表示。图中得益数组的第一个数是A的得益，第二个数字为B的得益。从这个博弈树的路径来看，得益相同的一条路径为A―罚中2分―B―进攻得2分―（84， 84）。因此，在罚球时选择了罚中1分的行动，结果避开了得益相同。这个例子就是博弈论思想和原理在篮球比赛中的应用，很好的控制了比赛结果，虽然输球但是还是得了小组第一。

为A―罚中2分―B―进攻得2分―（84，84）。因此，在罚球时选择了罚中1分的行动，结果避开了得益相同。这个例子就是博弈论思想和原理在篮球比赛中的应用，很好的控制了比赛结果，虽然输球但是还是得了小组第一。

1.3.2 “犯规战术”的博弈分析

现在篮球比赛中，当比赛进行到比赛的最后阶段，一般还剩几十秒中时，分数落后几分的球队，常常利用犯规让对方罚球，争取自己再多一次进攻，实现转败为胜。为了分析方便，我们可假设在一场比赛中，有X、Y两个队。当X队落后，还剩下24 s时，Y队控制球时，这时X 与Y就要展开博弈。这时X队策略是犯规与不犯规，Y的策略是进攻和拖延时间最后进攻。如果X队不犯规，Y队控制球把最后的时间浪费完，那么X的得益为0，Y的得益为U。如果X队犯规，X队还有进攻时间。那么X的得益为U1，Y的得益为U2。因为篮球运动的罚球或进攻都具有不确定性，X可以应用数学期望值进行决策，而不是等着时间浪费完输球。当X犯规，Y队罚球时，得益为U的概率为［0，100%］，X赢得了进攻时间，获得了进攻权，得益U1的概率为［0，100%］；如果X不犯规，Y队拖延时间，把最后的一次进攻时间耗费完，X的得益为0分，Y的得益U的概率为［0，100%］，那么0≤U≤3。当X犯规后，Y的期望得益为0≤U1≤2， X的期望得益为0≤U2≤3。对于X来说犯规的期望得益大于或等于不犯规的期望得益，即U 1≥0。因此，X的最优策略是犯规，获得一次进攻机会；Y的策略是拖延时间最后进攻一直到比赛结束，获得胜利。X的策略选择博弈如图3所示。图中得益数组，第一个数是X的得益，第二个是Y的得益。

2 结论

篮球运动博弈论是研究篮球运动中如何去战胜对手、提高胜算、获取优胜的科学理论，这项理论由篮球运动博弈人、篮球运动博弈行动、篮球博弈信息、篮球运动博弈策略、篮球博弈得益、篮球运动博弈制胜因素、篮球博弈实战、篮球博弈类别等等构成它的基本理论体系。在篮球比赛过程中应用博弈的思想和方法，可以很好处地理好比赛过程中的矛盾冲突，并且得到理想的结果，使我们在面对对抗更激烈、竞争更白热化的篮球比赛中，开阔思路，减少决策错误，提高“得益”水平，获得更多的成功机会。

参考文献：

［1］张维迎.博弈论与信息经济学［M］.上海：上海人民出版社，1996.

［2］谢识予.经济博弈论（第二版）［M］.上海：复旦大学出版社，2001，1.

［3］李益群.体育博弈论［M］.北京：北京体育大学出版社，2001，4.

［4］李益群.博弈制胜与竞赛中的心理战［J］.中国体育科学，2000，36（1）：33-38.

第2篇：博弈最优策略范文

关键词：人力资源管理公司绩效博弈分析人力资源管理评价绩效评估

一、引言

随着当代社会经济的发展，市场竞争的加剧，企业要想不断的发展壮大、不断的提升自身的综合竞争力，需要企业能够清醒的认识到实现企业目标的关键所在。人力资源管理评价机制和绩效考评是人力资源管理的重要组成部分，拥有良好的人力资源管理评价机制能够很好地提高公司绩效，增强企业的凝聚力和竞争力，同样公司绩效的优劣能够真实地反映人力资源管理评价体系的实效性和可行性。

二、博弈论概述

1.博弈论的概念

博弈论也叫做对策论或者竞赛论，它实际上是一种方法论，或者说是“游戏理论”。博弈论主要是指参与博弈的两个或两个以上的个人或者组织，在一定的的环境和规则约束下，依靠自己所掌握的信息，同时或者先后、一次或者多次的选择有利于自身利益的策略并且加以实施的过程。

2.博弈论的基本构成要素

在博弈论的分析中，一场“游戏”或者对局，应该具备五个最基本的要素：

第一，对局者。对局者就是博弈的参与者，通常为组织或个人组成，他们都是利益极大化的理性人；

第二，博弈信息。博弈信息是博弈双方自身所掌握的、有助于进行策略选择的、有价值的信息和资料；

第三，博弈双方可选择的策略。在博弈论中，有多种策略可供对局者选择。例如，在价格竞争中，企业可以选择降价或者不降价的策略；在非价格竞争中，企业可以选择做广告或者不做广告的策略。每个对局者总是从自身的利益出发，根据现有的信息，按照一定的规则来选择自己的策略。

第四，报酬。对局者通过选择自己的策略得到一定的报酬，报酬可能是利润，也可能是效用，每个对局者分别选择自己认为是最好的策略，但是其最后得到的报酬却是所有对局者采取的策略共同作用的结果。

第五，博弈的次序和次数。就是对局者进行策略选择和实施的先后顺序以及进行博弈的次数。

三、人力资源管理评价过程的博弈分析

人力资源管理评价是指对企业员工在工作过程中所表现出来的工作能力、完成成果、综合素质以及工作绩效等方面的评价。由于参与博弈的评估方存在着信息不对称问题，因此致使博弈的评估方所采取的策略存在一定的差异，因此造成评估可信度低、缺乏公正的现象。由于博弈过程具有动态性，一方的决策会极大地影响其他对局者的行为决策，直至博弈过程最终达到纳什均衡。

人力资源评价不仅需要对员工的招聘与培训、职业管理状况进行评价，还要对相应的激励约束机制进行评价，因此，人力资源管理过程的博弈分析需要考虑这三方面的因素。

1.员工招聘与培训的博弈分析

在员工招聘的过程中，会对员工进行综合能力的考核，然后根据最终的考核结果确定录取或者不录取，因此，在招聘的过程中决策者主要有两种策略选择。在员工培训的过程中，同样要对员工的培训结果进行评价，评价时同样面临着两种策略选择，即通过和不通过。员工在招聘和培训的过程中无法了解竞争对手的信息和资料，因此，信息的不对称会加对局者互相评估的难度，但是对局者会选择能够实现自身利益最大化的策略。

2.职业管理状况的博弈分析

对企业的职业管理状况进行博弈分析需要考虑两个评价指标，即员工的流动性以及员工的满意度和忠诚度。

员工的流动性不仅会影响企业的聚合力，还会破坏整个组织结构的稳定性，影响员工的工作热情。因此，企业进行人力资源管理评价时，会对员工的流动性采取两种措施，分别为控制和不控制。企业会根据对局者的行为多采取控制决策。

员工的满意度和忠诚度是影响企业生产效率的重要因素，也是评价体系中的重要指标，因此，对员工满意度和忠诚度进行分析有助于采取有效的激励措施提升满意水平。

四、公司绩效评估中的博弈分析

绩效评估是对员工或者组织的工作行为、表现和效果的综合评价。对于组织而言，绩效就是任务在数量、质量以及效率等方面完成的情况；对员工而言，就是上级和同事对自己工作状况的评价。企业通过对其员工工作绩效的考评，获得反馈信息，便可据此制定相应的人事决策与策略，调整和改进其效能。

1.自我评价中的博弈分析

自我评价中的博弈分析就是在自我评价的过程中相对于他人而言，选择一种能够凸显自身优势和特长的最优评价策略。自我评价中的博弈分析主要是对自身优势和劣势进行分析，然后进行扬长避短的过程。

2.群众互评中的博弈分析

群众互评博弈主要表现为同事之间的评价，具体的评价过程有两种情况：有小团体型和无小团体型。后者较前者相对比较公平。

无小团体型是指互相进行评价的成员之间不存在串通，仅依据个人看法进行相互评价，因此，相对来说比较公平，而博弈的最终赢家可能会是全方位都比较优秀的人员。

有小团体型是指由于人为因素或者自发形成的团体组织，有小团体型之间存在串通，从而导致博弈的结果会随着小团体的意志而发生转移，这种情况多出现于名次等级的评选上。

3.领导测评中的博弈分析

领导者在测评博弈的过程会夹杂着自我评价博弈，因为领导者对下属的评价情况会侧面反射出领导者的自我评价，如果给予员工高分则是对自我的肯定，给员工低分则是对自我的否定，但是面对同样的员工，领导者同样要进行等级优劣区分，因此，领导者测评的博弈过程相对较为复杂。

五、人力资源管理评价与公司绩效之间的博弈分析

由于人力资源管理评价的博弈分析和公司绩效的博弈分析是两个系统性较强的博弈过程，因此，二者之间进行博弈分析要综合考虑影响各系统的博弈因素，然后构建两大模块系统的综合评价指标体系，从而实现人力资源管理评价体系与公司绩效评价体系的统一，帮助企业选取最佳决策来充分调动员工工作的积极性，提高员工的满意水平，增强员工的企业归属感和忠诚度。

六、结束语

人力资源管理评价的博弈分析能够更好的完善和健全人力资源管理的评价指标体系，优化人力资源的有效配置；公司绩效的博弈分析能够帮助企业建立科学而公正的度量方法，从而实现评估的科学性。总之，将博弈论引进绩效考核和评价中，能够调动员工和领导者的工作积极性，促进企业的长期发展。

参考文献：

[1]润滋.基于博弈论的企业绩效考核评价体系研究[J].理财研究，2008（6）

[2]吕占峰.博弈论在工作团队绩效考核体系中的应用[J].理论月刊，2007（3）

第3篇：博弈最优策略范文

针对现实网络攻防环境中防御措施的滞后性以及攻防对抗过程中双方收益不完全相等的问题，提出一种基于非零和博弈的主动防御策略选取方法。首先依据攻击者与系统的博弈关系，结合网络安全问题实际情况提出网络安全博弈图；其次在此基础上给出一种基于非零和博弈的网络攻防博弈模型，结合主机重要度以及防御措施成功率计算单一安全属性攻防收益值，进而根据攻防意图对整体攻防收益进行量化；最后通过分析纳什均衡得到最优主动防御策略。实例验证了该方法在攻击行为预测和主动防御策略选取方面的有效性和可行性。

关键词：

网络安全；攻防模型；非零和博弈；主动防御；策略选取

0引言

随着网络的发展，网络安全研究的理念已经从被动防御转向了积极防御。积极防御的目的是为了提前识别系统潜在的安全威胁，采用针对性的措施阻止或减少系统的损失。因此能否选择合适的防御策略显得尤为重要，而选择的防御策略是否有效，不仅取决于系统自身，同时也要考虑到攻击行为对防御策略可能产生的影响，即攻防双方策略的依存性。对于这种攻防行为交互的关系可应用博弈论进行建模分析[1]。

博弈论是一种研究利益冲突主体在理性对抗情况下寻求最优策略的理论，由于在冲突理解和建模方面的价值，被广泛应用于系统安全相关问题。文献[2]将博弈论引入复杂、异构的军事系统，描述了如何用博弈论来分析网络攻击事件。文献[3-4]提出了一种基于动态博弈论的网络安全主动防御模型，但未充分考虑博弈过程中攻防收益问题。文献[5]应用随机博弈建立了攻防博弈模型，通过计算纳什均衡得到双方最优策略，虽然其收益计算较为简单，但具有很好的借鉴意义。文献[6]通过建立贝叶斯博弈模型，使用贝叶斯法则对网络中存在的恶意主机节点概率进行修正，对攻击行为进行预测。文献[7]在贝叶斯博弈的基础上引入粗糙集理论构建了粗糙攻防博弈模型，对攻防策略进行分析。文献[8-10]通过建立非合作博弈模型，对入侵检测场景、攻击概率计算以及攻防实验整体架构进行了分析，但其多将攻防行为看成零和博弈，而在现实网络环境下，攻击防御成本的不同导致了其攻防收益并非完全相等。

针对上述问题，本文给出一种基于非零和博弈的网络防御策略分析方法。首先结合网络安全实际给出网络安全博弈图，在此基础上构建非零和攻防博弈模型，并将攻防意图和网络安全属性相结合，给出攻防成本量化方法，进而通过求解纳什均衡得到最优防御策略。

5结语

本文针对网络安全问题具有利益对立性、策略依存性的特点结合博弈论提出了一种网络安全博弈图。在此基础上，结合实际攻防环境将网络攻防对抗理解为两人非合作、非零和博弈模型，从网络安全属性的角度给出了攻防成本量化方法。实验结果表明，本文所提出的评估模型能有效对攻击行为做出预测，并为系统做好主动防御提供最优防御策略选择。

参考文献：

[1]

林闯，，李泉林. 网络安全的随机模型方法与评价技术[J]. 计算机学报， 2005， 28（12）： 1943-1956.

[2]

BROWNE R. C4I defensive infrastructure for survivability against multimode attack[C]// Proceedings of the 21st Century Military Communication- Architectures and Technologies for Information Superiority. Washington， DC： IEEE Computer Society， 2000， 1： 417-424.

[3]

林旺群，王慧，刘家红，等. 基于非合作动态博弈的网络安全主动防御技术研究[J]. 计算机研究与发展， 2011， 48（2）： 306-316.

[4]

张少俊，李建华，陈秀真，等. 基于动态博弈理论的分布式拒绝服务攻击防御方法[J]. 上海交通大学学报， 2008， 42（2）： 198-201.

[5]

LYE K， WING J M. Game strategies in network security[J]. International Journal of Information Security， 2005， 4（1）： 71-86.

[6]

曹晖，王青青，马义忠，等. 基于动态贝叶斯博弈的攻击预测模型[J]. 计算机应用， 2007， 27（6）： 1545-1547.

[7]

王纯子，黄光球. 基于粗糙贝叶斯博弈的网络攻防策略[J]. 计算机应用， 2011， 31（3）： 784-789.

[8]

HADI O， MONA M， CHADI A， et al. Game theoretic models for detecting network intrusions[J]. Computer Communications， 2008， 31（10）： 1934-1944.

[9]

SALLHAMMAR K， HELVIK B E， KNAPSKOG S J. On stochastic modeling for integrated security and dependability evaluation[J]. Journal of Networks， 2006，1（5）： 31-42.

[10]

王元卓，林闯，程学旗，等. 基于随机博弈模型的网络攻防量化分析方法[J]. 计算机学报， 2010， 33（9）： 1748-1762.

[11]

司加全，张冰，荷大鹏，等. 基于攻击图的网络安全性增强策略制定方法[J]. 通信学报， 2009， 30（2）： 123-128.

[12]

ROBERT G. A primer in game theory[M]. Princeton： Princeton University Press， 1992.

第4篇：博弈最优策略范文

［关键词］占优策略；纳什均衡；混合战略；高职课程；博弈分析

［中图分类号］G423.04 ［文献标识码］A ［文章编号］

2095-3283（2012）03-000-02

一、引言

据资料显示，截至2009年，我国设置独立高职院校达1215所，在校生964.8万人，招生人数313万人，与本科院校招生规模大体相当，高等职业教育已在我国高等教育中占有重要位置。仅就数量而言高职教育已能基本满足社会需要，然而在质量上却未能尽如人意。究其原因，高职学生过多地将时间与精力放在专升本等提高学历层次的学习上而忽视了在校课程的学习。这一点在高职学生的学习时间分配上表现得尤为突出：高职学生尤其是毕业班学生，上课时钻研专升本教材，课余时间突击专升本习题，而仅仅将在校课程学习当作获取毕业证的途径，致使学生对专科层次基础知识掌握不牢，同时造成其专升本课程的学习效果不佳，进而严重影响高职教育的质量。本文拟运用博弈论的分析方法，根据不同的假设条件，寻求在校课程与专升本课程在学习时间上的最佳分配方案。

二、理论综述

要运用博弈论方法分析高职学生在校课程与专升本课程的学习时间分配，首先应明确相关理论。

（一）占优策略

每一个博弈中的企业通常都不止拥有一个竞争策略，其所有策略的集合构成了该企业的策略集。在企业各自的策略集中，一个参与人的最优战略不依赖于其他参与人的策略选择，即不论其他参与人选择什么策略，他的最优策略是惟一的，则称其为占优策略（Dominant Strategy），与之相对的其他策略为劣势策略。

（二）纳什均衡

纳什均衡（Nash Equilibrium）又称为非合作博弈均衡，是博弈论中最常见的均衡之一。用语言表述为：假定有n个人参与博弈，给定其他人战略的条件下，每个人选择自己的最优战略（个人最优战略可能依赖于也可能不依赖于其他人的战略），所有参与人选择的战略一起构成的一个战略组合（Strategy Profile）。纳什均衡指的是这样一种战略组合，这种战略组合由所有参与人最优战略组成。即在给定别人战略的情况下，没有人有足够理由打破这种均衡。从实质上说这是一种非合作博弈状态。

（三）混合战略

如果一个战略规定参与人在给定信息情况下以某种概率分布随机地选择不同的行动，称该战略为混合战略（Mixed Strategy）。具体定义为：在n位参与人博弈的战略表述G＝{S1，…，Sn，u1，…，un}中，假定参与人i有K个纯战略：Si＝{Sil，…，SiK}，那么，概率分别为δi＝（δi1，…，δik）称为i的一个混合战略，这里δik＝δ（Sik）是i选择Sik的概率，对于所有的k＝1，…，K，0≤δik≤1，有K1δik＝1。

三、高职学生在校课程与专升本课程学习时间的博弈分析

（一）博弈分析

对于高职学生在校课程与专升本课程学习时间上的博弈，在不同的假定下会有不同的结果。下面的各个模型均为建立在局中人理性的假设条件下的完全信息静态博弈模型。

1.建立高职学生学习时间博弈矩阵一

高职学生在校课程与专升本课程学习时间的博弈结果与两种策略存在的收益现值差异息息相关。假定有A、B两个高职学生（可以将这两个学生作为全部高职学生分成的两个部分），他们都面临将大部分时间用于在校课程学习（以下简称“在校课程”）还是专升本课程的学习（以下简称“专升本”）两个策略的选择。现在有三种选择：

方案一：博弈双方都仅专注于在校课程，则高职学生普遍学历层次提高较慢，这势必对他们未来的求职造成一定负面影响，假定收益现值为1.5个单位。

方案二：博弈双方都将全部时间用于专升本课程的学习。这将直接导致专科阶段基础知识不牢，而且如果专升本人数众多且水平相当，必然会加剧竞争，专升本考试通过率将大幅降低。即使最终通过考试，毕业后求职的压力仍会很大。考虑到上述因素，博弈双方只能获得2.0个单位的收益现值（之所以比都专注于在校课程时的收益现值略有上升，是考虑到学历层次的提高使得求职时略优于以高职学历直接求职等现实因素）。

方案三：博弈双方的其中一方专攻专升本课程，而另一方专攻在校课程，则前者由于专升本考试成功率增大使毕业后求职的压力也减轻，可获得3.0个单位收益现值；而后者也会因为对方的选择使得获得相对理想一点的工作岗位的机率上升，相应地也减轻了工作压力，可获得1.8个单位的收益现值。

图1表示的即是A、B双方在每一策略下的博弈矩阵。从这一博弈矩阵得到的结论是：在收益现值的影响下，双方从自身利益出发，博弈的结果只能是（专升本，专升本），即大家最终都会选择将大部分时间花在专升本的学习上。可见这一结果极不理想。因为这会造成教育资源的浪费，在对本届毕业生就业率造成负面影响的同时也会对下一届高校毕业生就业产生巨大压力。

2.建立高职学生学习时间博弈矩阵二

如果修改假定条件1，选择（专升本，专升本）的收益现值比选择（在校课程，在校课程）的收益现值（1.5，1.5）还要低，只有（1.4，1.4）。这一假定的根据是学费逐年递增，考试制度逐步改革，专升本的会计成本与机会成本也会不断提高。由于未能较好掌握在校课程，相应地增加了专升本学习时间。如果博弈一方选择专注于专升本课程而另一方选择专注于在校课程，由于竞争压力降低，则专注于专升本课程一方会获得较高的收益，假定现值为1.6个单位，而仅专注于在校课程的一方可能会因为毕业院校知名度不高而获得相对低一点的收益，假定现值为1.2个单位，具体如图2所示：

分析该博弈的均衡可以发现：博弈双方A与B都有占优策略即专升本，最终使得（专升本，专升本）成为上策均衡。尽管从图2可知，（在校课程，在校课程）策略的收益现值高于（专升本，专升本），但由于博弈的A、B双方都将注意力放在1.4与1.2的比较上，单方面改变策略，导致（在校课程，在校课程）策略不能构成纳什均衡。博弈矩阵二清楚地显示了若博弈双方都只从自身利益出发，选择自己认为的最优策略，最终将陷入“囚徒困境”。

（二）博弈结果分析

通过上述博弈模型的分析发现，各模型的博弈结果均不理想：

首先，博弈矩阵一的结果是不理想的。造成这种结果的原因在于专升本的收益现值过高。要避免这种情形，只需降低专升本学习在毕业后所显见的实际收益水平。国家和用人单位可以制定政策，缩小本、专科毕业生的收入水平差距，从而使两者收益现值大体相当。则图1的博弈模型相应地可改为图3：

图3的博弈模型结果以（专升本，在校课程）和（在校课程，专升本）为纳什均衡。通过计算发现，混合战略均衡为博弈双方以（1/6，5/6）的概率选择（专升本，在校课程），基本达到理想目标。同时，不同水平毕业生的收益差距可以通过“后发效应”体现。

其次，博弈矩阵二是一个典型的囚徒困境模型。要走出困境，可以增加“奖励矩阵”来改变博弈双方的收益结构。如图4所示的奖励矩阵，将每个选择专注于在校课程学习的高职学生的收益现值统一增加了0.5个单位：

这样，博弈矩阵就改变成如图5的形式：

通过增加奖励矩阵，博弈均衡变成了（在校课程，在校课程），但使求职压力加大，降低了高职学生提高学历层次的积极性。因此，需要国家政策的正确引导，使得（在校课程，在校课程）的收益现值和（专升本，专升本）的收益现值相当，而选择（专升本，在校课程）策略或（在校课程，专升本）策略的收益现值比都在校课程学习或仅专注于专升本学习时要高，从而促使高职学生走出囚徒困境，将主要时间和精力用于在校课程的学习，同时利用课余时间进行专升本课程学习。

四、结论

通过上述分析可知，较理想的博弈均衡是高职学生将主要时间用于在校课程的学习，利用课余时间进行专升本课程学习。然而，受社会传统价值观念、思维方式以及少数用人单位过分强调“人才高消费”思想的制约，加上部分高职院校缺乏有效就业指导机制的正确引导，许多高职学生在认识上仍存在一定的偏差，盲目追求本科学历，在专升本课程的学习上花费了过多的时间与精力。鉴于此，要实现上文的博弈均衡，需要多方的共同努力：一方面，社会应为高职院校毕业生提供平等的就业机会，用人单位应当重视毕业生整体素质而不仅仅是一纸文凭，使广大毕业生认识到即便是从高职院校毕业，也拥有平等的竞争机会；另一方面，学校等教育机构应给予高职毕业生正确引导，帮助他们走出“高学历是美好未来的惟一解”的误区；同时，高职学生也应转变观念，调整心态，注重自身素质的培养，合理安排在校课程学习与专升本学习的时间以更好地践行国家的人才培养计划并使高职学生的未来发展道路更加光明。

［参考文献］

［1］唐华.曲楠楠.基于博弈原理的审计业务关系分析［J］.财会研究，2010（5）.

第5篇：博弈最优策略范文

【关键词】邮政储蓄银行市场博弈

邮政储蓄资金的增长速度超出了所有人的想象。从1986年，中国人民银行批准同意在邮政系统经营邮政储蓄业务，短短十几年，邮政储蓄就成为仅次于四大国有商业银行的第五吸储大户。到2006年3月末，邮政储蓄存款余额突破1．48万亿元。邮政存款膨胀最根本的原因在于利率倾斜政策导致的强劲利益驱动机制。这种经营模式导致了业界对邮政储蓄“两宗罪”的批判：一宗罪是它加重了财政负担，中国人民银行和中央财政每年需要支付300亿利息给邮政储蓄；另一宗罪则是造成农村资金倒流回城市，影响了农村经济的正常发展。因此，2005年7月，国务院常务会通过了《邮政体制改革方案》，确定成立邮政储蓄银行。在邮政储蓄银行全面进入金融市场的变化下，运用新的经济学理论，对金融市场进行深入的思考，高屋建领，审时度势，从而着眼现实、把握未来，对于我国金融市场的长远和健康发展无疑具有重要意义。笔者认为，从经济学弈论的视角看，金融市场的发展和变化实质上是利益主体各方竞争与合作的结果，竞争各方在遵循一定游戏规则的基础上，运用策略以达到己方利益的最大化，从而在客观上促进市场的成熟和演进。

一、关于理论框架

“博弈理论”(GameTheory)是现代经济学的基础理论之一也是运筹学的一个分支，是研究两个以上决策主体的相互性决策以及这种决策的均衡性问题的理论与方法。博弈论发端于20世纪20年代其中非合作博弈的均衡理论由纳什、海萨尼、泽尔腾等共同创立。作为一种关于决策和策略的理论。博弈论试图描绘在一个被极大的简化设置下的复杂策略情况。因此适用于一切通过策略进行对抗或合作的人类活动和行为。

博弈论以理性人的假设为基础。其基木架构是：(1)有博弈方和一定的规则。(2)博弈各方的策略选择至关重要。(3)博弈方的策略有相互依存性并发生互动影响。任何一方都不能脱离可能的决策进行封闭式决策。(4)有博弈的结果或称博弈方得益，或赢或输或平。各有所得。

由此可见，博弈论必然包括二个基本要素：即博弈方(player)、策略(strategies)和得益(payoffs)。其中，独立和理性决策并独立承担结果的组织和群体，构成博弈方(player)；在系统中的理性行动，即为策略(strategies)的选择；不同的选择必然在相互作用后带给各博弈方不同的得益(payoffs)。任何运用博弈理论进行的分析和研究，都不可能离开上述二要素。

二、金融市场的博弈分析

以博弈理论的视点观察，金融市场是一个资本控制与开放、集约与分化彼此牵连互动的竞争格局，博弈方包括银监会、国家邮政总局、邮政储蓄银行与商业银行等四个方面，围绕的核心问题是：按照相关制度和规则，谋求自身利益最大化。

有关各博弈方、策略和得益可概括为下表：

鉴于邮政银行进入中国市场后的综合影响，及在未来市场发展，中我国银行业市场上各竞争主体间相互影响与相互作用的关系。下面用动态博弈模型对其进行分析。

在一个基本成熟的市场上，市场的进入与退出是正常的，考虑到我国现行银行业市场上正逐渐放开，邮政储蓄银行作为一个潜在的投资者即将进入市场，那么这种“先来后到”博弈情形将是怎样的?

分析：对于欲进入市场者而言，有两种策略可供选择：(进入，不进入)；而对于先行动者(市场在位者)亦有两种策略(打击，不打击)。如果博弈方A(潜在进入者)不进入市场，则博弈结束，博弈方B(在位者)独享市场的利润：如果博弈方A选择进入市场则双方最后的得益要看博弈方B的反应。博弈方B在博弈方A选择进入时有打击和不打击两种选择，选择打击则双方得益为(-C1，P-C2)即博弈方B为打击对方要付出C2的成本，而博弈方A要有-C1的亏损，而不打击时双方得益为(P1，P2)。从单个博弈方的自我利益出发，对于双方而言，有两个均衡：(进入，不打击)和(不进入，打击)，至于哪一个为稳定的均衡结果,则取决于以下比较：

如果P-C2>P2，则博弈方B的必然选择是打击；如果P-C2结果表明：在一个具有潜在发展机会的市场中，所有市场在位者与进入者之间并非总是水火不相容的，如果新的竞争对手出现有利于市场容量的扩大，那么对少进入者还是在位者都是有好处的市场容量的扩大无论是对提高市场效率还是考虑原有在位者的利益二者是可以兼得的。就目前还有相当市场开发能量的中国银行业市场而言，邮政银行的进入所带来的发展机遇对于中国商业银行的进步是有益的。为此，我国商业银行应采取合理调整网点布局的竞争策略，对市场进行细分，找准自己的市场定位，学会运用主动放弃策略，来取得自己最有利的市场。具体来说，邮政银行在现有的农村金融服务中，具有网点多、安全性好的优势。将邮政储蓄银行业务范围放开，如投资基金、国债销售、农民小额信贷的网点，其网点还可能会成为外资零售银行或是信用卡发行公司投资的目标。从而达到有效合理的配置资源。

三、基于博弈论的建议

基于上述博弈方背景和策略的分析，以下试提出若干建议，以期在博弈格局中把握先机。

1、发展中间业务。邮政储蓄银行应参与银行间市场债券买卖；办理中资银行、农村信用社大额协议存款；与政策性银行合作，开展部分中间业务；开办农村地区小额质押贷款业务试点；在原有业务基础上，逐步开展基金投资、个人质押贷款、同业拆借、外汇存款、票据、对公结算等业务。

2、重返农村。邮政储蓄50％以上的资金来源于农村，其2／3的网点分布在县及县以下地区。缘于此，今年两会上要求邮政储蓄资金回流农村，支持“三农”建设成为人大代表提案中引人关注的一点。成立邮储银行最大的意义在于让邮政储蓄资金流动起来，名列全国第五的储蓄量，使得巨大的资金必须要找到一个出口才能使之流动起来。总之邮储银行的市场定位问题应结合城市商业银行和农信社的改革综合考虑，“既避免和已有的商业、政策性银行业务重叠，又能够与农信社形成良好的合作与竞争关系，为社区和广大农村提供优质的金融服务。”

第6篇：博弈最优策略范文

关键词：水资源；政府管制；产权；博弈

[中图分类号]F272.92;F224.32 [文献标识码]A [文章编号]1009-9646（2012）4-0078-02

一、水资源环境污染的博弈分析

水资源环境污染问题，即水质博弈，厂商之间的“囚徒困境”问题。首先假定市场自由竞争，政府不进行管制，在环境污染博弈中参与人是两个相同的排污者A与B，两方的策略是排污与不排污，假设两个人都不排污，有一个好的环境，大家收益都为20；如果大家都排污，这时环境恶化，每个人的收益都降低到9；如果一人不排污，另一人排污，由于治理污染要付出成本，不排污者的收益为为4，而排污者的收益为15。该博弈的支付矩阵见图1：

图1 无管制情况下排污者之间博弈

该博弈有两个纳什均衡，即(9，9)和(20，20)也就是两方同时排污或者同时不排污。但是纳什均衡(20，20)是不稳定的，因为A与B两方合谋不排污是不可信的，一旦一个选择不排污，另一个可能排污，那么排污者的收益为15，不排污者的收益为4。最后的纳什均衡是(9，9)，社会的总效益为18，而不是40，此实际是两人博弈的囚徒困境。在现实经济中排污者有很多个，假定有n个排污者，这实际上就是有n个局中人的博弈模型。在没有政府监管的情况下，这n个局中人进行博弈，他们会根据利益最大化选择自己的策略，要么排污要么不排污，如果大家都不排污，环境不会被污染，整个社会福利最大。但是合谋不排污是不可信的，因为如果你不排污就要进行污染治理，治理要成本，结果你和别人共享同样的环境，你的效用相对他人较低，因此你不排污你吃亏，结果大家都排污，这就是n人博弈的囚徒困境。

二、政府与用水单位之间的博弈

政府代表供水单位，此为水量博弈。我国长期以来对耗水大的单位，供水无限量且价格低廉，导致大家缺乏节水动力。为了达到水资源的最优配置，对供水与用水单位之间进行博弈分析。该博弈的三要素是：博弈参与人集合：{政府，用水单位}；政府的策略集是：供水多，供水少，用水单位的策略集是：节约水，不节水；设参与人的收益如图2所示：

图2 供水与节水之间博弈

当政府的策略是供水多时，用水单位采取的最优策略是不节水，由图2可知由于15>12；当给定用水单位不节水时，政府的最优策略是供水少，收益为6；当给定政府供水少时，用水单位的最优策略是节水，收益选择为10；当给定用水单位节水时，政府的最优策略是供水多因为15>3，此博弈不存在纳什均衡。在这种情况下，政府如采用水权交易能收效甚大，与用水单位交易，用量多的需花大成本购买大的用水权，这就促使用水多的单位节约用水以节约成本。为此生产用水价位要高，而生活用水要低；将用水量分若干档次水价，按不同档次由低到高递增计价；夏天与冬天应按不同水价计费，目的也是促进节约用水；洗用水做到达标排放，这样可循环用水，也可避免污染水环境，其治理费用要计入水厂成本中，通过上述措施达到水资源的最优配置。

三、政府与厂商之间博弈分析

1.府与厂商之间的不完全信息动态博弈

厂商一般比较清楚政府各次制定的环保法规等，但政府很难了解厂商的执行情况，即信息不对称。此外，短期内环境改善或污染的损益不易表现并很难计量。因此，厂商与政府就形成了一个不完全信息动态博弈。将有关厂商看作厂商A，而政府为B，就构成了两个博弈方的动态博弈。图3表示政府与厂商之间的子博弈，p1、p2、p1 、p2′、q1、q2指博弈方选择对应策略的概率，对方很难准确把握，(u、v)指A、B博弈方得益。在此博弈中，如果p1=1，p2=0，那么博弈提前结束，等到人们对环境质量有更高要求时，政府又开始制定新环保法规，博弈又开始，环境质量将得到不断改善。但政府管制对于厂商来说是一种威胁，如果q1>q2，则它是可信的威胁，那么厂商在上阶段很可能选择不违规，即p1>p2；反之q2>q1，博弈继续向下进行，环

境向着恶性发展。目前我国的环保法规不够严厉，即使上交罚金，仍有高额暴利，因此政府的法规只是一种不可信“威胁”。

图3 政府与厂商之间的动态子博弈

2.政府与厂商之间的静态博弈

此博弈中，政府的选择是打击与不打击，厂商的选择为合理与不合理排污。这是一个静态博弈，其支付矩阵如图4：其中a，b分别为厂商合理排污的概率、政府打击厂商违法排污行为的概率，A为厂商合理排污的成本，C为政府打击违法排污行为的成本，F是厂商不合理排污时被政府发现后的罚款。给定a，政府选择打击与不打击的期望收益分别为(G为政府，Q为厂商)：

图4 政府与厂商之间的静态博弈

G(1，a)=C*a+(F-C)*(1a)； G(0，a)=0，解 G(1，a)= G(0，a)= 0，得a*=(FC)/F。即：若厂商合理排污的概率大于(FC)/F，政府最优选择是不打击;否则反之。给定b，厂商选择合理与不合理排污的期望收益分别为： Q(b，1)=A*b+(-A)*(1b)； Q(b，0)=(FA)*b，解 Q(b，1)= Q(b，0)=0，得b*=A/(A+F)。若政府打击违法排污行为的概率小于A/(A+F)，厂商最优选择是不合理排污；否则反之。因此政府应严厉打击违法排污行为，使政府的打击行为成为对厂商不可置疑的威胁，这样厂商才会合理排污，而且水质和水量之间也是相互影响的，污水资源化，既可减少环境污染，又能提高水的利用率，增加新的水资源。

四、小结

厂商共同排污、代表政府的自来水公司进行城市供水、政府与厂商之间的博弈等都是公共水资源问题的表现。若使水资源可持续开发利用，第一，制定合理的排污收费制度或实行排污许可证交易促使用水单位合理排污，同时调整产业结构及集中治理治污，解决用水紧张以及污染严重等问题。第二，政府制定统一合理的水价或实行水权交易使水资源在各用水单位的配置合理，指导自来水公司之间重组，扩大规模，减少公司数量，提高效益，同时节约水资源。第三，在厂商与政府的动态博弈中，尽量减少政府失灵，制定高额罚款标准，严厉的法律制裁及执行程序，同时减少水资源管理中的寻租行为，使之成为该博弈中的可信威胁，使博弈提前结束。第四，设计水资源保护机制，怎样规则最有效，底价、投标费、保证金等定在多少较合理，以使得拍卖方达到盈利极大化就是拍卖形式的机制设计等。总之要做到水资源开发、利用和保护协调发展，政府、社会和公民必须在水资源保护和利用过程中，更加开阔思路，减少错误决策，提高行动效率，使得博弈各方利益都得到最好的保护，以实现人与水资源开发利用的和谐发展。

[1]张维迎.博弈论与信息经济学[M].上海：上海人民出版社，1996.

[2]Roger Perman. Natural resource and environment economics [M].second edition ， December 1998.

[3]张焕林.探析规划水资源论证的政策框架构成[J].水利发展研究，2010(4).

[4]王金南.排污收费理论学[M].北京：中国环境科学出版社，1997.

第7篇：博弈最优策略范文

［关键词］金融监管；金融创新；博弈

［中图分类号］F832 ［文献标识码］A ［文章编号］1005-6432（2010）48-0114-02

1 美国金融调控机制的显著特征

当美国新经济到来时,谁也不会想到金融危机会来得这样迅猛。在全世界开始否定美国模式时,我们对目前美国的金融体系抱有较为乐观的态度。美国经济的抗危机能力已经今非昔比,金融危机不会是美国金融业发展的终结。

博弈方在博弈的过程中采取某种博弈决策的依据完全来自于对当期博弈的了解以及过往的博弈经验。美国政府对对方在博弈中所采取的策略以及得益情况并非完全清楚,而且对对方博弈策略的选择过程也不是完全清楚(如果美国政府对金融市场的情况了如指掌,又何必在两年内连续17次将美联储联邦基金利率从1.0一直上调至5.25)。此外,美国政府在作决策的时候也会遇到更多的其他因素的干扰,例如，某些利益集团的个人利益等。

有限理性是美国政府和美国金融市场在金融调控和金融活动的最显著特征之一。

2 美国金融调控的进化博弈模型

根据我们的研究发现,金融监管的力度大小及方向就是美国金融调控的实质。根据美国长期以来的金融调控体现出来的特征,我们将美国的金融发展历程分为4个阶段：大危机之前的自由放任发展阶段、大危机之后到20世纪70年代末的分业经营阶段、20世纪80年代到21世纪初的金融创新阶段以及随后的金融危机阶段。这4个阶段的特点可以简单的描述为：监管少、创新少；监管强、创新弱；监管强、创新强；监管弱、创新强。

美国金融的发展过程其实就是通过金融监管与金融创新的相互博弈来完成的。在这个动态博弈中,政府主导了金融监管,而市场主导了金融创新。很明显这是一个双人博弈,博弈方1为市场,而博弈方2为政府。而有着两个博弈方分别所主导的金融创新和金融监管则为该博弈的两个可选策略。并且,该博弈不是只进行一次就结束了,随着时间的推移,只要美国政府存在,这个博弈将无限地进行下去。

我们是在有限理性条件下分析美国的金融创新和金融监管之间的博弈。有限理性意味着博弈方往往不会一开始就找到最优的策略,会在博弈过程中学习博弈,必须通过各种尝试来寻找较好的策略。按照这个思路,我们可以很容易理解美国的金融发展已经经历的4个阶段中金融创新与金融监管之间的优势地位的反复。因此,我们引入有限理性条件下的进化博弈模型。我们将美国金融发展的4个阶段,按照各自的特征归入博弈矩阵,如表1所示。

监管20世纪80年代到21世纪初20世纪40年代到80年代不监管次贷危机时期大危机之前注：表中各时期所对应的创新、不创新、监管、不监管并不是绝对的,只是相对力度而言。

我们以美国从1947―2007年的金融年产出的相关数据的某些特征来度量各个不同时期的博弈方1与博弈方2的不同策略的得益。我们将美国金融发展的4个时期金融年产出占GDP比重的年均增长额权重作为各个时期的金融创新得益。将美国金融发展的4个时期的金融年产出占GDP份额的方差均值倒数的权重作为各个时期的金融监管的得益。如表2所示。

我们假设在博弈方1位置博弈群体中,采取“创新”策略的偏好为X,那么采取“不创新”策略的偏好为1-X；同时,假设在博弈方2位置博弈群体中,采取“监管”策略的偏好为Y,那么采取“不监管”策略的偏好为1-Y。这样在博弈方1位置博弈的“创新”、“不创新”两类博弈方的期望得益U1Y、U1N和群体平均得益U1分别为：

我们先对博弈方1位置博弈群体的复制动态方程作一些分析。根据该动态方程,如果Y=0,则dx/dt始终为0,这意味着所有X水平都是稳定状态；如果Y≠0,则X=0和X=1是两个稳定状态,其中Y>0(Y不可能小于0)时,X=1是ESS。

同样,我们对博弈方2位置博弈群体的复制动态方程作一些分析。根据该动态方程,如果X=1,则dy/dt始终为0,这意味着所有Y水平都是稳定状态；如果X≠1,则Y=0和Y=1是两个稳定状态,其中X

进一步,我们可以把上述两个群体偏好类型比例变化复制动态的关系,在以两个比例为坐标的坐标平面图上表示出来,如下图所示。

有限理性条件下两群体复制动态的关系和收敛性平面图

根据上图中所反映的复制动态和稳定性,不难看出博弈的进化稳定策略(ESS)有O(0,0)和A(1,1)两点,其他所有点都不是复制动态中收敛和具有抗扰动的稳定状态。

从上图我们可以看出X和Y在进化博弈的过程中,最终将会收敛于两点：O点与A点。O点是个很特殊的点,在博弈中的含义就是两个群个体通过长时间的进化和学习,最终会有可能偏好于不进行金融监管和金融创新(不过在现实中这种情况很难出现)。

至于两群体复制动态的另一个收敛点A点,它包含了非常重要的经济含义：只要一开始博弈双方的策略偏好不落在O点,那么经过复杂的学习、调整和进化后,最终博弈的双方的博弈策略偏好终将落在A点。也就是说,只要通过长期的进化、调整和学习,美国政府和美国金融市场最终将完全偏好于金融监管与金融创新。这与完全理性条件下博弈的子博弈纳什均衡完全一致,说明在这个问题上，有限理性的美国政府与美国金融市场通过学习是能够掌握子博弈完美纳什均衡策略的。

3 美国金融调控机制的ESS分析

在建立模型进行分析的一开始我们就已经考虑到美国政府和美国金融市场的有限理性。也就是说,美国政府和美国金融市场对对方和自己在博弈中所采取的策略的得益情况并非完全清楚,而且对对方博弈策略的选择过程也不是完全清楚。博弈方在博弈的过程中采取某种博弈决策的依据完全来自于对当期博弈的了解以及过往的博弈经验。

在有限理性条件下的进化博弈中的每一个博弈方的策略偏好的不同(注意是方向的不同,而不是强弱的不同)主要根据还是对手的策略偏好。如果美国政府采取的策略偏好是强监管,那么金融市场的策略偏好在一开始将是不创新,而后会对博弈进行学习。之所以后来策略偏好会变化成创新,原因在于当金融市场进行学习博弈的时候,美国政府也在学习博弈。简单地讲,一个博弈方的策略偏好的变化是博弈中另一博弈方的反应函数。正因为这样,才会有20世纪30年代的美国经济大危机时期到之后的金融分业经营时期,再到新经济时期的结束,最后到次贷危机的爆发。各个时期在历史上的出现不是偶然,是一种必然,是美国政府与美国金融市场进行博弈的必然。

第8篇：博弈最优策略范文

【关键词】博弈论；科研制度；交通院校

《中国教育改革与发展纲要》指出，要坚持走内涵式发展道路，表明提高科研效益是各类院校科技工作改革的必然趋势。职业院校在“以服务为宗旨，以就业为导向”推进教学改革的同时，也日益认识到提升教职员工科研水平的重要性。通过对浙江交通技师学院、杭州技师学院、温州交通技术学校、绍兴交通职业学校、东阳汽车技术学校、浙江公路技师学院等浙江省六所交通类中职院校的调研，从博弈论的视角，分析科研发展的现实困境，探讨浙江省交通类中职院校科研制度的建设。

一、浙江交通院校科研现状

浙江省交通类职业院校正处于快速发展阶段，就教职员工而言，以上六所中职院校共有教职员工1227名，其中正高职称3名，副高职称182名，中级职称273名。随着对科研工作的日益重视，各院校纷纷出台各项制度措施促进科研投入，促使教科研成果产出。如杭州技师学院设立院长教科研奖励基金，加大对课题类成果、教材类成果、技能竞赛类成果进行奖励的幅度。但也存在着科研基础薄弱，科研队伍建设滞后，科研内容与应用结合不紧密，科研制度建设不完善等现实问题。浙江省交通类中职院校科研远远滞后于其本身发展。以2013年度为例，据不完全统计，2013年1月至10月，六所中职院校共立项各级科研项目15项，人均主持科研项目0.012项。总体而言，浙江省交通类中职院校科研创新氛围不浓，科研实力较为低下，制度建设较为滞后，且科研发展不均衡，亟待制度创新改变的院校科研现实困境。

二、科研制度博弈模型

（一）博弈论

博弈论（Game Theory）是一种关于游戏的理论，又叫对策论，是一门以数学为基础，研究决策主体的行为发生相互作用时候的决策以及这种决策的均衡问题的学科。博弈论的建立始于1944年冯・诺伊曼与摩根斯顿合作的《博弈论和经济行为》，博弈论对人的基本假定是：人是理性的，其在具体策略选择时的目的是使自己的利益最大化，博弈论研究的就是理性的人之间如何进行策略选择。一个完整的博弈应当包括四个方面的内容：（1）博弈的参加者，即博弈过程中独立决策、独立承担后果的个人和组织；（2）博弈方可选择的全部行为或策略的集合；（3）进行博弈的次序；（4）博弈方的收益，即各博弈方做出决策选择后的所得和所失。随着博弈论的发展及其理论的不断完善，博弈论已成为一种有力的分析手段，在社会、经济研究中有着广泛的应用前景。

（二）科研制度博弈模型

制度博弈模型弈双方为科研制度管理者和教职员工。博弈双方各有两种策略选择，分别为管理者采取制定科研制度策略与不制定科研制度策略，教职员工采取参与科研活动策略与不参与科研活动策略。博弈双方的博弈过程是在不确定性和有限理性的背景下进行的，而且双方的策略又是相互影响的，科研管理者与教职员工会根据其他成员的策略选择并考虑在自身群体中的相对收益情况，来调整和选择各自的策略。博弈双方的支付矩阵如下表：

其中，无论管理者是否制定科研制度，学校教职员工参与科研活动都有收益b，制定科研制度本身会产生收益a。对教职员工本身而言，参与科研活动的成本投入为d，无论是否存在科研制度都会有收益，在制定科研制度条件下收益为c1，在未制定科研制度条件下收益为c2，显然c1>c2。对教职员工而言，在管理者制定科研制定条件下，不参与科研活动会产生相应惩罚，记为-e。对管理者与教职工而言，不制定科研制定、不参加科研活动，其收益均为0。（其中a、b、c1、c2、d、e均大于0）。

（三）博弈分析

1. 科研困境分析

当前大多院校建立了科研制度，但教职员工参与热情有限。究其原因，对教职员工而言，在具备科研制度条件下，参与科研收益小于其不参与科研收益（即c1-d

理想状态是（制定科研制度、参与科研），而在现实情况下往往达不到理想状态？首先可能是科研制度本身出状况，科研制度没有促使教职员工参与，参与科研收益小于其不参与科研收益。其次可能存在信息不对称现象，教职员工处于信息劣势一方，不能及时、有效的获取相关的科研信息；而管理者未能构建畅通的科研信息传播渠道。

2. 博弈演化分析

对于科研管理者而言，理想状态是建立有效科研制度，激励教职员工参与科研活动，强化科研收益与惩罚措施（提高c1与e1），使得其参与科研收益大于其不参与科研收益（即c1-d>-e1）。这样，对于科研管理者而言，无论教职员工采取何种策略，制定科研制度策略均优于不制定科研制度策略。因此，制定科研制度策略为严格优势策略。在管理者制定科研制度的策略下，教师参与科研的收益为c1-d，优于不参与科研的收益-e1。由此，教职员工参与科研为最佳应对。即（制定科研制度、参与科研）为博弈均衡，达到社会最优、帕累托最优。

三、科研制度建设的若干思考

（一）现实情况下，科研制度本身存在若干问题

当前，浙江省交通类中职院校的科研虽然得到了长足的发展，但也存在着科研创新氛围不浓，科研实力较为低下等诸多问题。究其原因，科研制度本身存在着问题。其一，科研制度尚不完善；其二，科研制度未能有效的发挥制度导向和杠杆作用，不能促使教职员工投入到科研工作中去。

（二）建立绩效考核下科研制度

将科研工作与绩效考核挂钩，充分发挥政策的导向和杠杆作用，通过制定一系列的科研制度，将教职员工的科研工作与绩效联系在一起，充分发挥教职员工的积极性与主动性。对有科研成果的教职员工给予不同级别的奖励，在职称评定、聘任等方面向积极参与科研工作的教职员工倾斜，努力营造良好的院校科研氛围。

（三）科研制度应奖罚分明，强化科研收益

学院科研制度的设置不仅仅只考虑激励机制，而应设置科研考核标准，奖优罚劣，强化科研收益。建立教科研分类考核制度，对不同特点教师进行分类考核，对于科研见长的教师，加强科研在教科研考核中所占比重；对于教学见长的教师，加强教学在教科研考核所占比重；对于青年教师，坚持以老带新，给予发展的平台与空间。

参考文献

[1] [美] 冯・诺伊曼，摩根斯顿.博弈论与经济行为[M].王文玉，王宇译.北京：生活・读书・新知三联书店，2004.

[2] 谢识予.经济博弈论[M].上海：复旦大学出版社，2013.

[3] 张维迎.博弈论与信息经济学[M].上海：上海人民出版社，2004.

第9篇：博弈最优策略范文

关键词：网上购物；信用问题；博弈

众所周知，网络购物时交易双方大都是通过聊天软件进行沟通，难以获知交易主体的真实性，而且产品信息主要是由卖方在个人网页上以文字或图片的形式进行说明，买方在收货之前并不能实地感知产品的质量，这使得网络交易中的信用问题日益突出，也成为电子商务进一步发展的瓶颈。鉴于此问题，文章从博弈论的角度对网络购物中的信用问题进行了分析。首先构建简单的一次博弈模型，

一、网上购物交易双方博弈模型

（一）模型的基本假定

网上购物时一个庞大复杂的系统，具体从交易主体划分，网上购物主要存在如下形式，企业与企业之间的电子商务（B2B）、企业与消费者之间的电子商务（B2C）、消费者与消费者之间的电子商务（C2C），为突出所分析问题的重点，这里就将交易主体笼统地定义为买方合卖方，游戏规则如下：

（1）博弈模型包括两个主体，即一个买方和一个卖方，具是理性人。

（2）博弈主体各有两种策略，即卖家有两种策略：诚信而出售高质量的产品，或者不诚信而出售劣质产品；买家也有两种策略：购买，或者不购买。

（3）博弈中参与人在选择策略时，二者之间的博弈是静态博弈。

（4）存在政府的监督。

（二）模型的建立

根据上面的假设我们可以将这个博弈看作是一次完全信息静态博弈。假设卖家方以P的价格出售产品，诚信卖方销售高质量产品的成本为Cp，买方购买了诚信卖方的产品的效用为U1（U1>Cp）.不诚信卖方提供劣质产品的成本加上欺诈成本为Cc，这里的Cc主要包括卖方销售劣质产品导致的法律的惩罚、名誉的丧失等，买方购买了劣质产品的效用为U2（U2

从以上假设可以得到买方和卖方的完全信息静态博弈模型，如表1所示：

表1：网上购物交易双方的纯策略博弈支付矩阵

（三）模型的分析

从表1可以看出：

（1）当P-Cp>P-Cc时，卖方选择诚信的收益大于选择不诚信的收益，该博弈存在唯一的纳什均衡点（U1-P，P-Cp）。当卖方选择诚信时，买方的最优策略是购买；当卖方选择不诚信时，买方的最优策略是不购买。另外一方面，当买方选择购买，卖方的最优策略是诚信；当买方选择不购买，卖方的最优策略还是诚信（-Co>P-Co）。在此种情况下，模型存在唯一的纳什均衡解（购买，诚信）。

由此可知纳什均衡解的关键在于卖方不诚信的欺诈成本Cc的大小。当这个因素足够大时，则卖方选择诚信策略。

（2）当P-Cp

我们可将这一模型扩展为一个完全信息下的混合策略博弈。它存在一个混合策略纳什均衡。现在我们假设买卖双方按照一定的比率，对表1进行重新定义：买方购买比率为Z，卖方诚信比率为[，其余与表1一致。分析如下：

假定买方选择购买策略的概率为Z（0Z1），选择不购买策略的概率为1-Z；卖方选择诚信策略的概率为[（0[1），选择不诚信策略的概率为1-[。则买方的期望收益函数为：

E1=Z[[*（U1-P）+（1-[）*（U2-P）]+（1-Z）[[*0+（1-[）*0]。

在这个博弈里，因为每个买方都是理性的经济人，所以每个买方都要选择适当的Z，以使自己的收益最大化。据此可以得到买家的最佳反应函数是：如果[

同理可得，卖方的期望收益函数为：

E2=[[Z*（P-Cp）+（1-Z）*0]+（1-[）[Z*（P-Cc）+（1-Z）*（-Cc）}。

可以得到卖家的最佳反应函数：如果Z< Cc/Cp， [=0；如果Z= Cc/Cp，0

现在我们可以在以Z为纵轴，[为横轴的直角坐标系中，把买方和卖方的最佳反应函数都画出来，两个反应函数重合的地方就是这个混合策略的纳什均衡，由此，我们得出了网上购物中买卖双方混合策略博弈的纳什均衡点。即买方以Cc/Cp的概率选择购买产品，卖方以（P-U2）/（U1-U2）的概率选择诚信对待卖方。

在以上这个完全信息静态博弈的分析中，买方仍有不购买商品的可能，卖方也仍有不诚信的可能。如何解决这个问题，需要我们进一步分析买方与卖方重复博弈的情况。

（四）重复博弈分析

在我们实际的网购交易中，买方和卖方一般都不只做一次交易，即使同一店铺有多个买方，我们依然可以假设卖方以往的信息是公开的，所有不同的潜在买方都知道这些信息，所以可以设定这些不同的买方仍为这个博弈模型中的同一个局中人。对于扩展的重复博弈模型，我们加入以下假设：同一卖方虽然可能有不同的潜在顾客，但我们仍然把这些顾客看成一个买家；"买家采取"冷酷策略"，即只要在重复博弈中，卖家有一次的欺骗行为，将触发买家在以后的策略中永远选择"不买"的策略。

根据表1，我们可以得出卖方的期望支付，当卖方一直保持诚信的期望支付要大于他一次不诚信而获得的支付时，他将会在每次交易中都保持诚信的策略。这样博弈的最终策略就是买方购买产品，卖方一直保持诚信。这就是重复博弈产生的信用机制，重复博弈解决了买家与卖家之间的"囚徒困境"，促进网购更好的发展。

二、结论与建议

目前，我国网上购物的电子商务市场正处于成长阶段，相应的法律法规还不够完善，即使卖方欺诈经营。也很难从法律条文的角度对其做出有力的规范。这就直接影响了卖方的信用。目前国内主要的电子商务平台如淘宝网、拍拍网等均对其网上商店设立了相应的管理规则。因此对于网络购物信用问题的改善，可以从以下方面着手：第一，提高政府的监督和惩罚力度。第二，提高交易合作的持久性。第三，建立消费者保障计划

参考文献：

[1]张维迎.博弈论与信息经济学[M].上海：上海人民出版社，2003.

[2]张睿，陈卫华.电子商务信任机制的研究[J].华中科技大学学报（社会科学版），2003，06.

[3]汤清，付阳.C2C电子商务中的博弈论分析[J].特区经济，2006，06.

博弈最优策略精选(九篇)

相关热门标签

相关文章阅读

精选范文推荐

相关期刊推荐

玻璃艺术

宁波医学

船舶经济贸易

冶金信息导刊