戦略的思考

【戦略的思考】ナッシュ均衡 ─ 誰も戦略を変えたくない均衡状態

【戦略的思考】ナッシュ均衡 ─ 誰も戦略を変えたくない均衡状態

当サイトを閲覧いただきありがとうございます。 本記事は「ナッシュ均衡」について解説します。

ゲーム理論の中核をなす概念であり、複数のプレイヤーがそれぞれ自分の利益を最大化しようとした結果、自然に到達する安定した状態のことです。競争・交渉・協調のあらゆる場面に潜んでいる構造であり、経済学・政治学・生物学・軍事戦略まで広く応用されています。

図解

ゲーム理論の誕生とナッシュの登場

ゲーム理論は20世紀の数学者ジョン・フォン・ノイマンとオスカー・モルゲンシュテルンが1944年の著書「ゲームの理論と経済行動」で体系化しました。ただし当初の理論は、利得の総和がゼロになる「ゼロ和ゲーム」に限定されていました。つまり一方の勝利が他方の敗北に直結する純粋な競争状況だけを扱っていたのです。

この枠組みを突破したのが、1928年生まれのジョン・フォーブス・ナッシュです。プリンストン大学の大学院生だったナッシュは1950年にわずか27ページの論文で、利得の総和がゼロでないゲーム(非ゼロ和ゲーム)も含む一般的な均衡概念を定式化しました。これがナッシュ均衡です。

ナッシュはその後、統合失調症を発症し30年以上にわたって闘病生活を送りました。1994年、ノーベル経済学賞を受賞した際にはすでに回復しており、彼の生涯は映画「ビューティフル・マインド(2001年)」として描かれています。彼の業績は、単純化された数学モデルが現実の複雑な戦略的状況を解析する道具になることを示した点で、20世紀の社会科学に最も大きな影響を与えた成果の一つとされています。

ナッシュ均衡の定義

定義はシンプルです。「全てのプレイヤーが、他の全プレイヤーの戦略を所与として、自分だけが戦略を変えても利益を改善できない状態」がナッシュ均衡です。

言い換えると、ナッシュ均衡に到達したプレイヤーは一方的に戦略を変えても得をしないため、誰も行動を変える動機を持ちません。結果として、その状態が安定して続きます。

重要な点として、ナッシュ均衡は「互いにとって良い状態」を意味しません。あくまでも「誰も一方的に逸脱する動機がない安定した状態」というだけです。これが後に述べる囚人のジレンマとの関係において核心的な問題となります。

支配戦略との違い

ナッシュ均衡の前に理解すべき概念が「支配戦略(Dominant Strategy)」です。

支配戦略とは、相手がどのような戦略をとっても、自分にとって常に最善になる戦略のことです。囚人のジレンマでは「自白(裏切り)」が支配戦略です。相手が黙秘しても自白しても、自白した方が自分の刑期は短くなります。

しかし多くのゲームでは支配戦略は存在しません。そのような場合にでも「互いに相手の戦略に対して最善の応答をしている状態」として均衡を定義したのがナッシュ均衡です。支配戦略均衡はナッシュ均衡の特殊ケースです。

利得表でナッシュ均衡を探す

2プレイヤー・2戦略のゲームを利得表で分析することで、ナッシュ均衡を探す方法を理解できます。

性別の戦い(Battle of the Sexes)の例

カップルが休日の行き先を相談なしに決めなければならないとします。

  • Aさんはコンサートが好き(行けたら3点、フットボールは1点)
  • Bさんはフットボールが好き(行けたら3点、コンサートは1点)
  • 2人が別々の場所に行ったら双方0点
BがコンサートBがフットボール
AがコンサートA:3 / B:1A:0 / B:0
AがフットボールA:0 / B:0A:1 / B:3

ナッシュ均衡は2つあります:「双方コンサート」と「双方フットボール」。どちらの均衡でも、片方が一方的に変更すれば0点になるため、逸脱する動機がありません。

しかし「どちらの均衡に到達するか」という「均衡選択問題」は解決しません。2人が事前に話し合えれば済みますが、話し合えない場合はシェリング点(フォーカルポイント)などの概念が均衡選択に影響します。

【戦略的思考】シェリング点 ─ 相談なしに人々が自然に選ぶ焦点とその論理senkohome.com/strategic-thinking-schelling-point/

チキンゲームの例

2人のドライバーが正面衝突コースで向かい合い、どちらかが先に避けると「チキン(臆病者)」と呼ばれるとします。

  • 両方が直進すれば双方クラッシュ(最悪)
  • 片方だけが避ければ、避けた方が「チキン」(損)、直進した方が「勇気がある」(得)
  • 両方が避ければ引き分け(まあまあ)
相手が直進相手が避ける
自分が直進−10 / −10+3 / −1
自分が避ける−1 / +30 / 0

ナッシュ均衡は「片方が直進・片方が避ける」の2つです。例えば(自分が直進、相手が避ける)の状態では、自分が避けに変えると+3から0になって損をするため変える動機がなく、相手が直進に変えると−1から−10になってさらに損をするため変える動機がありません。両者とも逸脱する動機がない状態がナッシュ均衡です。

このゲームは核戦争抑止・労使交渉・国際外交の構造をモデル化するのによく使われます。

混合戦略均衡

純粋な選択(右か左か、直進か回避か)だけでなく、確率的に戦略を混ぜる「混合戦略」でもナッシュ均衡が成立します。

じゃんけんの例

じゃんけんでは、グー・チョキ・パーをそれぞれ1/3の確率で出すのが混合戦略のナッシュ均衡です。

なぜか。もし相手がグーを多めに出すなら、自分はパーを多く出した方が得です。しかし自分がパーを多く出すようになると、相手はハサミを多く出すようになる。このように純粋戦略の均衡が存在しない場合、確率を混ぜることで均衡に達します。

数学的には「相手が混合戦略の均衡確率で行動しているとき、自分はどの純粋戦略を選んでも期待利得が同じ」という条件が混合戦略均衡を定義します。

ナッシュの存在定理により、全ての有限ゲーム(プレイヤー数・戦略数が有限)には少なくとも1つのナッシュ均衡(混合戦略を含む)が存在します。この証明にブラウワーの不動点定理という高度な数学が使われました。

テニスのサービスへの応用

テニスのサービスで、サーバーは右か左に打つかを選び、レシーバーはどちらに備えるかを選びます。サーバーが右に集中すれば、レシーバーも右に備える。するとサーバーは左に打つ方が有利になる…という循環が生じます。

実際のトッププレイヤーのサービスを分析すると、各方向のサービスが概ね混合戦略均衡の確率に近い比率で打たれていることが、スポーツ経済学の研究で示されています。

サブゲーム完全均衡

ナッシュ均衡は「同時手番」(全プレイヤーが同時に選択)のゲームに定義されますが、実際には「順番手番」(交互に選択)のゲームも多いです。この場合、ナッシュ均衡の精緻化として「サブゲーム完全均衡」が重要になります。

バックワード・インダクション(逆向き帰納法)

最後の手番から逆向きに考えることで均衡を求める手法です。

例:2回の取引を行う売り手と買い手。最後(2回目)の取引では、売り手は品質保証をしないのが短期的には得です。これを予測した買い手は2回目取引を拒否します。するとそもそも1回目の取引も成立しない可能性があります。

この逆向き推論は「時間的整合性」の問題として、金融政策・政治公約・国際条約の信頼性の議論に応用されています。「後から有利な行動に変えない」と事前にコミットできるかどうかが、均衡の実現可能性に影響します。

価格競争と均衡:ベルトランとクールノー

産業組織論における2つの有名なモデルがナッシュ均衡の適用例です。

ベルトランの価格競争

財が同質(全く同じ)で2社が価格を競争する場合(ベルトラン競争)、ナッシュ均衡ではどちらも限界費用(コスト)と等しい価格まで下がります。2社しかいないのに完全競争と同じ結果が出るという「ベルトランのパラドックス」です。

なぜか。相手が100円で売っているなら、99円で売れば客を全部取れる。しかし相手も99円にする。この競争が限界費用まで続きます。どちらかが価格を上げると客を失い、下げると赤字になるため、限界費用均衡が安定します。

クールノーの数量競争

各社が価格ではなく「生産量」を同時に決める場合(クールノー競争)、均衡は限界費用均衡よりも価格が高く(各社の利益がプラス)、独占よりは安いという中間的な点になります。クールノー均衡は「各社が相手の生産量を所与として自社の最適生産量を求めた結果の均衡」であり、標準的なナッシュ均衡の概念です。

これは現実の寡占市場(少数の大企業が競争する市場)をモデル化するのによく使われます。

軍拡競争:囚人のジレンマとしてのナッシュ均衡

冷戦時代の米ソ核軍拡競争は、ナッシュ均衡の悲劇的な応用例です。

両国にとって核軍縮(協力)は最良の結果をもたらします。しかし相手が軍縮する場合、自国だけが軍拡すれば圧倒的優位に立てる。相手が軍拡する場合、自国が軍縮すれば圧倒的不利になる。どちらの場合も軍拡が「合理的」です。

結果として双方が軍拡するナッシュ均衡に到達しますが、これは双方が軍縮した場合より経済的・安全保障的に悪い状態です。現実には軍備管理条約(SALT・START)という「制度」によってこのジレンマからの脱出が試みられました。繰り返しゲームと「信頼できるコミットメント」が均衡を変えたわけです。

OPECと産油国カルテル

石油輸出国機構(OPEC)の生産割当交渉もナッシュ均衡の典型例です。

加盟国全員が生産量を制限すれば価格が上がり、全員の利益になります。しかし各国にとっては、他国が制限している中で自国だけ生産を増やせば利益が最大になる(裏切りが支配戦略に近い)。結果として協調が崩れ、過剰生産・価格下落になりやすいです。

OPECが機能するとき(協調が維持されるとき)は、繰り返しゲームによる制裁の脅威・モニタリング機構・リーダー国(サウジアラビア)の調整力が「均衡」を変えているとみることができます。

複数均衡と均衡選択問題

多くのゲームには複数のナッシュ均衡が存在します。「どの均衡が実現するか」を理論だけから予測することは難しく、これを「均衡選択問題」と言います。

均衡選択に影響する要因には以下のものがあります。

シェリング点(フォーカルポイント):文化的・歴史的に「顕著な選択肢」として人々が自然に選ぶ均衡(別記事で詳述)。

フェアネス規範:「公平感」のある均衡が人々に好まれる傾向。実験経済学では、理論的均衡より公平な配分が選ばれることが多く確認されています。

コミュニケーション:事前の話し合いがあれば、特定の均衡への収束が容易になります。ただし拘束力のない話し合い(チープトーク)が均衡を変えるかどうかは、利益の一致度に依存します。

進化ダイナミクス:繰り返し相互作用の中でどの均衡に収束するかは、進化ゲーム理論で分析します(別記事参照)。

【戦略的思考】進化ゲーム理論 ─ 協力はなぜ進化し、しっぺ返し戦略はなぜ強いのかsenkohome.com/strategic-thinking-evolutionary-game/

実験経済学が示す限界

ナッシュ均衡は「合理的なプレイヤー」を前提としていますが、実験経済学では人々が必ずしもナッシュ均衡に従わないことが示されています。

最後通牒ゲーム:2人に100円を分ける。提案者が配分を決め、受け手が拒否すれば双方0円。ナッシュ均衡は「1円:99円(提案者が99円)」ですが、現実には不公平な提案は頻繁に拒否されます。人間は不公平に対して「損をしてでも罰を与える」という傾向があります。

公共財ゲーム:グループで共有財に投資する実験では、ナッシュ均衡の「全員がただ乗り(0円投資)」という予測と異なり、最初は多くの人が協力的に行動します。ただし繰り返すうちに協力が崩れる傾向があります。

これらの知見はナッシュ均衡が「社会規範・感情・互恵性」が弱い状況でより現実を近似し、それらが強い状況では修正が必要であることを示しています。

ナッシュ均衡を使った現実分析の方法

ナッシュ均衡を実際の問題分析に使う際の手順を整理します。

①プレイヤーを特定する:誰が意思決定者か。企業・国家・個人の組み合わせを整理します。

②戦略空間を定義する:各プレイヤーがとりうる選択肢(連続変数か離散変数か)を明確にします。

③利得を設定する:各戦略の組み合わせで各プレイヤーが得る利益を定量化します。

④均衡を探す:各プレイヤーのベスト・レスポンス関数を求め、それが交差する点(均衡)を特定します。

⑤均衡の性質を評価する:パレート効率的か。複数均衡が存在するか。均衡が安定か(小さな擾乱に対して収束するか)。

この分析を行うだけで、「なぜ企業が価格を下げ続けるのか」「なぜ各国が軍備を縮小しないのか」という一見感情的・政治的に見える問題が、構造的に理解できます。

まとめ

本記事は「ナッシュ均衡」について解説しました。如何だったでしょうか。

「誰も一方的に戦略を変えても得をしない状態」という定義は一見シンプルですが、その背後には複数均衡の問題・混合戦略・動的なゲームでの精緻化・実験的検証など、深い構造があります。

特に重要な視点は2つです。一つは「ナッシュ均衡は安定であるが、必ずしも良い状態ではない」という点。もう一つは「制度・繰り返し・コミュニケーションが均衡自体を変えられる」という点です。現実の社会問題の多くは「悪いナッシュ均衡からどう脱出するか」というデザインの問題でもあります。

関連するフレームワークとして、ミニマックス戦略や進化ゲーム理論も合わせて読むと理解が深まります。

フレームワーク一覧・ゲーム理論概論は以下からどうぞ。

それでは次の記事も閲覧いただけると幸いです。