【戦略的思考】ゲーム理論 ─ 戦略的相互依存の数学的分析

当サイトを閲覧いただきありがとうございます。本記事は「ゲーム理論（Game Theory）」について解説します。

複数のプレイヤーが互いの行動を意識しながら意思決定する状況を数学的に分析する学問です。経済学・政治学・生物学・コンピュータ科学にまたがる理論として発展し、20世紀後半に最も影響力を持った知的枠組みのひとつとなりました。

本記事はゲーム理論の全体像を扱う概論です。各概念の詳しい解説は専門記事へのリンクを随所に掲載しています。ゲーム理論が初めての方は「標準形ゲームと支配戦略」（囚人のジレンマ・ナッシュ均衡）の節から読み始めると全体像が掴みやすいです。

ゲームの分類体系

ゲーム理論の誕生と歴史

フォン・ノイマンと「ゲームの理論と経済行動」

ゲーム理論の数学的な基礎は、ハンガリー出身の天才数学者ジョン・フォン・ノイマンが1928年に発表した論文「室内ゲームの理論」に遡ります。チェスやポーカーのような2人ゼロサムゲームにおいて「ミニマックス定理」を証明し、純粋戦略で均衡がない場合でも混合戦略を使えば必ず均衡が存在することを示しました。

1944年、フォン・ノイマンは経済学者オスカー・モルゲンシュテルンと共著で「ゲームの理論と経済行動（Theory of Games and Economic Behavior）」を出版しました。この著作は600ページを超え、ゲーム理論を経済学の分析道具として確立した記念碑的な書物です。

ジョン・ナッシュと「ナッシュ均衡」

フォン・ノイマンの理論は2人ゼロサムゲームに限定されていましたが、1950年にプリンストン大学の大学院生ジョン・ナッシュが非ゼロサムゲーム・多人数ゲームに適用できる一般的な均衡概念を提唱しました。わずか27ページの博士論文で示された「ナッシュ均衡」は、ゲーム理論の応用範囲を劇的に広げました。

ナッシュは後に統合失調症を発症し、長年にわたって精神的な苦境を乗り越えた後、1994年にジョン・ハーサニ・ラインハルト・ゼルテンとともにノーベル経済学賞を受賞しました。その波乱の生涯は映画「ビューティフル・マインド（A Beautiful Mind）」（2001年）でも描かれています。

【戦略的思考】ナッシュ均衡 ─ 誰も戦略を変えたくない均衡状態senkohome.com/strategic-thinking-nash-equilibrium/

その後の発展とノーベル賞

ゲーム理論は1960〜80年代にかけて急速に発展しました。

ゼルテン（1994年受賞）：サブゲーム完全均衡・バックワード・インダクションを提唱。不合理な脅しを均衡から排除する「精緻化」の枠組みを作りました。

ハーサニ（1994年受賞）：不完全情報ゲーム（プレイヤーが相手の利得や特性を知らない状況）を分析するベイジアンゲームの枠組みを確立しました。

オーマン（2005年受賞）：繰り返しゲームとフォーク定理の数学的な厳密化・共通知識（Common Knowledge）の概念化。

シェリング（2005年受賞）：ゲーム理論を核抑止論・交渉論・国際安全保障に応用。フォーカルポイント（シェリング点）の概念を提唱。

マスキン、マイヤーソン、ハーヴィッツ（2007年受賞）：メカニズムデザイン（望ましい結果を生む制度を設計する「逆ゲーム理論」）。

シャプレー、ロス（2012年受賞）：安定マッチング理論と市場設計への応用。

ゲーム理論のノーベル賞受賞者の多さは、この理論が現代経済学・社会科学の中枢にどれほど深く入り込んでいるかを示しています。

【戦略的思考】シェリング点 ─ 相談なしに人々が自然に選ぶ焦点とその論理senkohome.com/strategic-thinking-schelling-point/

【戦略的思考】メカニズムデザイン ─ 望ましい結果を生むルールを逆算して設計するsenkohome.com/strategic-thinking-mechanism-design/

ゲームの基本要素

ゲーム理論が分析するのは、「複数の意思決定主体（プレイヤー）が互いの行動の結果を意識しながら行動を選ぶ状況」です。この状況を「ゲーム」と呼び、3つの基本要素で構成されます。

プレイヤー（Player）：意思決定を行う主体です。人間・企業・国家・生物種など、意図を持って行動を選択できる主体であれば何でもプレイヤーになり得ます。ゲーム理論では通常、プレイヤーは自分の利得を最大化しようとする「合理的なエージェント」と仮定されます。

戦略（Strategy）：プレイヤーが選択できる行動プランの集合です。

純粋戦略（Pure Strategy）：確実に特定の行動を選ぶ決定的な計画（「必ず右に行く」）
混合戦略（Mixed Strategy）：各行動を確率的に選ぶ計画（「50%の確率で右に行く」）

ゲームによっては有限の戦略しかない場合（じゃんけんの3択）も、連続的な戦略空間がある場合（価格をいくらに設定するか）もあります。

利得（Payoff）：各プレイヤーが戦略の組み合わせ（アウトカム）から得る結果の評価値です。通常、効用（主観的な満足度）として表現されます。ゲーム理論における「合理性」とは、この利得を最大化するように行動することです。

ゲームは「各プレイヤーが自分の戦略を選んだときの利得がどう決まるか」という関数（利得関数）によって定式化されます。

ゲームの分類

ゲーム理論が扱うゲームは複数の軸で分類されます。

協力構造による分類：

非協力ゲーム（Non-Cooperative Game）：プレイヤーが拘束力のある合意なしに独立して意思決定するゲームです。現代のゲーム理論の中心はこの非協力ゲームです。ナッシュ均衡はこの文脈で定義されます。

協力ゲーム（Cooperative Game）：プレイヤーが連合（Coalition）を形成し、連合内で拘束力のある合意ができるゲームです。どの連合が形成されるか、利得をどう配分するかを分析します。シャプレー値・コアが主な均衡概念です。

情報の構造による分類：

完全情報ゲーム（Perfect Information Game）：全プレイヤーが全ての情報（過去の全行動・相手の利得関数）を知っているゲームです。チェス・将棋がこの典型です。

不完全情報ゲーム（Imperfect Information Game）：一部のプレイヤーが知らない情報（相手の利得・特性・過去の行動）が存在するゲームです。オークション・ポーカー・保険市場がこの典型です。

時間構造による分類：

静的ゲーム（Static Game / 同時手番）：全プレイヤーが同時に（または相手の行動を見ずに）戦略を選ぶゲームです。

動的ゲーム（Dynamic Game / 順次手番）：プレイヤーが順番に行動し、先のプレイヤーの行動を後のプレイヤーが観察できるゲームです。

これらの組み合わせで4種類のゲームが生まれます（上の分類図を参照）。それぞれ異なる均衡概念と分析手法を使います。

ゼロサム性による分類：

ゼロサムゲーム（Zero-Sum Game）：全プレイヤーの利得の合計が常に一定で、一方の得が他方の損になるゲームです。チェス・ポーカー・ミニマックス戦略が主な対象です。

非ゼロサムゲーム（Non-Zero-Sum Game）：プレイヤー全員が同時に得をする（または全員が損をする）可能性があるゲームです。現実のビジネス・外交・環境問題はほとんどが非ゼロサムです。

標準形ゲームと支配戦略

利得表の読み方

静的ゲームは利得表（Payoff Matrix）で表現されます。

2人ゲームでは行プレイヤーが戦略を選んで「行」を決め、列プレイヤーが戦略を選んで「列」を決めます。各セルに（行プレイヤーの利得, 列プレイヤーの利得）の形式で利得が書かれます。

囚人のジレンマの利得表

上の図は囚人のジレンマ（Prisoner’s Dilemma）の利得表です。2人の容疑者（囚人A・囚人B）が別々の部屋で取調べを受けており、黙秘（協力）か密告（裏切り）かを選択します。

双方が協力（黙秘）：双方の利得は3（両者とも軽い処罰）
AだけがBを裏切り（密告）：Aの利得は5（無罪放免）、Bの利得は0（重い処罰）
BだけがAを裏切り：Bの利得は5、Aの利得は0
双方が裏切り：双方の利得は1（中程度の処罰）

支配戦略

支配戦略（Dominant Strategy）とは、相手の戦略に関わらず、常に他のどの戦略よりも高い（または同等以上の）利得をもたらす戦略です。

囚人のジレンマでAの立場から見ると：

Bが協力する場合：Aが協力→利得3、Aが裏切り→利得5（裏切りが優る）
Bが裏切る場合：Aが協力→利得0、Aが裏切り→利得1（裏切りが優る）

どちらの場合も「裏切り」が優るため、「裏切り」がAの支配戦略です。Bも同様に「裏切り」が支配戦略です。

支配戦略が存在する場合、合理的なプレイヤーは必ず支配戦略を選びます。「相手が何をするか」を考える必要がなく、自分の戦略だけで最善が決まります。

ナッシュ均衡

全プレイヤーが支配戦略を持つわけではありません。多くのゲームでは「相手の戦略次第で自分の最善策が変わる」という状況です。

そこで使われるのが「ナッシュ均衡（Nash Equilibrium）」です。

定義：全プレイヤーが相手の戦略を所与として、自分の利得を最大化している（最善応答をとっている）戦略の組み合わせ。

ナッシュ均衡では、どのプレイヤーも一人で戦略を変更しても利得が改善しません（逸脱するインセンティブがない）。

囚人のジレンマでは（裏切り, 裏切り）がナッシュ均衡です：

Aは相手が「裏切り」を選んでいるとき、「協力」に変えると利得が0に下がる（現在1）→逸脱しない
Bも同様

ただし、ナッシュ均衡はパレート最適とは限りません。囚人のジレンマでは（協力, 協力）の（3,3）の方が双方にとって良いのに、（裏切り, 裏切り）の（1,1）が均衡になります。これが「社会的ジレンマ」の構造です。

【戦略的思考】パレート効率 ─ 誰も犠牲にせず改善できる余地があるかsenkohome.com/strategic-thinking-pareto/

ナッシュ均衡の存在定理：ナッシュは「有限ゲームでは混合戦略を含めると必ずナッシュ均衡が存在する」ことを証明しました。これがナッシュの博士論文の核心です。

代表的なゲームの詳細

囚人のジレンマ（Prisoner’s Dilemma）

上で説明した通りです。個人の合理的な行動が集団全体の利益を損なうという社会的ジレンマの代表例です。

軍拡競争（双方が軍備を縮小すれば双方の費用が下がるが、各国は軍備拡大が支配戦略）・価格競争（全社が高価格を維持すれば業界全体が利益を得るが、各社が値下げを支配戦略とする）・公共財問題（全員が貢献すれば全員が得をするが、個人は無料乗りが支配戦略）はすべて囚人のジレンマの構造を持ちます。

チキンゲーム（Chicken Game / Hawk-Dove Game）

2台の車が正面から向かい合って走り、どちらかが先に曲がれば相手の勝ち、双方が曲がらなければ衝突するゲームです。

利得表の構造（一例）：

	相手：曲がる	相手：直進
自分：曲がる	（0, 0）	（−1, 1）
自分：直進	（1, −1）	（−10, −10）

ナッシュ均衡は2つあります：（自分が直進・相手が曲がる）と（自分が曲がる・相手が直進）です。純粋戦略の均衡が複数あり、どちらになるかは状況次第です。

チキンゲームの構造を持つ現実の状況：核抑止（どちらが先に降りるか）・ブチキン対立・企業の価格競争（先に値上げした方が損をする）・国際交渉（どちらが先に譲歩するか）。

協調ゲーム（Coordination Game）

双方が同じ選択をするほど利得が高いゲームです。

	相手：A規格	相手：B規格
自分：A規格	（10, 10）	（0, 0）
自分：B規格	（0, 0）	（10, 10）

ナッシュ均衡は（A, A）と（B, B）の2つです。どちらに収束するかが問題で、これがシェリング点（フォーカルポイント）の出番です。「皆が選びそう」な規格に全員が収束する傾向があります。

技術規格の競争・言語・通貨・交通ルール（右側通行か左側通行か）は協調ゲームの構造を持ちます。

性別の戦い（Battle of the Sexes）

利得が完全には一致しないが協調の価値もあるゲームです。

夫はサッカー観戦、妻はコンサートに行きたいが、二人で行動することに価値があります。

	妻：サッカー	妻：コンサート
夫：サッカー	（3, 1）	（0, 0）
夫：コンサート	（0, 0）	（1, 3）

ナッシュ均衡は（サッカー, サッカー）と（コンサート, コンサート）の2つです。夫が好む均衡と妻が好む均衡が異なります。これが「均衡選択問題」の典型例で、社会規範・慣行・コミュニケーションがどちらの均衡に収束するかを決めます。

混合戦略均衡

純粋戦略ナッシュ均衡が存在しないゲームがあります。その代表例が「じゃんけん」です。

	相手：グー	相手：チョキ	相手：パー
自分：グー	（0, 0）	（1, −1）	（−1, 1）
自分：チョキ	（−1, 1）	（0, 0）	（1, −1）
自分：パー	（1, −1）	（−1, 1）	（0, 0）

どの純粋戦略も「相手がその最善応答を選ぶと別の戦略が最善になる」という循環があり、純粋戦略ナッシュ均衡が存在しません。

この場合の解が混合戦略ナッシュ均衡です。各手を1/3の確率で選ぶことが混合戦略均衡になります。相手が1/3ずつの確率で選ぶとき、自分はどの純粋戦略を選んでも期待利得が等しく（均等確率で0）、1/3ずつの確率でランダムに選んでも同じです。

混合戦略の直感的意味：相手に自分の行動を予測させないためにランダムに行動することが戦略的に最善になる場面があります。スポーツ（サッカーのペナルティキック・野球の配球・テニスのサーブ方向）では、相手に読まれないためにランダム性が有効です。

ナッシュの均衡存在定理は、混合戦略を許容すれば有限ゲームでは必ず均衡が存在することを保証します。

展開形ゲームとバックワード・インダクション

時間を持つ動的ゲームは「利得表」ではなく「ゲームツリー（展開形ゲーム）」で表現されます。

展開形ゲームとバックワード・インダクション

上の図は「参入ゲーム（Entry Deterrence Game）」です。

設定：

参入企業（先手）が市場への参入を検討しています
既存企業（後手）は参入されたときに「価格競争で徹底的に戦う」か「共存（協調価格）」かを選べます

利得：

参入する → 価格競争：（先手: −1, 後手: 2）競争で双方が疲弊
参入する → 協調価格：（先手: 3, 後手: 5）市場分割で双方が利益
参入しない：（先手: 0, 後手: 10）既存企業が独占利益を享受

バックワード・インダクションの手順

展開形ゲームの分析にはバックワード・インダクション（後ろ向き帰納法）を使います。ゲームツリーの末端（終端ノード）から逆向きに分析します。

ステップ1（最後の意思決定）：参入企業が参入した場合、既存企業は「価格競争（利得2）」か「協調価格（利得5）」を選びます。5 > 2 なので、既存企業は「協調価格」を選びます。

ステップ2（最初の意思決定）：参入企業はステップ1の結果を見越して判断します。「参入する」と協調価格になり利得3、「参入しない」と利得0。3 > 0 なので、参入企業は「参入する」を選びます。

均衡結果（サブゲーム完全ナッシュ均衡）：（参入する, 協調価格）→ 利得（3, 5）

信頼できない脅しの排除

既存企業が「参入したら価格競争をする」と脅したとしても、実際に参入されたとき価格競争より協調の方が有利（5 > 2）なので、この脅しは「信頼できない脅し（Non-Credible Threat）」です。

参入企業はこれを見抜き、脅しを無視して参入します。

これがバックワード・インダクションの重要な洞察です。ゼルテンのサブゲーム完全均衡（SPNE）は、ゲームの全ての「サブゲーム（部分木）」でナッシュ均衡になっている戦略の組み合わせだけを均衡として認め、「信頼できない脅し」を均衡から排除します。

現実の含意：外交交渉での脅しが実行可能かどうか・企業の「撤退しない」宣言の信頼性・「もし宿題をしなければテレビを禁止する」という親の脅しが本当に実行されるか、などを分析できます。

繰り返しゲームとフォーク定理

一回限りの囚人のジレンマでは「裏切り」が均衡ですが、同じプレイヤーが繰り返し対戦する繰り返しゲーム（Repeated Game）では状況が変わります。

無限繰り返しゲームとフォーク定理：

将来の利得を割引因子δ（0 < δ < 1、δが大きいほど将来を重視）で評価するとき、δが十分大きければ（プレイヤーが長期的関係を重視するとき）、毎期「協力」する（つまりパレート最適）ことがナッシュ均衡になりえます。

これをフォーク定理（Folk Theorem）と言います。

直感的な説明：「今裏切ると目先は利得5を得られるが、それ以降相手も裏切り続けて1しか得られなくなる。協調を維持すれば毎期3が得られる。将来を十分重視するなら、裏切りの一時的な利得より長期的な協調の価値の方が大きい」

条件を数式で：協力を維持するインセンティブが成立する条件は δ ≥ (5−3)/(5−1) = 0.5 です。つまり割引因子が50%以上（将来を半分以上の価値で見る）なら協力が維持されます。

アクセルロッドとしっぺ返し戦略：進化ゲーム理論の記事で詳しく扱いましたが、繰り返し囚人のジレンマのコンピュータトーナメントで「しっぺ返し（Tit for Tat）」戦略が総合優勝しました。最初は協力し、以降は相手の前回の行動をそのまま模倣するという単純な戦略です。

【戦略的思考】進化ゲーム理論 ─ 協力はなぜ進化し、しっぺ返し戦略はなぜ強いのかsenkohome.com/strategic-thinking-evolutionary-game/

フォーク定理の現実への示唆：OPEC産油国の協調・業界団体のカルテル・地域コミュニティの互助関係・外交での長期的なパートナーシップは、繰り返しゲームによって協力が維持されている例です。逆に、一回限りの取引が増える匿名の市場や、将来の相手との付き合いが見込めない状況では協力が崩れやすくなります。

不完全情報ゲームとベイジアン均衡

現実の多くの戦略的状況では、相手の利得・能力・意図などの私的情報（タイプ）が分かりません。これが不完全情報ゲーム（Game of Incomplete Information）です。

ハーサニは、各プレイヤーが相手の「タイプ」についての確率的信念（事前確率）を持つとして分析するベイジアンゲーム（Bayesian Game）の枠組みを提案しました。

ベイジアンナッシュ均衡（Bayesian Nash Equilibrium）：全プレイヤーが相手のタイプについての信念を持ち、その信念のもとで期待利得を最大化している戦略の組み合わせです。

封印入札オークションの例：封印入札（全員が同時に入札額を提出）では、各入札者は自分の評価額のみを知っており、相手の評価額を知りません。ベイジアンゲームとして分析すると、「相手がどのような評価額分布を持つか」の事前確率から、自分の評価額に応じた最適入札額の戦略（入札関数）が導出されます。

シグナリングゲーム：情報の非対称性を持つ動的ゲームの典型です。情報を持つ側（worker）が情報を持たない側（employer）に向けてシグナルを送り、employer はシグナルを観察して信念を更新し、意思決定します。スペンスの学歴シグナリングモデルはこの典型例です。

完全ベイジアン均衡（Perfect Bayesian Equilibrium: PBE）：動的不完全情報ゲームに適用される均衡概念で、「プレイヤーがベイズ規則に従って信念を更新しながら、各情報集合で期待利得を最大化している」状態を要求します。シグナリングゲームの分析に使われます。

協力ゲーム理論

ここまで解説した非協力ゲーム理論に対して、「協力ゲーム理論（Cooperative Game Theory）」は、プレイヤーが連合（Coalition）を形成し、連合内で拘束力のある合意ができる状況を分析します。

コア（Core）：どの連合も独自に行動するよりも良い結果を連合内で実現できる利得配分の集合です。コアに属する配分は「連合の逸脱を防ぐ」という安定性を持ちます。

シャプレー値（Shapley Value）：ロイド・シャプレーが提案した、n人協力ゲームにおける「公平な利得配分」を計算する方法です。各プレイヤーが全ての連合形成順序において貢献する「限界貢献量」の期待値として定義され、効率性・対称性・線形性・ダミー公理という4つの公理を満たす唯一の配分ルールとして特徴付けられます。

シャプレー値はAI・機械学習の分野でも注目されています。複雑なモデルの予測においてどの特徴量がどれだけ貢献したかを定量化するSHAP（SHapley Additive exPlanation）値は、シャプレー値の機械学習への応用です。

ゲーム理論の応用分野

ゲーム理論の応用は経済学の域を大きく超えています。

産業組織論：企業間の競争行動（価格設定・設備投資・研究開発・広告）を分析します。ベルトラン競争（価格競争）・クールノー競争（数量競争）・スタッケルベルク競争（先導者・追随者）はゲーム理論の基本モデルです。カルテル・寡占価格の維持・参入阻止戦略も分析対象です。

オークション・市場設計：メカニズムデザインの文脈で、望ましい性質（効率性・収益最大化・インセンティブ整合性）を持つオークション形式を設計します。電波帯域オークション・インターネット広告入札・電力市場設計への応用があります。

国際政治・安全保障：核抑止の論理・軍備管理交渉・関税戦争・国際協定の順守問題を分析します。「脅しの信頼性」「コミットメント問題」「エスカレーション」の分析はゲーム理論が中心的な役割を果たします。

生物学・進化論：進化ゲーム理論として、動物の行動パターン（縄張り争い・協力行動・シグナリング）を分析します。「適応度」を利得とみなし、自然選択をゲームの均衡概念（進化的安定戦略）と対応させます。

コンピュータ科学・AI：マルチエージェントシステム・オンラインゲームのアルゴリズム設計・強化学習のゲーム的定式化。特に近年、AlphaGoなどのゲームAIや自律運転車の意思決定、AIエージェント間の協調問題でゲーム理論が重要な役割を担っています。

政治学・投票理論：有権者の戦略的投票行動・選挙制度設計・議会での連合形成・ロビー活動のゲームを分析します。

ゲーム理論の限界と批判

ゲーム理論は強力な理論ですが、いくつかの根本的な限界があります。

合理性の仮定：ゲーム理論は「プレイヤーが自分の利得を最大化するように合理的に行動する」と仮定しますが、実験経済学・行動経済学の研究は人間が系統的に非合理的な選択をすることを示しています。

**最後通牒ゲーム（Ultimatum Game）**はこの限界を示す有名な実験です。提案者が100円を「自分X円・相手100-X円」に分ける提案をし、受諾者は受け入れるか全員0円になるかを選びます。合理的に考えれば受諾者は1円でも受け入れるべきですが（0よりまし）、現実には「不公平な提案」（20円以下など）は高確率で拒否されます。「罰するためにコストを払う」という行動が見られ、合理性の仮定と矛盾します。

複数均衡問題：多くのゲームで複数のナッシュ均衡が存在し、どれに収束するかをゲーム理論だけでは予測できません。均衡選択の問題は「進化的安定性」「リスク優位均衡」「シェリング点」などのアプローチで部分的に対処されていますが、完全な解決はありません。

共通知識の仮定：ゲームの構造・プレイヤーの合理性が「全員に知られており、全員がそれを知っており、全員がそれを知っていることを知っており…」という無限の共通知識（Common Knowledge）の仮定は、現実では成立しにくいです。

外部性の無視：プレイヤー以外への影響（外部性）がある状況では、ゲーム理論の標準的な枠組みは直接対応しません。環境問題・公共財など、外部性の大きい問題ではシステム思考的な分析も必要です。

計算複雑性：大規模ゲームではナッシュ均衡の計算がNP困難になることがあります。ゲーム理論の解を実際に求めることが計算的に困難な場合、理論的な均衡概念が実践的な指針にならないことがあります。