戦略的思考

【戦略的思考】進化ゲーム理論 ─ 協力はなぜ進化し、しっぺ返し戦略はなぜ強いのか

【戦略的思考】進化ゲーム理論 ─ 協力はなぜ進化し、しっぺ返し戦略はなぜ強いのか

当サイトを閲覧いただきありがとうございます。 本記事は「進化ゲーム理論」について解説します。

生物の進化・社会規範の形成・人間の協力行動を、ゲーム理論の枠組みで分析する学問です。戦略の「良し悪し」を固定の基準ではなく、他の戦略との相互作用の結果として評価する点が通常のゲーム理論と根本的に異なります。

【戦略的思考】ゲーム理論 ─ 戦略的相互依存の数学的分析senkohome.com/strategic-thinking-game-theory/

図解

進化ゲーム理論の誕生

進化ゲーム理論は1970年代に生物学者ジョン・メイナード・スミスと数学者ジョージ・プライスが提唱しました。彼らの目的は、動物の攻撃行動・縄張り争い・協力行動といった行動パターンを、「個体は遺伝子の利益を最大化するように行動する」という自然選択の枠組みで説明することでした。

1973年の論文「動物のけんかの論理」でメイナード・スミスは「進化的安定戦略(ESS)」の概念を導入し、生物集団において安定して維持される戦略の条件を数学的に定式化しました。

その後、ロバート・アクセルロッドの協力の進化に関する研究(1984年「つきあい方の科学」)によって、進化ゲーム理論は生物学を超えて政治学・経済学・社会学・計算機科学に広がりました。

通常のゲーム理論との違い

通常のゲーム理論では合理的な人間が自分の利得を最大化するという前提を置きます。それに対して進化ゲーム理論は以下の点で異なります。

合理性の仮定を外す:プレイヤーは必ずしも合理的に計算して行動しなくても構いません。遺伝的にプログラムされた行動パターン(本能・習慣・模倣)でもよいです。

集団ダイナミクスを分析する:個々のプレイヤーの最適戦略ではなく、集団全体での戦略の分布がどう変化するかを分析します。

適応度(Fitness)で評価する:戦略の良し悪しを「利得の大きさ」ではなく「その戦略を持つ個体が集団内で増えるか減るか(適応度)」で評価します。

動学的な均衡概念:ナッシュ均衡のような静的な均衡概念に加え、集団がどんな初期状態から出発してもどのような均衡に収束するかという動学的な分析を行います。

【戦略的思考】ナッシュ均衡 ─ 誰も戦略を変えたくない均衡状態senkohome.com/strategic-thinking-nash-equilibrium/

アクセルロッドのトーナメント

進化ゲーム理論の最も有名な実験が、政治学者ロバート・アクセルロッドが1980年代に開催した「繰り返し囚人のジレンマのコンピュータ大会」です。

囚人のジレンマの単発ゲームでは、双方が裏切ることがナッシュ均衡ですが、同じ相手と繰り返し対戦する場合には状況が異なります。相手が将来どう行動するかを考慮した「影の将来」が生まれ、長期的な協力が成り立つ可能性があります。

アクセルロッドは世界中の経済学者・心理学者・数学者にプログラムを提出してもらい、全戦略が総当たりで繰り返し囚人のジレンマを対戦させました。

第1回大会:14戦略が参加。最もシンプルな2行からなる戦略「しっぺ返し(Tit for Tat)」が優勝。

第2回大会:第1回の結果を公開した上で62戦略が参加。再びしっぺ返しが最高成績を収めました。

しっぺ返し戦略の構造

「しっぺ返し(Tit for Tat)」の戦略は2つのルールだけで構成されています。

  1. 最初のゲームは必ず協力する(友好的に始める)
  2. 以降は相手が前回やったことをそのままやり返す(協力には協力、裏切りには裏切り)

これだけです。このシンプルさにもかかわらず、しっぺ返しが様々な相手との総合成績で最善を収めた理由を、アクセルロッドは4つの性質から説明しています。

やさしさ(Nice):自分から先に裏切らない。まず協力を示すことで、互いに協力して高い利得を得られる機会を作ります。

報復性(Retaliatory):裏切りに対してすぐに報復する。搾取に対してノーコストで受け入れることがないため、一方的に利用され続けることを防ぎます。

許しの早さ(Forgiving):相手が協力に戻ると自分も即座に協力に戻る。長期的な関係を維持し、報復の連鎖(C→D→D→D→…という終わりなき裏切り合い)を防ぎます。

わかりやすさ(Clear):相手が自分の行動を予測しやすい透明なルールです。相手が「協力すれば協力が返ってくる」「裏切れば報復がある」と理解できれば、協力が生まれやすくなります。

これらの性質の組み合わせが、「協調的な戦略」とも「搾取的な戦略」とも渡り合えるロバスト性を生んでいます。

しっぺ返しの限界と発展

しっぺ返しは万能ではありません。いくつかの弱点が知られています。

誤解への脆弱性:通信ノイズ(意図せぬ裏切り)が起きると、しっぺ返し同士が報復の連鎖(裏切り→裏切り→裏切り→…)に入り込んでしまいます。

この弱点を克服した戦略が「寛容なしっぺ返し(Generous Tit for Tat)」です。相手が裏切ったとき、一定の確率(例えば10〜30%)でそれを許してランダムに協力します。ノイズのある環境ではこちらの方がしっぺ返しより優れた成績を収めることが多いです。

さらに発展した「Win-Stay, Lose-Shift(パヴロフ戦略)」は、前回の結果が良かった場合は同じ行動を続け、悪かった場合は行動を変えるという戦略です。ノイズのある環境でのシミュレーションでは、パヴロフ戦略がしっぺ返しより優れることが示されています。

コンピュータシミュレーションで「しっぺ返し」より優れた戦略を見つけることを目的とした最近の研究では、機械学習を使って設計された戦略が特定の条件下では圧倒的なパフォーマンスを示すことが分かっています。しかし「様々な相手に対してロバストである」という総合力ではシンプルなしっぺ返し系の戦略が依然として強力です。

進化的安定戦略(ESS)

進化ゲーム理論の中心概念が「進化的安定戦略(ESS: Evolutionarily Stable Strategy)」です。

ESS の定式的な定義:集団のほぼ全員が戦略Iを使っているとき、稀な変異体が戦略Jを使って侵入しようとしても、戦略Iが戦略Jより高い適応度(Fitness)を持ち、変異体が増えていけない場合、戦略IはESSです。

数学的には以下の条件で表現されます:

  1. u(I,I) > u(J,I)(Iの集団においてIはJより高い利得)、または
  2. u(I,I) = u(J,I) かつ u(I,J) > u(J,J)(利得が等しい場合でもIはJの侵入を防げる)

ここでu(A,B)はB集団においてAが得る利得です。

ESSはナッシュ均衡の一種ですが、逆は成立しません。すべてのESSはナッシュ均衡ですが、すべてのナッシュ均衡がESSとは限りません。

囚人のジレンマの一回きりのゲームでは「全員が裏切る」状態がESSです。協力戦略が1つ入ってきても、裏切り戦略に対して搾取されるだけで増えていけないからです。

鷹鳩ゲームと混合ESS

進化ゲーム理論の代表的なモデルが「鷹鳩ゲーム(Hawk-Dove Game)」です。

資源(価値V)をめぐる争いで、2つの戦略があります:

  • 鷹(Hawk):積極的に争い、相手が引かなければ戦う。戦闘には費用Cがかかる。
  • 鳩(Dove):争いを避け、相手が鷹であれば引き下がる。

対戦結果(V=6、C=10の場合):

鷹と対戦鳩と対戦
鷹を使う(V−C)/2 = −2V = 6
鳩を使う0(引き下がる)V/2 = 3

全員が鷹の集団では、鷹同士が争って平均−2の利得。鳩が1つ入ってくると、鷹と戦う(0)より鷹の集団の平均(−2)より高い利得を得るので、鳩が増えていきます。

全員が鳩の集団では、鳩同士が資源を分け合い3の利得。鷹が1つ入ってくると、鳩との対戦で6を得て、鳩の平均(3)より高い利得を得るので、鷹が増えていきます。

どちらの純粋戦略もESSではなく、鷹と鳩が混在する混合ESS(鷹の比率p = V/C)が均衡として成立します。この例ではV/C = 6/10 = 60%の確率で鷹を使う混合戦略がESSです。

これは実際の生態系で攻撃的な個体とそうでない個体が一定割合で共存する現象(縄張り争いでの「示威行動」の進化など)の説明として広く使われています。

レプリケーターダイナミクス

進化ゲーム理論の動学的な枠組みとして「レプリケーターダイナミクス(Replicator Dynamics)」があります。

この方程式は「集団内の各戦略の比率が時間とともにどう変化するか」を記述します。

戦略iの比率変化率 = (戦略iの適応度 − 集団全体の平均適応度)× 戦略iの現在の比率

つまり、平均より適応度が高い戦略は増え、低い戦略は減るというシンプルな原理です。

レプリケーターダイナミクスは数理生物学の連続時間モデルとして定式化されましたが、経済学・社会科学への応用でも重要な役割を果たしています。

ESS はレプリケーターダイナミクスの安定平衡点として特徴付けられます。どの初期状態からスタートしても収束するESSを「グローバルに安定」、局所的にしか安定しないESSを「局所的に安定」と言います。

協力の進化の条件

アクセルロッドの実験と進化ゲーム理論から、協力が進化・維持されるための条件がいくつか明らかになっています。

将来の影(Shadow of the Future):相手と今後も長く付き合う可能性が高いほど、協力が維持されやすいです。繰り返しゲームの割引因子δが高い(長い関係が見込まれる)場合、協力がナッシュ均衡になりえます(フォーク定理)。

評判の仕組み:一対一の繰り返しがなくても、評判(過去の行動履歴が他者に知れる仕組み)があれば協力が進化できます。「間接互恵性」と呼ばれるこのメカニズムは、人間社会での評判・信用・社会的制裁の進化的根拠です。

集団の構造化:ランダムに対戦するよりも、協力者同士が集まった集団構造(空間的・社会的なクラスタリング)があると協力が進化しやすいです。協力者が搾取者に囲まれにくくなるためです。

罰則(コストのある罰):協力しない個体を罰するインセンティブがある場合(「利他的罰(Altruistic Punishment)」)、非協力者を排除して協力を維持できます。ただし「罰しない」ことへの罰(二次罰)がないと、罰役を誰がやるかという問題(無料乗り問題の二次形態)が生じます。

グリーンビアード効果:協力者を識別する信頼できるシグナル(「緑のひげ」のような識別マーカー)があれば、協力者同士が選択的に相互作用でき、協力が進化しやすくなります。

人間の協力の進化的説明

進化ゲーム理論は、ヒトという種がなぜこれほど大規模な協力をするのかという謎に理論的な基盤を提供します。

アリやハチなどの社会性昆虫とは異なり、ヒトは遺伝的に無縁な他者とも大規模に協力します。進化生物学ではこの現象の説明として以下の仮説が競合しています。

血縁選択(Hamilton のr×B>C則):血縁者への利他行動はその遺伝子の複製を増やすため、利他行動自体が「利己的」に進化できる。遺伝的距離が遠い他人との協力には適用しにくい。

互恵的利他主義(Trivers):将来の見返りを期待した協力。繰り返し対戦・評判の仕組みがあれば進化できる。

文化的グループ選択:協力的な規範を持つ集団が非協力的な集団との競争で勝ち、協力規範が広まる。個体選択か集団選択かの理論的議論は続いています。

大規模協力の謎:アクセルロッドのモデルは小集団の反復ゲームには有効ですが、匿名の大都市社会での協力(見知らぬ人へのマナー・公共財への貢献)の説明には追加的な機構(強い互恵性・罰の威嚇・制度的強制)が必要とされています。

ビジネス・組織への応用

進化ゲーム理論の考え方はビジネスや組織設計にも応用できます。

業界の競争ダイナミクス:鷹鳩ゲームの論理で、業界内の競争的な企業と協調的な企業の比率がどう変動するかを分析できます。価格競争(鷹戦略)が激化すると業界全体の利益が落ち、協調(鳩戦略)が成立しやすくなります。

社内ルールと文化の設計:職場での協力行動も繰り返しゲームの論理に従います。評判の仕組み(360度評価・社内コミュニティ)や罰則(非協力者への評判低下)は、ESSとして協力を定着させるメカニズムです。

オープンソースコミュニティ:見知らぬ開発者同士が協力してソフトウェアを作るオープンソースの仕組みは、評判(GitHubのコントリビューション履歴)・相互依存(自分も他者のコードを使う)・間接互恵性が機能した進化的に安定な協力の事例です。

まとめ

本記事は「進化ゲーム理論」について解説しました。如何だったでしょうか。

進化ゲーム理論はゲームのルールから出発して均衡を求める通常のゲーム理論と異なり、「多くの個体が何らかの戦略を試し、良い戦略が広まる」というダイナミクスから均衡を予測します。この視点は、合理性を前提にできない生物・社会・組織の分析に特に有効です。

しっぺ返し戦略が示す「やさしく・報復的・許しが早く・わかりやすい」という特性は、信頼に基づく長期関係の構築において今日でも通用する実践的なヒントを与えています。

フレームワーク一覧・ゲーム理論概論は以下からどうぞ。

それでは次の記事も閲覧いただけると幸いです。