当サイトを閲覧いただきありがとうございます。 本記事は「ミニマックス戦略」について解説します。
相手が自分に最も不都合な行動をとっても、損害が最小になるように選択するという考え方です。ゲーム理論・統計的決定理論・人工知能の分野にまたがる概念で、不確実性やリスクが高い状況での意思決定に広く応用されています。
ミニマックス戦略の起源
ミニマックスは「最大(maximum)を最小化(minimize)する」という意味の造語です。この概念を数学的に確立したのは、ゲーム理論の創始者ジョン・フォン・ノイマンです。
1928年、フォン・ノイマンは論文「室内ゲームの理論」の中で、「ミニマックス定理」を証明しました。これはゲーム理論の礎となる定理で、後の経済学・計算機科学・軍事戦略に広範な影響を与えました。
さらに1944年、フォン・ノイマンとオスカー・モルゲンシュテルンの共著「ゲームの理論と経済行動」によって、ゲーム理論は学問として確立されました。この著作でミニマックス戦略は、経済的意思決定の数学的基礎として体系的に位置付けられています。
統計学の分野では、1940〜50年代にアブラハム・ウォルドがミニマックスの考え方を「統計的決定理論」に応用しました。ウォルドのミニマックス基準は、確率が不明な状況でも使える汎用的な意思決定の枠組みを提供しています。
ゼロサムゲームとミニマックス定理
ミニマックス定理は、2人ゼロサムゲームにおいて、一方がミニマックス戦略をとり、他方がマキシミン戦略をとると、双方の最適戦略が一致する均衡が必ず存在することを保証します。
ゼロサムゲームとは、一方の利得が他方の損失と等しくなるゲームです。チェス・ポーカー・交渉の分配問題はその典型です。
プレイヤーAが行を選び、プレイヤーBが列を選ぶと仮定します。利得表の各セルはAの利得(Bの損失)とします。
- Aのミニマックス戦略:各行の最小値(最悪ケース)を求め、その中で最大の行を選ぶ
- Bのマキシミン戦略:各列の最大値(Aへの最大損害)を求め、その中で最小の列を選ぶ
純粋戦略では均衡が存在しないケースも多いですが、混合戦略(各選択肢を確率的に選ぶ戦略)を許容すると、必ずミニマックス均衡が存在します。これがフォン・ノイマンのミニマックス定理の核心です。
ゼロサムゲームのミニマックス均衡は、ナッシュ均衡と一致します。これはゼロサムゲームが持つ重要な性質で、ゼロサム構造では相手の最適応答への最適応答が必ず存在することを示しています。
決定木とバックワード・インダクション
ゲームを時系列で表現したものを「ゲームツリー(決定木)」と言います。各ノードは意思決定の局面、各枝は選択可能な行動、末端ノードは最終的な結果です。
ミニマックスアルゴリズムは決定木を末端から逆向きに評価します。
- 末端ノードの評価:各終端局面の評価値(スコア)を計算する
- 自分の手番ノード:子ノードの評価値の最大値を採用する(最大化プレイヤー)
- 相手の手番ノード:子ノードの評価値の最小値を採用する(最小化プレイヤー)
- 根ノードまで伝搬:ルートノードに到達した時点で最善手が決まる
この「バックワード・インダクション(後ろ向き帰納法)」は、ゲーム理論全般で使われる手法です。現在の状況ではなく、ゲームの最終結果から逆算して現在の最善手を決めるという発想は、交渉・競争戦略・政策立案においても応用できます。
アルファ・ベータ枝刈り
チェスや将棋のような複雑なゲームでは、ゲームツリー全体を読み切ることは計算量が膨大すぎて現実的ではありません。チェスの平均分岐数は約35、将棋は約80で、ゲーム全体の探索空間は天文学的な規模になります。
この問題を解決するのが「アルファ・ベータ枝刈り(Alpha-Beta Pruning)」です。
アルファ・ベータ枝刈りの原理は単純です。探索中に「この経路を進んでも、すでに見つかった最善手より悪くなることが確定した」という条件が判明した時点で、その枝以下の探索を打ち切ります。
- アルファ(α):最大化プレイヤーが確保できる最低保証値
- ベータ(β):最小化プレイヤーが確保できる最高保証値
β ≤ α になった時点で、その部分木はどちらの側にとっても最適な選択肢になり得ないため探索を打ち切れます。
最良の場合、アルファ・ベータ枝刈りはミニマックス探索の計算量をO(b^d)からO(b^(d/2))に削減できます(bは分岐数、dは深さ)。これは同じ計算資源でゲームツリーの探索深さを2倍にできることを意味します。
1997年にチェスの世界チャンピオン、ガルリ・カスパロフを破ったIBMの「ディープ・ブルー」は、アルファ・ベータ枝刈りを基本アルゴリズムとして採用し、専用ハードウェアによって1秒間に2億局面を評価しました。現代のコンピュータチェスエンジン(Stockfishなど)も同様の手法をベースにしており、人間の最強棋士を大きく凌駕するレベルに達しています。
ただし、現代の囲碁AIはミニマックス探索ではなく、モンテカルロ木探索と深層強化学習を組み合わせた手法(AlphaGoなどで有名)を使っています。これは囲碁の分岐数が極めて大きく、局面評価も難しいため、ミニマックス探索では対応が困難だからです。
ウォルドのミニマックス基準
統計学者アブラハム・ウォルドは、「ミニマックス後悔」と並ぶ概念として「ウォルドのミニマックス基準」を提唱しました。
この基準は確率情報が全く存在しない(「不確実性下」の)意思決定に使えます。
選択肢ごとに最悪ケースの結果を求め、その中で最もマシな選択肢を選ぶというものです。
例えば、雨かどうか分からない日に出かける場合の選択を考えます。
| 選択肢 | 晴れの場合 | 雨の場合 |
|---|---|---|
| 傘を持たない | 快適(+10) | びしょぬれ(−20) |
| 折りたたみ傘 | やや不便(+5) | 少し濡れる(−5) |
| 長傘 | 邪魔(+2) | 快適(+8) |
ウォルドの基準では、各選択肢の最悪値(晴れ・雨の小さい方)を比較します:
- 傘なし:−20
- 折りたたみ:−5
- 長傘:+2
最悪ケースが最大(+2)の「長傘」を選ぶのがウォルドのミニマックス基準です。
この基準は確率情報が全くない状況での意思決定ツールとして有用ですが、最悪ケースのみを見るため、頻度の低い悪いシナリオを過大評価する傾向があります。
ミニマックス後悔(Minimax Regret)
ミニマックス戦略の変形として「ミニマックス後悔(Minimax Regret)」という基準があります。
これは、各シナリオにおいて「最適選択との差(後悔量)」を計算し、最大後悔が最小になる選択肢を選ぶ考え方です。
先ほどの傘の例でミニマックス後悔を適用します。
晴れの場合の最大値は10(傘なし)、雨の場合の最大値は8(長傘)です。
後悔量の表:
| 選択肢 | 晴れの後悔 | 雨の後悔 | 最大後悔 |
|---|---|---|---|
| 傘なし | 10−10=0 | 8−(−20)=28 | 28 |
| 折りたたみ | 10−5=5 | 8−(−5)=13 | 13 |
| 長傘 | 10−2=8 | 8−8=0 | 8 |
最大後悔が最小(8)の「長傘」を選ぶのがミニマックス後悔の判断です。
Amazonの創業者ジェフ・ベゾスは、Amazonを創業するかどうかの決断に際して「80歳になった自分が振り返ったときに後悔しない選択はどれか」という問いを立てたとされています。「後悔最小化フレームワーク」と呼ばれるこの考え方は、ミニマックス後悔の直感的な応用です。
ミニマックス後悔はウォルドの純粋ミニマックス基準よりも各シナリオ間の相対的な位置を反映するため、現実的な意思決定に使いやすい場合が多いです。
ロバスト最適化との関係
ミニマックスの考え方は、現代の工学・オペレーションズリサーチにおける「ロバスト最適化(Robust Optimization)」に直接繋がっています。
ロバスト最適化は、パラメータが「不確実性集合(Uncertainty Set)」内で変動しても、制約を満たし目的を達成できるような設計・計画を求めます。
これはまさにミニマックス問題の構造です:「不確実なパラメータが最悪の実現をしたとしても最良の結果を出す解を求める」という定式化です。
実際の応用例:
サプライチェーン管理:需要が変動しても在庫切れと過剰在庫の両方を回避できる発注量の決定は、ロバスト最適化の典型です。
電力グリッド設計:最悪の需要パターン・発電所の故障パターンに対しても停電しないインフラ設計。
金融リスク管理:VaR(Value at Risk)・CVaR(Conditional VaR)などのリスク指標は、最悪分位の損失を最小化するという意味でミニマックス的な発想を持っています。
機械学習の頑健性:敵対的事例(Adversarial Examples)に対してロバストなモデル訓練も、ミニマックス問題として定式化されます。敵対的モデルが最悪のノイズを加え、学習モデルがそれに対して損失を最小化する二者の最適化問題です。GANs(生成的敵対ネットワーク)もこの構造を持っています。
日常的な意思決定への応用
ゲームや数学的な文脈だけでなく、日常の多くの場面にミニマックスの発想を適用できます。
保険の意思決定:保険はミニマックス的判断の典型です。最悪シナリオ(事故・病気・火災)が起きた場合の損失を最小化するため、保険料というコストを支払います。純粋に期待値を計算すれば保険料は払い損になることが多いですが、最悪ケースの損害が生活を破壊するほど大きい場合には、ミニマックスの判断が合理的です。
保険の加入判断はリスクの絶対規模に依存します。最悪ケースの損害が許容不可能な水準(破産・廃業・重篤な健康被害など)に達するリスクに対しては、期待値が負でも保険は合理的です。逆に、最悪でも許容できる規模のリスクには保険は不要かもしれません。
交渉のBATNA:交渉論では「BATNA(Best Alternative to a Negotiated Agreement)」という概念があります。これは交渉が決裂した場合の最善の代替案です。BATNAを明確にしておくことは、ミニマックス的な思考の実践です。「最悪でも、この代替案で対応できる」という下限を持つことで、交渉が感情的になっても適切な判断を維持できます。
BATNAが強いほど交渉力が高まるという関係は、ミニマックスの論理で説明できます。最悪ケースが良い状態(良いBATNA)であれば、相手の強引な要求に屈しなくて済むためです。
プロジェクト管理のコンティンジェンシー:プロジェクト計画において、スケジュール遅延・コスト超過・技術的失敗などの最悪ケースを想定したコンティンジェンシープランを立てることはミニマックス的な発想です。最悪でもプロジェクトが完全崩壊しないよう、予備リソースや代替手段を確保します。
安全保障と国防:国防政策は典型的なミニマックス問題です。相手国の最悪の攻撃シナリオに対して最低限の防衛能力を確保することが基本方針になります。NATOの集団防衛体制・核抑止の論理・防衛的リアリズムはいずれもミニマックス的な思考構造を持っています。
期待効用理論との使い分け
ミニマックス戦略と並ぶ意思決定の基準として「期待効用最大化」があります。両者は本質的に異なる状況に適しています。
期待効用最大化:各シナリオの確率と結果が分かっている場合に、期待値(確率×結果の加重平均)が最大の選択肢を選びます。頻繁に起きる意思決定の長期累積成果を最適化します。
ミニマックス:確率が不明、または最悪ケースの結果が許容不可能な場合に使います。一回限りの(繰り返しのない)重大な意思決定に適しています。
ミニマックスの主な欠点は、確率情報を使わないため、低確率の壊滅的シナリオを過大評価する傾向があることです。
たとえば、「0.1%の確率で−10,000の損害があるケース」と「50%の確率で−100の損害があるケース」は、最悪値(最大損害)だけ見れば前者が圧倒的に悪いですが、期待損害は前者が10、後者が50で、後者の方が遥かに悪い状況です。ミニマックスはこの差を無視してしまいます。
現実的な意思決定での使い分けの目安:
| 状況 | 適切な基準 |
|---|---|
| 確率が既知で繰り返し発生する意思決定 | 期待効用最大化 |
| 確率不明・一回限りの重大な意思決定 | ミニマックス |
| 最悪ケースが許容不可能(破産・廃業・健康喪失) | ミニマックス |
| 最悪ケースが許容範囲内で繰り返し起きる | 期待効用最大化 |
| 相手が明確に対立的な意図を持つゲーム | ミニマックス |
意思決定のフレームワークとして活用する
ミニマックスの考え方を意思決定に実践的に活用する手順を示します。
ステップ1:選択肢を列挙する 検討中の選択肢をすべて並べます。
ステップ2:シナリオを設定する 自分がコントロールできない外部要因(相手の行動・市場動向・自然環境など)について、ありうるシナリオを列挙します。相手がいる場合は「相手が自分に最も不都合な行動をとる」最悪ケースを含めます。
ステップ3:結果行列を作成する 各「選択肢×シナリオ」の組み合わせについて、結果(利得や損害)を数値化します。
ステップ4:基準を選択する
- 純粋なミニマックス(ウォルド):各選択肢の最悪値を比較
- ミニマックス後悔:各シナリオの最適値との差(後悔量)を計算し、最大後悔を比較
- 確率情報がある場合は期待値との組み合わせも検討
ステップ5:最悪ケースの許容可能性を確認する 選んだ選択肢の最悪ケースが本当に許容可能かを確認します。許容できない場合は選択肢の再設計(リスク移転・ヘッジ・保険など)が必要です。
まとめ
本記事は「ミニマックス戦略」について解説しました。如何だったでしょうか。
ミニマックスはフォン・ノイマンのゼロサムゲーム理論から始まり、決定木・アルファ・ベータ枝刈り・ウォルドの統計的決定理論・ロバスト最適化まで、広い範囲に応用される意思決定の基礎概念です。
「最悪でも耐えられる選択をする」という姿勢は、不可逆な意思決定・対立的な状況・確率が不明な環境において特に有効です。一方で、確率情報がある場合には期待効用最大化と組み合わせた判断が現実的です。
フレームワーク一覧・ゲーム理論概論は以下からどうぞ。
それでは次の記事も閲覧いただけると幸いです。