当サイトを閲覧いただきありがとうございます。 本記事は「シンプソンのパラドックス」について解説します。
データの世界には恐ろしい罠があります。ある集団を2つに分けて比較するとAが優秀なのに、全体で集計するとBが優秀になる──こんなことが実際に起こりえるのです。部分で成り立つことが全体で成り立つとは限らない。この事実を突きつけるのがシンプソンのパラドックスです。
具体例で見てみる
ある大学の入試で、男女差別があるのではないかという議論が起きたとします。
工学部
- 男性:800人受験、480人合格(合格率60%)
- 女性:100人受験、70人合格(合格率70%)
文学部
- 男性:200人受験、40人合格(合格率20%)
- 女性:900人受験、270人合格(合格率30%)
各学部を見ると、どちらの学部でも女性の方が合格率が高いです。
ところが、全体で集計すると…
- 男性全体:1000人受験、520人合格(合格率52%)
- 女性全体:1000人受験、340人合格(合格率34%)
あれ? 全体では男性の方が合格率が高いのです。
各学部では女性の方が優秀なのに、全体では男性が上回る。数字は嘘をついていないのに、結論が逆転してしまう。これがシンプソンのパラドックスです。
なぜ逆転が起きるのか
からくりは「受験者の分布」にあります。
上の例では、男性は合格率の高い工学部に多く受験し(800人)、女性は合格率の低い文学部に多く受験しています(900人)。
つまり、男性は「受かりやすい学部」に多く集中し、女性は「受かりにくい学部」に多く集中しているのです。各学部内では女性の方が優秀でも、全体の合格率は「どの学部を受けたか」という分布の偏りに大きく影響されます。
このような第三の要因(この例では学部の選択)を「交絡変数」と呼びます。交絡変数を無視して全体を単純に集計すると、シンプソンのパラドックスが発生するのです。
実際に起こった事例
シンプソンのパラドックスは机上の空論ではなく、実際に問題になった事例が数多くあります。
1973年のカリフォルニア大学バークレー校の入学選考では、全体の合格率は男性44%に対して女性35%であり、性差別が疑われました。しかし学部ごとに分析すると、ほとんどの学部で女性の合格率が男性と同等かそれ以上でした。
原因は、女性が合格率の低い競争の激しい学部に多く出願する傾向にあったことです。これは歴史的な実例として、統計学の教科書でよく取り上げられています。
データ分析での教訓
シンプソンのパラドックスが教えてくれる最も重要な教訓は、データの集計レベルによって結論が変わりうるということです。
全体の数字だけを見て判断すると、真実とは正反対の結論に至る可能性があります。かといって、常に細かく分割すればよいかというと、分割しすぎるとサンプル数が少なくなりすぎて統計的に信頼できなくなるという別の問題も出てきます。
大切なのは、「このデータには交絡変数が隠れていないか?」と常に疑問を持つことです。特にビジネスの意思決定や政策判断でデータを使う際には、単純な集計結果を鵜呑みにするのは危険です。
医療分野では、ある治療法の効果を評価する際にシンプソンのパラドックスが頻繁に問題になります。重症患者と軽症患者で治療の振り分けに偏りがあると、全体集計では効果が逆に見えることがあるのです。これがランダム化比較試験(RCT)が医学研究のゴールドスタンダードとされる理由の一つでもあります。
まとめ
本記事は「シンプソンのパラドックス」について解説しました。如何だったでしょうか。
統計は正しく使えば強力な道具ですが、使い方を間違えると真実と正反対の結論を導く凶器にもなります。データを見るときは、常に「この集計方法で本当に正しいのか」と一歩立ち止まって考える習慣が大切です。
パラドックスの一覧に戻りたい方は以下のリンクからどうぞ。
それでは次の記事も閲覧いただけると幸いです。

