シンプソンのパラドクス 2
前回は多変量解析と言う大変いかめしい話題でした。今回はその続きです。
二つの病院で新しいかぜ薬の効き目があるかどうか調査をしました。薬を処方した人としなかった人の2グループに分けて、それぞれのグループで治った人の数を数えました。
病院A
未処方 : 治った人 176人 治らなかった人 3人
新薬処方 : 治った人 293人 治らなかった人 5人
病院B
未処方 : 治った人 197人 治らなかった人 17人
新薬処方 : 治った人 23人 治らなかった人 2人
各病院でかぜが治った人の割合は、(治った人)÷(治った人+治らなかった人)なので、
- 病院A 未処方 176/(176+3) = 98.3% 処方 293/(293+5) = 98.3%
- 病院B 未処方 197/(197+17) = 92.0% 処方 23/(23+2) = 92.0%
と、どちらの病院でも新薬を与えてもかぜが治った人の割合は変わりません。残念ながら新しい薬は全く効果がなさそうです。では病院Aと病院Bの合計を出してみたらどうでしょうか。
未処方: 治った人 176+197=373人 治らなかった人 3+17=20人
新薬処方:治った人 293+23=316人 治らなかった人 5+2=7人
するとかぜが治った人の割合は、
未処方: 373/(373+20) = 94.9%
新薬処方:316/(316+7) = 97.8%
と新しい薬を飲んだほうが3%近く回復率が高いです。それぞれの病院で見てみたら回復率は同じでしたが、各病院の合計で見てみると薬に効果があるような全く逆の印象を受けます。これは、合計を使って「どの病院でテストされたか」という要因を考慮していないことから起こる間違いです(シンプソンのパラドックスと呼ばれています)。
病院Bでは回復率がやや低く、ひょっとしたら症状が深刻な人や子供やお年寄りのように病気に対する抵抗力が低い人たちが多かったのかもしれません。また、新薬を処方した人の数も病院Aに比べると少なく、調査に非協力的だったのか、調査期間が病院Aに比べて短かったのかも知れません。このような病院ごとで異なる要因を考慮に入れずに合計だけで関係を調べようとすると、間違った結果が出てしまいます。




