ANOVAやKruskal-Wallisで有意差がでたら、次はどのペアに有意差があるのかを調べるためのpairwise comparisonsを行います。
ちなみに、もしANOVAやKruskal-Wallis testで有意差がでなければ、それ以上の解析はしない、というのが定石です。なぜでしょうか。
それは、multiple testing problemを呼ばれる、統計学では非常に重大な問題がおきるからです。
Multiple testing problem
仮に、4群比較において、ANOVAで有意差がないのに、もしくはANOVAをせずに、それぞれのペアにt-testを行なったとしましょう。t-testを行う回数(ペアの組み合わせ)は、4C2=6回となります。
もしα=0.05とした場合、5%の確率でfalse positiveとなることを意味しています。では、6回t-testを行なった場合に1回でもfalse positiveとなる確率はいくつでしょうか?
それは、1-(0.95)6=0.26
となります。ちなみに、(0.05)6は、6回ともfalse positiveになる確率です。
簡単に言えば、一回あたり5%の確率でミスをする場合、6回行えば1/4の確率でミスが起こる、ということを意味しています。
無茶苦茶高くないですか?4回に1回はミスするんです。
これが、multiple testing problemです。統計というのは、検定をすればするほどミスする可能性が増えるんです。そのため、できる限り検定を減らす努力をしなければなりません。これは、今後ずっとつきまとってくる問題ですので、しっかりと覚えておいてください。
話は逸れますが、臨床研究を行う際、データを適当に取りまくって、いろんな解析を何度も行い、有意差を見つけた場合にそれをoutcomeとして研究を進める人がいます。いわゆる、p-hackingですね。
しかし、これはmultiple-testing problemを存分に発揮してしまっており、そうやって見つけた有意差はただの偽陽性でしょう。もう一度研究を行えば、おそらく同様の結果にはなりません(再現性がない)。
こういう理由で、闇雲にt-testを行うのではなく、まずはANOVAなりKruskal-Wallis testを行うことが大切なんです。そして、そこに有意差がある場合のみ、pairwise comparisonsを考えましょう。
Pairwise comparisonsには、幾つか方法があります。
Pairwise comparisonsの方法
すべてのペアにt-testを行い、α=0.05を用います。シンプルですが、前述のmultiple testing problemを引き起こしますね。4群比較では、26%の確率で”ミス”をするんでしたね。
その問題を解決する方法の一つが、Bonferroniです。これは、αを0.05ではなくもっと小さい値を使って有意差を出しにくくし、偽陽性を少なくしよう、という考え方です。
例えば、4C2=6回テストをする場合、0.05/6=0.00833というカットオフを用います。すると、6回テストをした場合に一回でも偽陽性となる確率は1-(1-0.0833)6=0.049となり、丁度良くなりますね。
Bonferroniの問題点は、有意差を非常に出しにくい(very conservative)であるということです。0.008なんて、サンプルサイズが小さいとなかなかでませんよね。
最もliberalであるFisher(α=0.05を用いる)と、最もconservativeであるBonferroniの他にも、その間に幾つか検定方法がありますので、参考にしてください。
References
- John Orav. BST 206: Introductory Statistics for Medical Research. Harvard T.H. Chan School of Public Health
- John Orav. BST 208: Stats for Med Research, Advanced. Introductory Statistics for Medical Research. Harvard T.H. Chan School of Public Health
コメント
コメント一覧 (1件)
[…] 次は、群間で有意差があった場合のpairwise comparisonについてやりたいと思います。 […]