先に申し上げておきますが、その判断は結構主観的です。統計といったら数字で全て説明できそうですが、意外に個々の主観が入ってきます。大事なのは、正規分布か否かを判断したその手順をしっかり説明できることだと思います。
1) ヒストグラム
Rのggplot2
というパッケージは、data visualizationにおける最高のツールの一つです。もしRを使うなら、是非とも使えるようになりたいパッケージです。ggplot()+geom_histogram()
を使うことでヒストグラムを描くことができます。dat
というdata frameのBMI
というcolumn(連続変数)のヒストグラムを描いてみましょう。
library(ggplot2) dat%>% ggplot()+ geom_histogram(aes(BMI),binwidth =1)
これがbell-shapeかどうかです。どうですか?Bell-shapeにみえますか?
2) Skewnessとkurtosis
2)は、連続変数の評価:skewnessやkurtosistとは?で説明しました。
> describe(dat$BMI) vars n mean sd median trimmed mad min max range skew kurtosis se X1 1 4415 25.85 4.1 25.45 25.57 3.68 15.54 56.8 41.26 0.98 2.6 0.06
ちなみに、このサンプル群においてskewnessは0.98、kurtosisは2.6です。
3) QQ plot と 4) Shapiro-Wilk test
次に、QQ plotというグラフを描きます。実際のn個のデータを小さい順から並べ、同じ平均値とstandard deviationを持つ正規分布からランダムに得られたn個の値を計算します。元のデータが正規分布であれば、それぞれのペアをplotすると直線となります。こちらも同じパッケージのggplot()+stat_qq()
で描くことができます。
dat%>%ggplot(aes(sample=BMI)) + stat_qq()
そして最後にnormalityの検定であるShapiro-Wilk testを行います。nが多い時などは他の検定方法も使いますが、今回はShapiro-Wilk testを使ってみようと思います。
> shapiro.test(dat$BMI) Shapiro-Wilk normality test data: dat$BMI W = 0.95734, p-value < 2.2e-16
p<.001であるため、「正規分布である」という帰無仮説を棄却することになります。
しかし、その結果を鵜呑みにしてはいけません。サンプルサイズが大きければ、この検定はoverpowerになってしまい、完璧なnormality以外は棄却してしまいます。逆に、サンプルサイズが小さければunderpowerとなり、明らかにnormalでなくても棄却できません。
いかがでしょうか。ある人はこう言います。
1) ヒストグラムはbell-shapeにみえなくもないが、2) kurtosisは2.6と大きく、3) QQ plotも直線ではないし、4) Shapiro-Wilk testはnormalityでないことを示している。だからBMIは正規分布ではないね!
しかし、ある人はこう言います。
1) ヒストグラムはbell-shapeにみえるし、2) kurtosisは2.6と少し大きいがskewnessは0に近い、3) QQ plotは直線にみえるし、4) Shapiro-Wilk testがnormalityを棄却しているのはサンプルサイズが大きすぎるから(n=4415)だね。だからBMIは正規分布とかみなしていいね!
これ、どちらも正解なんです。正規分布かどうか、どのように考えたか説明できて筋が通っていればokなんです。
HSPHのJohn Oravの凄いところは、統計学者でありながら、医療従事者がどのようなデータを扱い、どのように解釈するかを理解しているところです。統計学者は数字を元に答えを求めたがりますが、医師は臨床現場における解釈が重要です。彼の口癖は「It depends」でした。
コメント
コメント一覧 (5件)
[…] 1の正規分布の評価に関しては、こちらを参考にしてください。 […]
[…] Breslow-Day testの注意すべき点は、Shapiro-Wilk testと同じです。サンプルサイズが小さければORが大きく違っても帰無仮説を棄却できず「同じ」と言ってしまう可能性があり、サンプルサイズが大きすぎるとoverpowerとなり、ORがほぼ同じであっても「違う」と言ってしまうことがあります。 […]
初めまして、医師でMPH在籍中のものです。
とても分かりやすいブログで大変参考にさせていただいております。
ところで、4) Shapiro-Wilk testの項で、
>> p<.001であるため、「正規分布ではない」という帰無仮説を棄却することになります。
とありますが、Shapiro-Wilk testの帰無仮説は「正規分布である」ではないでしょうか。
お手数ですがご確認いただければと思います!
はじめまして。
ご指摘ありがとうございます。おっしゃる通りです。
早速修正させていただきました。
また何か発見されましたら、ご連絡いただけると幸いです。
[…] 正規分布の評価方法:正規分布か否かを判断する方法について解説します。 […]