医療統計と疫学

t-testとWilcoxon rank sum test

ここでは、2群間で連続変数を比較する検定方法について解説します。一般的に有名なのはt-testとWilcoxon rank sum testですが、どのように両者を使い分けるのでしょうか。

はじめに

大まかには、上記のスライドのように考えていきます。2群とも正規分布であれば、上記の「Yes」となり、Z-testかt-testが選べます。ただ、後述するようにZ-testは非現実的なので、現実的にはt-testを選ぶことになると思います。

2群のどちらかが正規分布でない場合、「No」に進みます。サンプルサイズが大きければ、中心極限定理(Central Limit Theorem: CLT)を用いてt-testを使うことが可能になります。もちろん、正規分布というassumptionを置かないWilcoxon rank sum testを使うことも可能です。

正規分布でなくサンプルサイズが小さければCLTが使えないため、Wilcoxon rank sum testの一択になります。

では、それぞれの検定法について解説していきましょう。

Z-test

比較する両群のvarianceがわかっているなら、Z-testを用いることができます。上記のようにZ-scoreを計算し、Z-distributionにおけるそのscoreまたはそれ以上の値を取りうるprobabilityを計算することで、p-valueを得ることができます。今の一文の意味がわからない人は、正規分布とprobabilityを読んでみてください。

しかし、我々は母集団のvarianceを知ることができません。知ることができるのは、我々の研究対象となった両群のvarianceのみです。そのため、使うべきはZ-testではなくt-testとなります。

t-test

t-testを使う場合でも、両群のvarianceが等しい場合と異なる場合でt-scoreもt-distributionも若干異なります。等しい場合は左式を、異なる場合は右式を用います。t-scoreからprobabilityを計算する過程も、ココをご覧ください。

Varianceが等しい場合には

Varianceが異なる場合には

として検定します。

Varianceの検定

では、2群のvarianceが等しいかどうか、どのように判断するのでしょうか。ここでは、F-testを用います。

両群のvarianceが等しければ、F-scoreは1となり、異なれば1より離れます。どの程度離れればそのprobabilityが0.05よりも小さくなるかのcutoffは、degree of freedomに依存します。Rでは、以下のcodeを用いてください。

Wilcoxon Rank Sum Test

データが正規分布しておらず、サンプルサイズが小さい場合はCLTを使えません。その場合は、Wilcoxon rank sum testを用います。t-testの場合と異なり、連続変数そのものの値は用いません。全体を並べて小さい順にランキングをつけ、そのランクの平均値を比べます

ランクさえつけてしまえば、Z-test(またはt-test)と同じです。用いるdistributioによってp-valueは若干ことなります。t-distributionの方がtailが大きいため、そのp-valueは大きくなります。

Rを用いると、

 

Powerという観点から

t-testとWilcoxon rank sum testの両方が使える場合、どちらを選択すべきでしょうか。Power(検出力)という観点からは以下のような感じになります。

正規分布の場合は、t-testの方が強いpowerを持ちます。Wilcoxonを使うことによるpowerの低下は、サンプルサイズが約5%低下するのと同じくらいだそうです。

正規分布から離れると、場合によってはWilcoxonの方が強いpowerとなります。

検定方法を選ぶ上で、まず大切なことは「使って良いかどうか」です(validation)。例えば、正規分布でなくサンプルサイズが小さければt-testを使うことができません。上記の話は、両方とも使うことができる場合、より強いpowerの検定方法を選びたい、という観点で話しています。

以上です。いかがでしたでしょうか。t-testとWilcoxon rank sum test、理解が深まったでしょうか。

 

医療従事者に必要な統計学と疫学(目次)へ

Reference

John Orav. BST 206: Introductory Statistics for Medical Research. Harvard T.H. Chan School of Public Health

 

ABOUT ME
木村聡
福岡県の研修病院で初期研修修了後、大学に入局。米国オハイオ州に臨床研究で留学するも、知識の欠如を痛感。ハーバード公衆衛生大学院に進学し、MPHを取得。マサチューセッツ工科大学メンバーとの共同研究などに関与。 日本で麻酔・集中治療医として働いた後、オーストラリアで臨床留学も経験。 書籍『絶対あきらめない医学留学』著者。 乗り越える壁を見つけ続けることは、なかなか簡単ではありませんよね。アラフォー目前、様々な壁にぶち当たり、それなりに多くの経験をしてきました。私の挑戦や経験・知識、失敗談などが、他の誰かの刺激になり、役に立つことを切に願っています。 プロフィールをもっと詳しく見る

POSTED COMMENT

  1. […] このF-scoreがF-distributionにおいてどのくらいrareなのか、その確率がp-valueです。F-scoreとF-distributionに関しては、t-testで2群の分散が等しいか否かの検定に用いたF-testを参照してください。 […]

  2. […] 連続変数におけるmeanの比較では、その差とvarianceさえわかればz-testを使えるんでしたね。 […]

  3. […] Predictorがbinaryであれば、連続変数であるoutcomeとの関係性はt-testまたはWilcoxon testで評価することができました。 […]

  4. […] 例えば、Rという解析ソフトを用いてt検定を行う場合、 […]

  5. […] 「関係性なし(相関係数0)」を帰無仮説とすることで、その相関係数となるprobability(→p-value)を求めることができます。T-scoreを計算し、T-distributionからそのprobabilityを計算します。t検定と一緒ですね。 […]

  6. […] T-testとWilcoxon rank sum test:2群間で連続変数を比較する検定方法や、その使い分けについて解説します。 […]

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

error: