医療統計

線形回帰分析〜その5:必要な変数、不要な変数

因果推論におけるregression modelの作るには、どのような変数をmodelに入れ、どのような因子をmodelから外さなければならないのかを、知る必要があります。今回は、それぞれ入れるべき変数、外すべき変数について解説していきます。

因果推論ですので、X1のYに対する影響を知りたい場合の、第2の変数X2をmodelに入れるべきかどうか考えます。

Confounder(交絡因子)

統計学的には、predictor (X1)と関係しており、かつoutcome (Y)に独立して関連しているものをconfounderと定義します(上の図のような関係)。そのため、confounderをmodelに加える(adjustする)前後でX1のとYの関係性が変化する、すなわち係数β1が変化します(詳細はこちらを参照してください)。変化率のカットオフとしては、10%や20%がよく使われます。

因果推論をする上では、confounderを考慮しないと本来の「X1のYに対する影響」を間違って評価(→bias)してしまうため、confounderで”adjust(調整)”する必要があります。すなわち、Regression modelにconfounderを入れるべきです。

Example

喫煙(X1smoke)の出生児体重(Y:bwt)に対する影響を調べたいとします。

そして、X2:人種(race)がconfounderかどうかcheckしてみましょう。

β1の変化が -281-(-427)/281 = 52%となり、10% (or 20%)を上回っています。この場合、統計学的には、人種は喫煙と出生児体重の関係をconfoundするもの、というように定義されます。よって、raceはmodelに入れましょう。

Intermediary Variable(介在因子)

DAGで説明したように、causal pathway上にあるintermediate variableで調整した場合、本来評価したい「X1のYに対する影響」が過小評価されてしまいます。

そのため、Modelにintermediate variableは入れるべきではありません

Effect Modifier

Effect modifierとは、「X1のYに対する影響」を変化させる因子のことです。この場合、effect modifierで層化(stratification)して判断するんでしたね(こちらの記事を参照)。

Regressionでは、“interaction term”というものをmodelに入れることで、その有無を判断できます。Interaction termに関しては、別に記事にします。

Collinear Covariate

X2がX1と関係しており、Yとは関連していない場合、X2は”collinear variable“と呼ばれます(collinearity: 共線性)。

この場合、X1とX2の両方がをmodelに入れてしまうと、どちらがYに影響を持っているのか判断できなくなります。

また、前回説明したように、collinear variableをmodelに加えることによってβ1のvarianceは大きくなってしまい、検出力が小さくなります(こちらも変化率のカットオフとして、10%がよく使われます)。

以上のような理由から、collinear variableはmodelに含めないようにしなければなりません。

Example

Confounderの時と同じく、喫煙(X1smoke)の出生児体重(Y:bwt)に対する影響を調べたいとします。Crude analysisも前回と一緒です。今回は、uiがcollinear covariateかどうか調べてみましょう。

β1のstandard errorの変化は、103-107/107 = – 4%と下がっていますね。したがって、uiはcollinear covariateではない、と判断されます。

Significant Predictor

X2がX1と関係しておらず、Yのみと関連している場合、X2はYを予測する上で非常に大切な変数になりますね。これを、とても大事な予測変数という意味を込めてsignificant predictorと呼びます。

以前、因果推論において興味のある変数をpredictor、そうでない変数をcovariateと呼ぶ、と書きました。ですので、このsignificant predictorという定義は少し変な気もします。ここだけ、因果推論というよりはprediction modelのような考え方になってしまっていますね。

そして、X2がsignificant predictorであれば、Yのみにと関連しているため、上述のようにX2をmodelに加えることによってβ1のvarianceが小さくなり、検出力が上がります。よって、collinear variableはmodelに含めるべきです。

※Significant predictorの定義としてβ1のvarianceの上昇率を使う方法もあると思いますが、p-valueを使って判断することも多いようです。

Example

今回は、htがsignificant predictorかどうか調べてみましょう。

htのp-value = 0.045と有意であり、htはsignificant predictorでありmodelに加えるべき、ということがわかります。

関係のないvariable

X2がX1にもYにも関連のない場合は、どうしたら良いのでしょうか。この場合、X2をmodelに入れても害もなければメリットもないため、特にルールはありません。

変数の選び方のまとめ

X1のYに対する影響を考える(因果推論)をする際、別の変数X2をmodelに入れるべきか否か、まとめますと

  • Modelに入れるべき変数:Confounder, significant predictor
  • Modelに入れるべきではない変数:Intermediate variable, collinear variable
  • どちらでもよい変数:X1ともYとも無関係な変数

ということになりますね。

実際の例

最後に、これまで勉強した事を元に、それぞれの変数をmodelに入れるかどうか考えてみましょう。

この例では、妊娠中の喫煙(exposure / predictor)が出生児体重(outcome)にどのような影響を与えるのかを調べています。ですので、必ずmodelにsmokeが入っています。

このX2をmodelに入れた場合のβ1やそのstandard errorの変化率をまとめたのものが、上記の表です。

Confoundingを、それぞれの因子を加えることによってβ1(smokingの係数)が10%以上変化するもの、と定義するのであれば、”Race”と”Any PTL”がconfounderとなり、modelに入れるべき因子となります。

Collinear variableを、β1のstandard errorが10%以上増加したものと定義するのであれば、今回のデータセットには、smokingとのcollinear variableはないと判断できます。

Significant predictorの定義としてβ1のstandard errorを使っても良いですが、今回は(outcomeに有意に関連している、という意味で)p-valueを使いました。すると、”LWT”, “Race”, “Any PTL”, “Hypertension”, “UI”がsignificant predictorとなり、modelに入れるべき変数となります。

以上より、final modelとしては、

となります。

さいごに

いかがでしたでしょうか。因果推論では、持っているデータ全てをmodelに入れることが良いことではありませんそれぞれの因子について、入れるべきかどうか判断しなければなりません。今回は、2つ目の変数をmodelに入れるべきかの判断を、統計学的に考える方法を解説しました。

 

Reference

John Orav. BST 213: Applied Regression for Clinical Research. Harvard T.H. Chan School of Public Health

ABOUT ME
木村聡
福岡県の研修病院で初期研修修了後、大学に入局。米国オハイオ州に臨床研究で留学するも、知識の欠如を痛感。ハーバード公衆衛生大学院に進学し、MPHを取得。マサチューセッツ工科大学メンバーとの共同研究などに関与。 日本では麻酔・集中治療医として働き、オーストラリアでは小児集中治療を一から学び直しています。 乗り越える壁を見つけ続けることは、なかなか簡単ではありませんよね。アラフォー目前、様々な壁にぶち当たり、それなりに多くの経験をしてきました。私の挑戦や経験・知識、失敗談などが、他の誰かの刺激になり、役に立つことを切に願っています。 プロフィールをもっと詳しく見る

POSTED COMMENT

  1. […] 以上のことをもっと知りたければ、こちらを参照してください。 […]

  2. […] 前回の記事で、regression modelに入れるべき変数の選び方の基本が理解できたと思います。今回は、因果推論におけるモデル(「予測モデル」を作りたい訳ではないので注意してください)の作り方を解説します。 […]

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です