医療統計

線形回帰分析〜その4:第2の変数

これまでは、”simple linear regression”と称して、説明変数Xは一つだけ(X1)の場合を考えてきました。今回は、説明変数をもう一つ(X2)を加えます。目標は

1. X2を加えたmodelを解釈できる。

2. X2をmodelに加えることで、係数(β1)やそのvarianceがどのように変化するかを理解する。

です。以上ができて初めて、因果推論を目標としたmodelを作ることが可能となります。Logistic regression modelでも基本的な考え方は同じなので、しっかりと理解しておきましょう。

では始めましょう。

1. 二つ目の変数(X2)を入れたmodelの解釈

Outcome (Y)は、出生児の体重です。説明変数として、(母の)高血圧(X1)だけでなく、(母の)膀胱刺激症状(X2)の2つがmodelに入っています。この場合のβ1の解釈ですが、

膀胱刺激症状(X2)が一定である時、高血圧が無い場合(X1=0)と比較して高血圧がある場合(X1=1)の出生児体重(Y)の増加分がβ1

ということになります。この、「X2が一定(holding ~ constant)である時」ですが、「X2を調整(adjusting for ~)した時」と表現されることもあります。

ちなみに、疫学者はこの「adjusting for」を嫌います。なぜなら、変数をadjustする方法はregressionだけでないからです。Propensity scoreやinverse probability weightingなど、他の変数をadjustする方法は沢山あります。どのように調整したかを明確にするためにも、「adjust」という言葉を使わず方法を明確に示せ、ということのようです。

今回は統計がメインなので、adjustという言葉を使わせてもらいます。

2. X2を入れることによる変化

以前の記事で説明したように、regression modelでは、それぞれの変数Xの係数βと、そのstandard errorであるse(β)を用いて計算されたp-valueが知りたい値でしたね。

そして、説明変数が1つだけのsimple regression modelに、2つ目の変数を加えた場合、1つ目の変数の係数βや、そのstandard errorが変化します。それぞれの値だけでなく、この「変化」に注目することが大切になってきます。

β1の変化

2つ目の変数X2をmodelに加えた際、1つ目の変数X1の係数β1が(加える前のβ1と比べ)変化することがあります。統計学的には、この変化率をconfounder (交絡因子)の定義に用いるため、まずはこの係数β1の変化に注目しましょう。

しつこいようですが、これは統計学的なconfounderの定義です。疫学的なconfounderとは異なります。知りたい方はこちらを読んでください。

また、X2がintermediate factor、すなわち、DAGにおいて

X1 → X2 → Y

というケースも注意が必要です。これは、X1がYを引き起こす機序として、X2を介在しているケースです。この場合も、X2をmodelに入れることでβ1が変化しますので、この定義だけを用いると(本当はconfounderではなくintermediate factorなのに)confounderと間違ってしまうことになります。

β1のstandard errorの変化

Simple regression modelにX2という変数を加えた場合のβ1のvariance(→”√”すればstandard error)は、上記のようになります。そして、βのstandard errorとその変化を観察することも、X2という因子を考える上で大切になります。

β1のstandard errorが低下

X2がX1と関係しておらず、Yのみと関連している場合は、X2はYを予測する上では非常に大切な変数ということになります。従って、X2をmodelに入れた場合、より良いmodelになるためMean Squared ErrorであるError Variance(赤丸の部分)は小さくなります。X2がX1と関連していなければ、correlation coefficient=0となり、青丸で囲んだ部分は大きくなります。すなわち、β1のvarianceは小さくなることがわかります。

後述のように、このようなX2を”significant predictor“と呼びます。

β1のstandard errorが増加

X2がX1と関係しているだけで、Yとは関連していない場合、X1とYとの関係を考える上ではX2は不要な変数ですよね。このような場合、X2をmodelに入れた場合、modelの良さは変わらないためError Variance(赤丸の部分)は変わりません。一方、X2とX1が関連しているため、correlation coefficientは大きくなり、結果として青丸で囲んだ部分は小さくなります。すなわち、β1のvarianceは大きくなることがわかります。

後述のように、このようなX2を”collinear covariate“と呼びます。

β1のstandard errorと検出力

X2挿入後のβ1のvarianceの変化だけでなくβ1のvarianceそのものの値も検出力(power)を考える際には大切になります。なぜなら、β1のvarianceによってt-scoreが計算でき、X1の係数であるβ1のp-valueを求めることができるからです。β1のvarianceが大きいと(t-scoreが小さくなるので)powerが小さくなり、β1のvarianceが小さいと(t-scoreが大きくなるので)powerが大きくなります。

こちらが、X2が、X1やYとどのように関係しているかによって、β1のvariance(そしてstandard error)にどう影響を与えるかをまとめた表です。

X2がX1とYの両方ともに関連している場合(X2がconfounder)、上述のようにβ1のvarianceの計算式の分子・分母両方とも低下させるため、β1のvarianceに与える影響は大きくありません。従って、X2をmodelに加えようが加えなかろうが、(X1とYの関係性に対する)検出力はあまり変わりません

X2がX1のみに関連している場合(X2がcollinear)、上述のようにβ1のvarianceの計算式の分母のみ低下させ、β1のvarianceは大きくなります。従って、X2をmodelに加えることによって検出力が小さくなります。

そして、X2がYのみにと関連している場合(X2がsignificant predictor)、上述のようにβ1のvarianceの計算式の分子のみ低下させ、β1のvarianceは小さくなります。従って、X2をmodelに加えることによって検出力が大きくなります。

おわりに

今回は、変数が1つしかないsimple regressionから一歩進んで、2つ目の変数があるケースを考えました。これらの知識を踏まえ、次回は、2つ目の変数をmodelに入れるべきかの判断を、統計学的に考える方法を解説します。

Reference

John Orav. BST 213: Applied Regression for Clinical Research. Harvard T.H. Chan School of Public Health

 

ABOUT ME
木村聡
福岡県の研修病院で初期研修修了後、大学に入局。米国オハイオ州に臨床研究で留学するも、知識の欠如を痛感。ハーバード公衆衛生大学院に進学し、MPHを取得。マサチューセッツ工科大学メンバーとの共同研究などに関与。 日本では麻酔・集中治療医として働き、オーストラリアでは小児集中治療を一から学び直しています。 乗り越える壁を見つけ続けることは、なかなか簡単ではありませんよね。アラフォー目前、様々な壁にぶち当たり、それなりに多くの経験をしてきました。私の挑戦や経験・知識、失敗談などが、他の誰かの刺激になり、役に立つことを切に願っています。 プロフィールをもっと詳しく見る

POSTED COMMENT

  1. […] 統計学的には、predictor (X1)と関係しており、かつoutcome (Y)に独立して関連しているものをconfounderと定義します(上の図のような関係)。そのため、confounderをmodelに加える(adjustする)前後でX1のとYの関係性が変化する、すなわち係数β1が変化します(詳細はこちらを参照してください)。変化率のカットオフとしては、10%や20%がよく使われます。 […]

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です