線形回帰分析〜その4：第2の変数

2019年11月24日2021年2月27日

これまでは、”simple linear regression”と称して、説明変数Xは一つだけ（X₁）の場合を考えてきました。今回は、説明変数をもう一つ（X₂）を加えます。目標は

1. X₂を加えたmodelを解釈できる。

2. X₂をmodelに加えることで、係数（β₁）やそのvarianceがどのように変化するかを理解する。

です。以上ができて初めて、因果推論を目標としたmodelを作ることが可能となります。Logistic regression modelでも基本的な考え方は同じなので、しっかりと理解しておきましょう。

では始めましょう。

1. 二つ目の変数（X₂）を入れたmodelの解釈

Outcome (Y)は、出生児の体重です。説明変数として、（母の）高血圧（X₁）だけでなく、（母の）膀胱刺激症状（X₂）の2つがmodelに入っています。この場合のβ₁の解釈ですが、

膀胱刺激症状（X₂）が一定である時、高血圧が無い場合（X₁=0）と比較して高血圧がある場合（X₁=1）の出生児体重（Y）の増加分がβ₁

ということになります。この、「X₂が一定（holding ~ constant）である時」ですが、「X₂を調整（adjusting for ~）した時」と表現されることもあります。

ちなみに、疫学者はこの「adjusting for」を嫌います。なぜなら、変数をadjustする方法はregressionだけでないからです。Propensity scoreやinverse probability weightingなど、他の変数をadjustする方法は沢山あります。どのように調整したかを明確にするためにも、「adjust」という言葉を使わず方法を明確に示せ、ということのようです。

今回は統計がメインなので、adjustという言葉を使わせてもらいます。

2. X₂を入れることによる変化

以前の記事で説明したように、regression modelでは、それぞれの変数Xの係数βと、そのstandard errorであるse(β)を用いて計算されたp-valueが知りたい値でしたね。

そして、説明変数が1つだけのsimple regression modelに、2つ目の変数を加えた場合、1つ目の変数の係数βや、そのstandard errorが変化します。それぞれの値だけでなく、この「変化」に注目することが大切になってきます。

β₁の変化

2つ目の変数X₂をmodelに加えた際、1つ目の変数X₁の係数β₁が（加える前のβ₁と比べ）変化することがあります。統計学的には、この変化率をconfounder (交絡因子)の定義に用いるため、まずはこの係数β₁の変化に注目しましょう。

しつこいようですが、これは統計学的なconfounderの定義です。疫学的なconfounderとは異なります。知りたい方はこちらを読んでください。

また、X₂がintermediate factor、すなわち、DAGにおいて

X₁ → X₂ → Y

というケースも注意が必要です。これは、X₁がYを引き起こす機序として、X₂を介在しているケースです。この場合も、X₂をmodelに入れることでβ₁が変化しますので、この定義だけを用いると（本当はconfounderではなくintermediate factorなのに）confounderと間違ってしまうことになります。

β₁のstandard errorの変化

Simple regression modelにX₂という変数を加えた場合のβ₁のvariance（→”√”すればstandard error）は、上記のようになります。そして、βのstandard errorとその変化を観察することも、X₂という因子を考える上で大切になります。

β₁のstandard errorが低下

X₂がX₁と関係しておらず、Yのみと関連している場合は、X₂はYを予測する上では非常に大切な変数ということになります。従って、X₂をmodelに入れた場合、より良いmodelになるためMean Squared ErrorであるError Variance（赤丸の部分）は小さくなります。X₂がX₁と関連していなければ、correlation coefficient=0となり、青丸で囲んだ部分は大きくなります。すなわち、β₁のvarianceは小さくなることがわかります。

後述のように、このようなX₂を”significant predictor“と呼びます。

β₁のstandard errorが増加

X₂がX₁と関係しているだけで、Yとは関連していない場合、X₁とYとの関係を考える上ではX₂は不要な変数ですよね。このような場合、X₂をmodelに入れた場合、modelの良さは変わらないためError Variance（赤丸の部分）は変わりません。一方、X₂とX₁が関連しているため、correlation coefficientは大きくなり、結果として青丸で囲んだ部分は小さくなります。すなわち、β₁のvarianceは大きくなることがわかります。

後述のように、このようなX₂を”collinear covariate“と呼びます。

β₁のstandard errorと検出力

X₂挿入後のβ₁のvarianceの変化だけでなく、β₁のvarianceそのものの値も検出力（power）を考える際には大切になります。なぜなら、β₁のvarianceによってt-scoreが計算でき、X₁の係数であるβ₁のp-valueを求めることができるからです。β₁のvarianceが大きいと（t-scoreが小さくなるので）powerが小さくなり、β₁のvarianceが小さいと（t-scoreが大きくなるので）powerが大きくなります。

こちらが、X₂が、X₁やYとどのように関係しているかによって、β₁のvariance（そしてstandard error）にどう影響を与えるかをまとめた表です。

X₂がX₁とYの両方ともに関連している場合（X₂がconfounder）、上述のようにβ₁のvarianceの計算式の分子・分母両方とも低下させるため、β₁のvarianceに与える影響は大きくありません。従って、X₂をmodelに加えようが加えなかろうが、（X₁とYの関係性に対する）検出力はあまり変わりません。

X₂がX₁のみに関連している場合（X₂がcollinear）、上述のようにβ₁のvarianceの計算式の分母のみ低下させ、β₁のvarianceは大きくなります。従って、X₂をmodelに加えることによって検出力が小さくなります。

そして、X₂がYのみにと関連している場合（X₂がsignificant predictor）、上述のようにβ₁のvarianceの計算式の分子のみ低下させ、β₁のvarianceは小さくなります。従って、X₂をmodelに加えることによって検出力が大きくなります。

おわりに

今回は、変数が1つしかないsimple regressionから一歩進んで、2つ目の変数があるケースを考えました。これらの知識を踏まえ、次回は、2つ目の変数をmodelに入れるべきかの判断を、統計学的に考える方法を解説します。

⇒医療従事者に必要な統計学と疫学（目次）へ

Reference

John Orav. BST 213: Applied Regression for Clinical Research. Harvard T.H. Chan School of Public Health

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

コメント一覧（2件）

線形回帰分析〜その5：必要な変数、不要な変数 より:

2019年11月25日 7:24 PM

[…] 統計学的には、predictor (X1)と関係しており、かつoutcome (Y)に独立して関連しているものをconfounderと定義します（上の図のような関係）。そのため、confounderをmodelに加える（adjustする）前後でX1のとYの関係性が変化する、すなわち係数β1が変化します（詳細はこちらを参照してください）。変化率のカットオフとしては、10%や20%がよく使われます。 […]

返信
医療従事者に必要な統計学と疫学〜目次サイト〜｜シェアする挑戦者〜 MD × MPH 〜 より:

2021年2月27日 6:54 AM

[…] 線形回帰分析〜その4：第2の変数：変数を追加した際のモデルの変化を見極めることが、多変量解析では重要です。 […]

返信

線形回帰分析〜その4：第2の変数

1. 二つ目の変数（X2）を入れたmodelの解釈

2. X2を入れることによる変化

β1の変化

β1のstandard errorの変化

β1のstandard errorが低下

β1のstandard errorが増加

β1のstandard errorと検出力

おわりに

Reference

関連記事

コメント

コメント一覧 （2件）

線形回帰分析〜その5：必要な変数、不要な変数 へ返信する コメントをキャンセル