医療統計

交絡因子(confounder)

今回は、交絡因子(confounder)の話です。研究に携わる医師、疫学者、統計学者、データサイエンティストなど、様々な職種の方々が使う用語ですが、実はその定義、使う人によって異なります。

はじめに

疫学者と統計学者で交絡因子(confounder)の定義が異なります。それでも、疫学者と統計学者は共に公衆衛生学教室で同じ医学論文を書いているも多いので、互いの定義の違いを理解して話をすることができます。

しかし、データサイエンティストは統計学の一種のような学問をしているものの、公衆衛生学とは全く異なる学部であることも多いため、普段は疫学者と一緒に仕事をしていません。そのため、いざ同じチームで話をした時に、全く話が噛み合わないことが多々あります。

では、どのように異なるのでしょうか。

“Change in estimate” definition

主に統計学者やデータサイエンティストが用いるconfounderの定義であり、データのみからconfounderかどうか判断します。

具体的には、

ある因子(L)でadjustする前と後で、AとYの関係性が(10% or 20%以上)変化した場合、その因子Lをconfounder

と呼びます。

上のスライドは、母親の妊娠中のsmoking (A)と子供のBirth weight (Y)との関連を調べようとした際、妊娠中のアルコール摂取(L)が交絡因子であるかどうかを調べようとしたものです。

Lで調節する前のAとYの関係性の大きさは、linear regression modelではβで示すことができます。この場合、喫煙者(smoke=1)は非喫煙者(smoke=0)と比べて子供のbirth weightが200g小さいということを意味しています。

一方、アルコールをmodelに入れることで、アルコールで調節(adjust)すると、喫煙者(smoke=1)は非喫煙者(smoke=0)と比べてbirth weightが150g小さいという関係性に変化しました。

この変化率: (200-150)/200=25%が10% (または20%)を超えているので、アルコール摂取は喫煙とbirth weightの関係のconfounderである、といいます。

この定義はかなりpopularですが、因果推論をする際には間違いを引き起こすことがあるので注意が必要です。DAGを使って説明しますので、DAGをご存知ない方はここを参照してください。

“Change in estimate”で問題ない例

ここでは、喫煙によって指が黄色くなり、喫煙によって肺癌が引き起こされていますが、黄色い指が肺癌を引き起こしている訳ではない、という状況です。この場合、喫煙をmodelに入れなければ黄色い指と肺癌の間に関連ありというbiasとなってしまうため、biasを取り除くためには喫煙はadjustしなければならない因子、すなわちconfounderであるはずです。

では、喫煙がconfounderであるかどうかの判断に、“Change in estimate” definitionを使ってみましょう。Adjust前のAとYは関連ありですが、adjust後のAとYは関連無しとなっています。従って、L(喫煙)はconfounderであることになり、問題ありません。

“Change in estimate”で問題のある例

問題は次のケースです。

因果推論においては、このようなS(癌)はcolliderであるため、AがYに影響を与えているか調べるためにはSで条件付けしてはいけません(わからない人は、こちらを見てください!)。Sはcolliderであって、confounderではありません

しかし、“Change in estimate” definitionを使ってみると、adjust前のAとYは関連なしですが、adjust後のAとYは関連ありとなっています。“Change in estimate” definitionを使うと、このSはconfounderと判断され、モデルに入れた方が良いという結論に至ってしまいます。繰り返しますが、Sはconfounderではなくcolliderのため、モデルに入れて調節してはなりません。もしモデルに入れてしまうと、因果推論が間違った方向に向かってしまいます。

Structured approach

では、どうすれば良いのでしょうか。この“Change in estimate” definitionがnon-structured approachの一つと捉えられるのに対し、structured approachというもう一つの方法があります。この方法、confounderを見つけるために、DAGしか使いません。考えることは2つだけです。

1. AとYに共通する原因があるか

Yesなら、それだけでconfounderまたはconfoundingがあることになります。

2. AからYへのpathは、何かしらの因子を条件付け(conditioning)することでブロックできるか

→Yesなら、その因子をadjustすることで、因果推論が可能となる。

たったこれだけです。

では先ほどの例を考えてみましょう。

このDAGにおいて、癌はAとYの共通する原因ではありませんよね?すなわち、「Sはconfounderではない」、たったそれだけです。

このように、因果推論をする上では、“Change in estimate” definitionではなく、Structured approachを使うべきです。

おわりに

いかがでしたか。因果推論における疫学者のconfounderの考え方と、data drivenな統計学者・データサイエンティストのconfounderの考え方の違い、ご理解いただけたでしょうか。研究もチームで立ち向かう必要が増えてきた今日において、彼らが一つのチームに共存することもありえます。是非、このような差を理解した上で議論できれば良いですね。

Reference

1. Murray A. Mittleman. EPI 201: Introduction to Epidemiology: Method 1. Harvard T.H. Chan School of Public Health
2. Miguel Hernan. EPI 289: Epidemiological Methods III: Models for Causal Inference. Harvard T.H. Chan School of Public Health
ABOUT ME
木村聡
福岡県の研修病院で初期研修修了後、大学に入局。米国オハイオ州に臨床研究で留学するも、知識の欠如を痛感。ハーバード公衆衛生大学院に進学し、MPHを取得。マサチューセッツ工科大学メンバーとの共同研究などに関与。 日本では麻酔・集中治療医として働き、オーストラリアでは小児集中治療を一から学び直しています。 乗り越える壁を見つけ続けることは、なかなか簡単ではありませんよね。アラフォー目前、様々な壁にぶち当たり、それなりに多くの経験をしてきました。私の挑戦や経験・知識、失敗談などが、他の誰かの刺激になり、役に立つことを切に願っています。 プロフィールをもっと詳しく見る

POSTED COMMENT

  1. […] 二つ目のモデルにはsmokeにageを加えました。seが50から250に増えています。ただし、βが+200から-500と大きく変化していることから、統計学的にはageはsmokeとBWTの交絡因子(confounder)であると言えるため、できればモデルに含めたい因子です。seが結構大きいので、入れるか外すか、難しいところです。 […]

COMMENT

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です