医師が留学の体験談・失敗談をシェアするブログ

欠損値（missing value）の種類

2020年2月14日2021年2月27日

実際のデータを扱う際、ほぼ確実に欠損値（missing value）というものが存在します。全てのデータが完全に揃っているということは、扱うデータが大きければ大きいほど非現実的となります。

では、欠損値がある場合、単にそのデータを除いて解析しても良いのでしょうか。答えはYes and Noです。どういう時に良いのか、どういう場合にダメなのかを理解するためには、欠損値の種類について理解しなければなりません。今回は、欠損値の分類について解説したいと思います。

目次

欠損値によって引き起こされる問題

データベースに欠損値があると、関連性を見る際に統計学的な問題が発生することがあります。まずは、その例を挙げてみましょう。Quality of Life (QOL)を半年毎に調べたデータを考えてみます。

①欠損値がない場合

上は欠損値のない場合です。個々で少しずつQOLが異なりますので、そのデータの広がりを縦の広がりとして表しています。

欠損値がない場合は、半年毎にQOLが低下していることがわかります。平均値や中央値で考えるとわかりやすいですね。Baseline、6ヶ月後、12ヶ月後で、それぞれの真ん中は徐々に下がってきています。完全なデータであるので、これが知りたい本当の変化だとします。

②アウトカムと関係しない欠損値がある場合

欠損値があり、欠損となるか否かがアウトカムと関連していない場合を考えてみます。赤色で示した範囲が、欠損値です。欠損はランダムに起きているため、存在するデータだけを解析しても、それぞれのタイミングで中央は変わりありません。6ヶ月後、12ヶ月後と、やはりQOLは低下していますね。従って、バイアスはありません。

ただし、経過とともにサンプルサイズが減っているため、その変化を統計学的に有意か調べる際の検出力（power）は低下しています。

③アウトカムと関係する欠損値がある場合

今度は、欠損値があり、かつそれがアウトカムと関連している場合です。時が経ち、QOLが低下した人ほど（病院に来れない、surveryに答えないなど）何らかの理由でQOLに関するデータが欠損しています。

すると、データがある人だけを調べた場合、それぞれの中央は半年後、1年後で（下がるどころか）上がっていますね。これがバイアスです。そしてもちろん、サンプルサイズが減っているので検出力も低下しています。

このように、一概に欠損値といっても、その性質によってデータの解釈を変えてしまう場合があることがわかります。

欠損値の種類

上記の例は、単に欠損値とアウトカムとの関係のみを考えました。しかし、欠損値の種類を考える場合には、ある因子の欠損値がその因子自体に関係しているかと、その他の因子に関係しているかを考えなければなりません。

Missing Completely At Random: MCAR

ある因子が欠損値となるかどうかが、その因子と関係なく、その他の因子とも関係ない場合です。この場合は、欠損値が完全にランダムとなることを意味しているため、変な解析をしない限りバイアスを引き起こすことはありません。一方で、実際のデータでこのような欠損値のパターンをとることは殆どありません。

上の例②は、QOLの欠損値がQOLを関連していないため、MCARか、次に説明するMARとなります。

Missing At Random: MAR

ある因子が欠損値となるかどうかが、その因子自体とは関係ありませんが、その他の因子とは関係がある場合です。

例えば、高齢であればある程収入に関するデータを報告しない（すなわち欠損）が、収入の高さは報告の有無に関係しない、といったケースです。

上の例②は、このMARとなり得ます。

現在使われているmissing dataに対する手法の殆どは、その欠損値がMCARまたはMARであるとの仮定に基づいています。

Missing Not At Random: MNAR

ある因子が欠損値となるかどうかが、その因子自体とも他の因子とも関係がある場合です。

例えば、収入が低ければ低いほど自分の収入を報告しない（収入の欠損値が収入と関連）、といったケースです。

最初の例③がこのMNARとなります。QOLという因子が欠損するか否かが、QOLによって変わってくるためです。

MNARであれば現在のメジャーな手法の殆どは、バイアスを取り除くことができません。

理論と実際

上記の欠損値の分類は、統計学的には非常に重要です。なぜなら、上記で述べたように、殆どの手法はMCAR（ほぼ非現実的）またはMARでのみ有効であるからです。

一方、実際はこれらの3種類を分類し証明することは不可能です。なぜなら、欠損値は欠損しているため、関連を調べることができないからです。

上記の分類は、あくまで理論的なものですが、それでも欠損値を扱う上では欠かせない概念です。

たとえrandomized controlled trialであっても、欠損値の種類によっては適切な手法を用いなければバイアスを生み出してしまいます。大きなgrantを勝ち取ろうとするのであれば、欠損値に対するアプローチについても、立案の段階でしっかりと明記する必要があります。

まとめ

欠損値は、その因子自体や他の因子との関連性によって、MCAR, MAR, MNARの三種類に分けられます。欠損値の種類によっては、適切な手法を用いなければ、バイアスを生み出し、検出力が低下します。

どのような手法があるのかは、今後解説していきたいと思います。

⇒医療従事者に必要な統計学と疫学（目次）へ

Reference

John Orav. EPI 522. Harvard T.H. Chan School of Public Health

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

コメント

コメント一覧（2件）

医療従事者に必要な統計学と疫学〜目次〜｜シェアする挑戦者〜 MD × MPH 〜 より:

2021年2月28日 8:14 AM

[…] 欠損値（missing value）の種類：実際のデータ解析でほぼ必須となる欠損値の基本です。 […]

返信
ファロー四徴症根治術後の肺動脈弁置換術の適切なタイミング｜コヘルツ論文セレクション　より:

2021年7月24日 5:21 PM

[…] サンプル数が小さい。41名中24名がpoor studyやpacemakerといった理由により除外されている。これらがmissing completely at random (MCAR)でない限り、除外はバイアスとなる。 […]

返信

コメントするコメントをキャンセル

書籍

『絶対にあきらめない医学留学』好評発売中！！

研究留学、大学院留学、臨床留学に関して、ブログの内容を加筆修正し、ブログには書けなかったことも追加で記載しています。是非読んでみてください。

『小児心臓麻酔のツボ』ついに発売！

麻酔科医や集中治療医だけでなく、先天性心疾患の周術期管理に関わる全ての人が、共通言語を学び、思考回路を理解する一助となれば幸いです。

木村聡

医師

東北大卒、福岡県麻生飯塚病院で初期研修・麻酔専攻医。米国オハイオ州に研究留学するも、知識の欠如を痛感。帰国後に再渡米し、ハーバード公衆衛生大学院に進学、MPHを取得。在学中はマサチューセッツ工科大学メンバーとの共同研究などにも関与。

日本で麻酔指導医・集中治療専門医として働いた後、渡豪しRoyal Children’s Hospitalの小児集中治療医として勤務。

人生、乗り越える壁を見つけ続けることは、なかなか簡単ではありませんよね。これまで様々な壁に遭遇してきました。私の挑戦や経験・知識、失敗談などが、他の誰かの刺激になり、役に立つことを切に願っています。

座右の銘：経験は奪われない財産

書籍：『絶対にあきらめない医学留学』『小児心臓麻酔のツボ』

プロフィール

error: