医療界のビッグデータ:MIMIC

病院内には、今まで解析されずに埋もれてしまっていた大量のデータ(ビッグデータ)が存在します。それらをデータベースとして蓄積し、機械学習で解析することで新しい発見を探そうという試みは、医療界においても旬なトレンドです。

アメリカのマサチューセッツ工科大学(MIT: Massachusetts Institute of Technology)には、そのようなトレンドの最先端をいくチームがあります。私の留学先はハーバード公衆衛生大学院(HSPH)ですが、MITにも出入りする機会があり、運良くそのチームが開講しているクラスを受講することができました。今回は、そのクラスで使用したMIMCという医療データベースの紹介をします。

ちなみに、私のメンターはその講義をorganizeしていた人で、アメリカの集中治療医であると同時にデータサイエンスの学位も取得しており、医療界における機械学習の第一人者です。

当時の出会いがきっかけで、今でも彼やそのメンバーと共同研究をさせてもらっています。

目次

MITメンバーが医療データベースを構築

MIMIC(Medical Information Mart for Intensive Care)とは、MITのメンバーと医師が合同で、ボストンにあるBeth Israel Deaconess Medical CenterのICUのデータを蓄積し、データベース化したものです。

Beth IsraelのICUに入室した全ての患者の、年齢や体重、既往歴、診断名だけでなく、ICU入室中の1時間毎の全てのバイタルサイン、輸液量、輸血、尿量、検査値などなど、ありとあらゆるデータを蓄積しました。そして、それらの大量のデータをいくつものテーブルに分けて(ex. 患者背景のテーブル、検査データのテーブル、輸液に関するテーブル、、、)格納し「紐付け」を行うことで、欲しいデータのみを後々引き出せるような画期的なデータベースを作り出しました。

MIMIC-IIIは、三代目といえども2001年から2012年という、結構古いデータベースです。逆に言えば、アメリカには、こんな昔から、このような大量のデータを自動的に蓄積しデータベース化するという発想と実力があったことを意味しています。そしてこのMITのチーム、MIMICの他にもeICUというデータベースも作っており、全米200以上の病院のICUデータを一つに集約してしまいました。

近年、日本の各病院が競って自分たちだけのデータベースを作成しようとしていることとは、正反対ですね。。。

無料で利用できる

世界屈指のテクノロジー集団が手がけたデータベースですが、驚くべきは、誰でも無料で利用できることです。詳細は後日解説したいと思っていますが、簡単なオンラインのトレーニングを受講しアクセス権をリクエストするのみです。全MIMICデータを自分のパソコンにダウンロードすることだって可能です。

例えば、Pubmedで”MIMIC-III”と打ち込むと、2019年12月の時点で131本の論文が世に出ていることがわかります。しかし、これらの論文の中に、MIMIC-IIIを作った第一人者を含めMITメンバーやBeth Israelの医師が全く知らない、全く関与していないものが沢山あります。中には、(彼ら曰く)「研究としてかなりビミョー」な論文もあるらしいですが、そこはフリーアクセスですので、どうしようもありません。

もうすぐ新しいデータベースであるMIMIC-IVがリリースされるはずです。画像データなども蓄積されているようですし、どんどん進化していますね。

MIMICを使ったプロジェクト

私が受講したMITのクラスでは、毎回有名人を呼んで講義もありましたが、termを通してチームで一つのプロジェクトをやり遂げることが主なタスクでした。

まず、生徒たちは1チーム3〜5人程度に分けられます。同じ職種の人たちが一つのチームに偏らないように分けられますので、それぞれのチーム内に様々なバックグラウンドを持った人が混在する形になります。私のチームは

  • データサイエンティスト(Philips勤務)
  • 疫学者の卵(ハーバード公衆衛生大学院の学生)
  • 統計学者(統計学の博士課程卒業)
  • 医師(ドイツの麻酔科医。当時はMGHで研究留学中)
  • 医師(私)

の5人のチームでした。医師が研究の題材にするclinical questionを考え、疫学者や統計学者と共に抽出に必要なデータを考えます。それらのデータを、データサイエンティストがSQLを用いてMIMICから抽出します。そのデータをもとに、疫学者や統計学者が解析する、という流れになります。

多くのチームは何らかのoutcomeを予測するための予測モデルを機械学習(machile learning)で作成することが多いのですが、私のチームは疫学寄りのチームメンバーだったので、因果推論になってしまいました。

3ヶ月半かけて、データ抽出から解析、発表まで行います。(私たちのチームはできませんでしたが)論文化するチームもあります。

Datathon

このような、医療のビッグデータを解析することで何か新しい発見を探す試みを世界中に広げるため、同MITメンバーが世界中で”Datathon”という大会(?)を開催しています。日本集中治療学学会と合同で、2017年に日本でも第一回Datathonが開催されました。

基本的には二日間という超強行日程ですが、形式は私が受講したクラスと同じことをします。たったの二日で、MIMIC-III(またはeICU)からデータを抽出し、ICU領域での予測モデルを作成します。

私も、2019年の第二回Datathonで、講演&facilitatorとして参加、お手伝いをさせていただきました。2020年には第三回も開催されますが、私は勤務予定が合わなかったため参加できません。興味のある人は、是非とも参加してみてください。リンクはこちらです。

まとめ

今回は、MIMIICという、医療界のビッグデータの先駆けとなったデータベースをご紹介しました。日本ではまだまだこのレベルの医療データはありません。ましてや、MIMICは無料で公開されています。ビッグデータや機械学習という領域に興味のある人は、是非とも使ってみたら如何でしょうか。

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

コメント

コメント一覧 (2件)

コメントする

英語のコメントは『問い合わせ』からお願いします。

目次