COVID-19とAI、相性が良さそうですね。
実は今までに百個以上のCOVID-19に関する予測モデルが論文発表されています。
そんなにあるのです。
実際どれくらいの性能で、どれくらい使えるものなんでしょうか。
この記事では、今までのCOVID-19に関する予測モデルを全てレビューした論文を紹介します。
COVID-19のAI予測モデルの性能は?
医療×AIがよく議論されます。
AIといえばprediction model。
新型コロナに対しても、様々なprediction modelが発表されてきました。
COVID-19の診断や、感染者の予後について、患者情報やCTのdeep learningなど、様々。
でも実際、臨床現場では、ほとんど使われていません。
何か問題があるんでしょうか。
そんな中、面白い論文が発表されました。
今まで発表された予測モデルを全てreviewした素晴らしい研究です(BMJ 2020;369:m1328)。
これを見ていきましょう。
どういう研究?
PubmedやEmbaseだけでなく、medRxivやbioRxivなどのpreprintサーバーを、5/5までに発表された全ての論文がスクリーニングされました。
*5/5までというのはlimitationです。その後も色んな研究が発表されています。
COVID-19における予測モデルで、以下の3種類を抽出しました:
・COVID-19が疑われる患者に対する診断性能
・感染者の予後の予測
・general populationで感染リスクが高い人の予測
モデルの性能は、
・Discrimination:C index(1に近づく程よい)
・Calibration:interceptとslope(それぞれ0と1がよい)
での評価を集めました。
そして抽出したモデルの質を、
・CHARMS checklist(critical appraisal and data extraction for systematic reviews of prediction modeling studies)
・PROBAST(prediction model risk of bias assessment tool)
で評価しました。
結果
107研究、145モデルが対象となりました。
3つのアウトカムをそれぞれ見ていきましょう。
モデルの性能
<general populationでの感染リスク>
4つのmodelが対象となりました。
アウトカムはCOVID-19感染でなく、風邪やインフルエンザ、abnormal breathingといったproxy outcomeでした。
C-indexは0.8程度。
<COVID-19の診断>
22モデルが対象となりました。
C indexは0.65〜0.99。
✔重要なpredictorは、
・インフルエンザ様症状
・イメージング所見(CTでの肺炎所見など)
・年齢
・体温
・リンパ球数
・好中球数
でした。
✔重症なコロナ感染を予測するモデルにて、重要な因子は
・合併症
・肝酵素
・CRP
・イメージング所見
・好中球数
でした。
当たり前やろ
<COVID-19の予後>
50モデルが対象となりました。
フォローアップ期間は1〜30日とばらばらで、明記していない研究も多くありました。
アウトカムの設定もバラバラで、死亡(23モデル)、重症化(8モデル)の他、改善、入院期間、ICU入室、挿管、挿管期間、ARDS発症などがありました。
C indexは0.68〜0.98と幅があり、C indexがよくでもcalibrationが悪いモデルが散見されました。
validation法が不明確なものもありました。
モデルの質
PROBASTに沿った評価によれば、全ての研究がhigh risk of biasとなりました。
つまりこれらのモデルの性能はtoo optimisticであり、信頼性が低い事が示唆されました。
よくあるバイアスの原因はこんな感じでした:
<general populationでの感染リスク>
・アウトカムがCOVID-19でない(proxyである)ことが決定的にバイアスの原因。
→インフルエンザとCOVIDは違います。
<COVID-19の診断>
・コントロールが適切でない(適切なのはコロナでないウイルス性肺炎です)
→これ超重要ですよね。コントロールが健常者だったら、CTの肺炎所見の予測性能がいいことなんて、小学生でもわかります。
・COVID-19感染という基準が患者によって異なる
→その診断がアウトカムなのに、です。
・診断基準に入っている評価がprediction modelに使われている
→発熱とか。そりゃ発熱が重要な因子になります。
<COVID-19の予後>
・どういう患者が何の検査を受けているか不明確で、コントロールも不明確
→重症だからCTを撮っているかもしれない。selection biasです。
・画像の判定の基準が明確でない
→再現性がありません
・modelの構築課程が不明
→MDだけの研究に多いです
この他にも、
・サンプル数が概して少なすぎる
・calibrationの評価をしていない
・データセット自体に信頼性が低い
→患者のリクルート法が不明確など(連続症例とか)
解釈は?
COVID-19の予測モデルは今の所全然使えない、ということでした。
論文では詳細に分析していますが、まとめると次のような原因に収束されそうです。
✔データの収集に関する疫学的知見がない
・AIモデルは得意だけど、そもそも研究計画の質が低い、というパターン。
→例えば、コロナ診断におけるモデルで健常人をコントロールとしている時点で、臨床的に意味ないモデルとなってしまいます。
→アウトカムについても同様で、死亡を予測するにしても、「30日死亡」のように定義しないと解釈不可能になってしまいます
・研究計画を立てるというのは疫学者の重要な仕事で、とりあえずデータがあるからprediction modelをたててみた、というのは医療分野においては意味ないモデルができてしまいます。医者と疫学者の知見が必須。
✔モデリングに習熟したエンジニアが参画していない
・clinical questionは妥当だけど、モデリングが微妙、というパターン。
→上とは逆で、とりあえずパッケージでmachine learningしてみました系の論文。全然使えません。
・つまり臨床医だけでやるAIの研究はあんまり研究と言えない、ということです。
*****
医療分野で意味ある予測モデルを立てるには、多業種の連携が必要です。
多業種とは、医者、疫学者、統計学者、AIエンジニア。
これを揃えるのは並大抵のことではありません。
考えうる解決策は一つしかないと思います。
疫学的にしっかり計画された信頼できるデータベースをオープンにして、AIエンジニアに予測モデルを立ててもらう(competitionを行う)
ことです。
一番近いプラットフォームはKaggleです。
今、NIHや主要なIT企業が主導して、COVID-19 Open Research Dataset Challenge (CORD-19)というcompetitionが開かれています。
ただこれはindividual patientのデータでなく、今まで発表された論文のまとめ。
自然言語処理でメタ解析を行うことをテーマにしています(おそらく)。
本当にほしいのは、それぞれの患者の一元化された構造データです。
もしそれを用いたKaggleのcompetitionが行われたら、疫学研究のあり方が変わる気がします。
そんな時代も近そう。
結論
現時点でCOVID-19に関するprediction modelは全然使えない。
他業種の連携、質の高いデータが必要。
ではまた。