AIで新型コロナを診断する

今の所PCRで診断されていますが、PCRは労力と時間がかかるし、世界中では検査キットが不足しています。

AIで診断できないか。

当然誰しも注目するポイントです。

新型コロナのAI診断、論文が出たのでこれをみてみましょう。

 

 

AIで新型コロナを診断する

AIで新型コロナを診断する

PCR、世界中でたくさん行われていますが、労力と時間、検査キットの数が足りません。

CT画像と病歴、血液検査の情報から、AIで診断できないか。

この時代、自然に期待されます。

 

でも、今まで聞いたことないのではないしょうか。

私の知る限り、大規模な患者データで検証された研究はありませんでした。

 

今週Nature Medicineに、それが(おそらく初めて)発表されました(Nature Medicine 2020 org/10.1038/s41591-020-0931-3)。

PCRしなくとも診断できるようになるのでしょうか。

 

中国からの報告です。

論文をみてみましょう。

 

 

AI vs. 放射線専門医

CTをとった905人の患者のデータです。

このうち46.3%がPCR陽性、53.7%が陰性(少なくとも2回以上陰性)でした。

このデータを60% training, 10% tuning, 30%をtest setとして分け、予測モデルを作りました。

この予測能を、

・10年の経験がある放射線科医

・放射線のフェロー

の予測力と比較しました。

 

*この研究デザインが妥当だと思いますか?私の感想は後述。

 

ちなみにAIのモデルは、主に以下の3つです

Convolutional neural network (CNN) model: それぞれの患者のCT画像のうち最も異常のある10スライスを用いた。画像はpreprocessされている

・ 患者情報を用いた機械学習モデル:年齢、性別、曝露歴、症状、血液検査(白血球・好中球・リンパ球)を用いた

→Support vector machine (SVM), random forest, multilayer perceptron (MLP) classifierのうちMLPが一番予測精度が良かったので、MLPで他のものと比較しました(tuning setのROCで)

・MLP+CNN: CTと臨床情報を使った、joint model

 

*使った情報にかなり偏りがあることがわかりますね。この解釈は後述します。

 

 

結果は・・・AIは放射線専門医と同等

AUC、感度、特異度で予測精度を比較しています。

*本当はcalibrationも検討すべきです(参照こちら

*機械学習の感度・得意はbest cut-off値でのものです。

 

結果、

<AUC>

・放射線専門医:0.84

・後期研修医:0.73

・CNN:0.86

・MLP:0.80

・MLP+CNN:0.92

 

<感度>

・放射線専門医:74.6

・後期研修医:56

・CNN:83.6

・MLP:80.6

・MLP+CNN:84.3

 

<特異度>

・放射線専門医:93.8

・後期研修医:90.3

・CNN:75.9

・MLP:68.3

・MLP+CNN:82.8

 

ということで、MLP+CNNは放射線専門医と同じくらいの診断能力がある、とされました。

 

 

解釈は?

これで流石に「AIで診断できる」とは到底言えないですよね。

医学研究で機械学習を応用させるのが如何に大変かわかる論文でした。

これを説明していきます。

 

データが少なすぎ+中国症例

1000例ちょっとのデータをtrainingとtuningとtestに分けています。

どうしようもなくサンプル数が少なすぎます。

サンプル数が少ない=信頼性が低い(random variationが大きい)わけですね。

 

まあ仕方ないんですが、全部中国の症例、状況です。

generalizabilityがない=他の集団に一般化できないですね。

共同研究にしてビッグデータを作らなければ、機械学習の応用は成り立ちません。

 

 

診断は本当?

PCR陽性=コロナの診断、陰性2回以上をコロナでない診断、としています。

これが100%正しいという前提の研究です。

しかし、PCRは検査精度が悪いといたる所で言われていますね。

これでいいんでしょうか?

 

これ実は確かめようの無いことなんです。だって今PCRしか診断方法が無いから。

でも重要なlimitationです。

この機械学習モデルで予想しているのは、コロナの診断でなく、コロナPCRの陽性です。

 

 

用いているデータが少なすぎ

臨床情報は百歩譲ります。

→住んでいる地域、仕事、所得、家族構成も重要な感染リスクだと思うのですが、そういうデータを集めて扱うのは大変なので。

しかし血液検査は流石に少なすぎですね。

血算しか使っていません。

今までの報告でも、CRP、フェリチン、IL-6といった炎症マーカーが上がる所見は超重要ですし、インフルエンザや肺炎球菌などの迅速検査、d-dimerに代表される凝固系なんかの情報は臨床的に重要(というかその情報こそが診断プロセスに関わるもの)です。

これ無しで「コロナの診断」は全く語れません。

 

よって、この点は全然ダメです。

 

 

CT画像の使い方が怪しい

病変の画像10枚をdeep learningにまわしていますが、それでいいんでしょうか?

10枚選ぶプロセスが人為的になりえます。

「AIで診断」といいたいなら、CT画像をそのままつかってくれないと、イメージと乖離しています。

 

*まあそれが難しいことは重々わかっているんですが。

 

 

放射線専門医と比べるの?

比較対象が一人の放射線専門医なわけですが、これでいいんでしょうか?

✔普段診断しているのは救急医です。

✔科を百歩譲っても、「一人」。その一人は信用できますか?

→普通研究では2人のエキスパートの意見一致をもって・・・のようにします。

 

****

最後に、結果(予測能)の解釈に関して。

放射線専門医の特異度が高くて感度が比較的低いのはわかります。

病変が無いならコロナでない。

病変があってもコロナかはわからない。

こういう意味です。

 

一方例えばMLP+CNNの特異度がやや低く、感度が高いというのは解釈不能です。

そもそもどこをカットオフとするかで異なるのだから、たまたまそこにbest cut-offがあったというのが実際でしょう。

だから解釈不能。

 

 

以上より、この論文で紹介されている機械学習は、臨床使用を考えたときにはあまりに質が低いと言わざるを得ません。

初めての試みとしては評価されるべきでしょうが(それでNature Medicineなんだと思いますが)、残念ながらこの研究から何か言えることはありません。

 

*AIの結果を画像診断の参考にするには良いのでは?という意見もありそうですが、そもそもPCRを省きたいのがモチベーションなので、ダメです。

→つまり画像の読影結果として「コロナ◯%」って出たとしても、その後救急医が解釈する必要ありますよね。

→これを活用するには、「90%以上ならPCRを省く」みたいな、プラスアルファの臨床指針が必要になり、そのvalidationも必要になってしまいます。だからダメなのです。

 

 

結論

臨床応用を考えると質が低すぎて、何も結論できていない論文でした。

ではまた。

-COVID, 論文解説

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.