AIで心電図を読影する【循環器内科医を超えたか】

AIは画像と相性がよいです。

心電図は正確には画像でないですが、1枚の紙の情報なので、画像として分析することも可能です。

よって循環器の分野では、如何に心電図をAIで読ませるか、研究が盛んに行われてきました。

今回紹介する報告はその最新のものです。

ついにAIの読影能力が循環器内科医を超えたか。

 

 

AIで心電図を読影する

AIで心電図を読影する

心電図の自動診断はかなり以前からありました。

例えば10年前から、普通にとる心電図で必ず自動診断がついてきます。

しかしその精度は悪く、特に循環器内科医はそれを完全に無視しています

 

最近AIが進歩して、その中でもdeep learningが注目されるようになりました。

deep learningとは、画像の情報を基とした予測モデルです。

心電図は静止画としても捉えられるので、deep learningと相性が良かったのです。

よって、Stanford含む世界中のエンジニア+循環器内科医達が、deep learningで心電図診断をしようと切磋琢磨してきました。

結果、かなり診断精度が上がってきました。

 

しかし、まだまだ医師には追いついていません。

一つの原因としては、心電図の情報を読取る際、それぞれのsegment(p波だったりQRS波だったり)を別に読み込んでいることが考えられていました。

→部位でなく全体で見ないと不整脈の診断ができないので、特に不整脈の診断能が悪かったそうです。

 

今回紹介する論文は、心電図全体として解析することで、より不整脈の検知に特化したアルゴリズムを作り、その診断能を循環器内科医と比較した、というものです。

 

 

方法は?

15万件くらいの心電図を、training: validationに9:1に分けました。

心電図の診断(アウトカム)は、21種類のリズムとしました

→正常、洞頻脈、洞徐脈、期外収縮(atrial/junctional/ventricular)、atrial rhythm/ idioventricular rhythm (異所性調律ということでしょう), AT, AFL, AF, PSVT, VT, A pacing, V pacing, LBBB, 1度AVB, ウェンケバッハ型AVB, WPW-A型, WPW-B型

*Mobitz2型AVBや完全房室ブロックがない、リズムと言いながらLBBBやWPWが入っている(心電図診断という意味ならもっと色々入れるべき)、など?な箇所はあります。

 

この15万件の心電図は、循環器内科の後期研修医一人が読影し、その後指導医達が確認した、と書いてありました。

→これによりdeep learningのモデルを作りました。

...Convolutional neural networkを使い、出力は1*21のベクター(それぞれの心電図診断)としました。

→これにより、洞徐脈+心房期外収縮+1度AVB、といった複数の診断ができるようにしました。

 

*明らかにこの後期研修医の能力に依存するモデルとなります。指導医の確認なんて適当でしょう。

まあこういうのに首を突っ込む研修医はかなり出来が良いことは予想されますが、大きなlimitationとなります。

 

 

Test datasetは828件の、別の心電図としました。

この読影は3人の循環器内科指導医のコンセンサスで行われました。意見がsplitしたら、その心電図は除外されました。

このtest datasetでの予測精度を、

・Deep learningのモデル

・53人の循環器内科医

で比較しました。

 

 

結果・・・AIの勝ち?

Test datasetでのaccuracyは、

・AIで80%

・循環器内科医師は70%

とAIの勝ち。

 

21個の診断の内、代表的な9つの診断に対するF1スコアは

・AIで0.943

・循環器内科医師は0.875

とAIの勝ち。

 

それぞれの診断別には、

・AI診断で正常、A pacing, ウェンケバッハ型AVB、WPW-type AについてのROCは1.000でした(100%正確)

・AIでは洞徐脈の診断能が一番悪く、ROCは0.901でした

・洞徐脈、PVC、VT、V pacingに関しては、AIは経験12年以上の循環器内科医に劣りました。

 

*他にも色んな検討をしていますが、要はこのAIは精度が良いですよ、ということを言っています。

 

 

解釈は?

AIが循環器内科医に勝った・・・

・・とは当然言えません。

むしろ、AIは進歩していると思いますが、まだこんなもんなのか、というのが印象です。

 

✔まず、診断結果のラベリングが問題です。

・例えば洞徐脈とか洞頻脈とか、無症候の異所性心房調律とか、診断する意味がほとんどありません

→しかもはっきりと分からないことも多い。この診断精度をAIと臨床医で比べる意味がありません。

 

・診断を21の種類とした根拠は何なのか?なぜMobitz 2型がやST変化が入っていないか?

→そもそもアウトカムが妥当でない可能性があります。

 

・VTを診断することは重要ですが、よく問題となるのは伝導遅延やブロックがあるPSVTとの鑑別です。

→結局ATP(アデホス)使わないとわからないこともあって、おそらくそういうケースはAIは意味ありません。

→そのほかに、「VTということ」を診断しなくてはいけないシチュエーションはそんなにありません。

→なのでそれをアウトカムとすることは、臨床応用を念頭に置いているわけではありません(研究のための研究ということです)。

 

・WPWのA型とB型(Kent束の場所の違い)が区別できるのは良いですが、そういう情報はカテーテルアブレーションの術前情報として有用なわけで、一般臨床にはあまり意味ありません。

→カテーテルアブレーションの術前情報といったら、PSVTの種類の診断だったりAPVやVPCの起源だったり、もっと知りたいことは沢山あります。

→これらをAIで診断つけるには、アブレーション症例の情報を集めたデータベースの構築が必要で、今までのAI構築アプローチとは全く別のものになります(それができたらすごい使えそうです)。

 

✔Training datasetの情報はどれだけ汎用性が高いか?(そこまで高くないでしょう)

基本的に一人の循環器内科後期研修医が15万件の心電図をみているわけです。

また、心電図1枚で本当にVTとPSVTを鑑別できているか等やや怪しい部分もあります。

さらに、そもそもTraining datasetが代表する集団での応用が念頭に置かれます。

→そこまでgeneralizabilityが高いとは言えなそうです

 

✔結局、今の心電図自動診断と何が違うのか?

deep learningを使っている、という意味でアルゴリズムはもちろん違いますが、臨床的意義がどれくらい異なるか、という意味です。

おそらく循環器内科医が参照することはないので、その他の臨床医が循環器内科にコンサルトする前の資料として使うのでしょうが、、それだったら今の心電図自動診断で十分な気がします。

時々「自動診断で気になった所見がある」というコンサルトがありますが、実際にその所見があることは多いです(自動診断は合っているということ)。

→でも臨床的に意味があることはそんなにありません。別問題です。

 

****

つまり私は、「AIで心電図を診断する!」というと、実臨床への応用がかなり期待できるように聞こえますが、結局研究のための研究という側面が強いのでは、という批判をしています。

(少なくとも日本やアメリカの医療というコンテクストにおいては、です。この論文のアルゴリズムは、既に中国の田舎の病院やクリニックで使われているそうです。)

 

実臨床的には、「専門医への紹介が必要な不整脈」というアウトカムでdeep learningモデルを作るのが一番有用性が高いと思います。

もしくは専門医がじっくりみても見逃すような細かい所見を拾って、アブレーションの術前に参考になるような情報を出力するようなアルゴリズム。

こういうのが臨床に還元することを目標としたAI、ということになりそうです。

技術やデータベース的にそういう段階でないんだと思いますが。

 

最後に一般的な話です。

こういう「AIを臨床応用する」類の研究は、deep learningのアルゴリズムの問題というより、clinical questionだったりstudy designだったりの疫学的要素がより重要な課題となっている気がします。

エンジニアでなければ精度の高いモデルを作るのは難しいですが、こういうプロジェクトに医者や疫学者が関わる余地はかなりあります。

というか、良い疫学者が関わらない時点で良い臨床研究にはなりえないと思っています。

 

 

結論

AIの技術は進歩して、心電図をより正確に読めるようになることが期待されている。

しかし、臨床を変えるほどのインパクトを生むことは、中々難しそう。

ではまた。

-心臓病, 論文解説

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.