AIとか機械学習が流行りで、医学研究にもよく使われるようになりました。
統計ソフトが進化して、誰でも簡単にできるようになった事がポイントです。
しかし、そもそも(deep learningを除く)機械学習がどの程度医学で役に立つかは不明。
なんと、「機械学習はロジスティック回帰に勝らない」という論文が出ました。
これを解説します。
医学研究で機械学習は意味ない説
RとかPython使っている人で、機械学習できない人はいません。
packageをダウンロードして走らせるだけ。デフォルトで色々設定されてあります。
でも、機械学習(によるprediction)ってそういうことじゃないんですよね。
あまりに質の低い機械学習が横行しているのを見かねて、あるメタ解析が出版されました(J Clin Epidemiol. 2019;110:12‐22.)。
「機械学習はロジスティック回帰に勝らない」
機械学習 vs ロジスティック回帰で予測能を比較した71研究のメタ解析です。
これを理解し、正しく解釈しましょう。
集めた研究は、
・アウトカムが0か1
・ロジスティック回帰 vs 何らかの機械学習で予測能を調べた医学研究
というものです。
予測能はAUCを用いて評価したものがほとんどでした。
*何らかの機械学習、といいますが、実際は
・LassoなどのPenalized regression:15研究
・CARTなどのClassification tree:30研究
・Neural network:26研究
・Support vector machine:24研究
でした。
結果・・・
バイアスが低いと判断された研究では、機械学習 vs ロジスティック回帰で
→Logit (AUC)の差は0.00 (95%CI: -0.18, 0.18)と完全に差がありませんでした。
・・・・本当????
機械学習の質が、低すぎる
実はこの論文、
「だから機械学習が意味ない」
と主張しているわけではありません。
「あまりに質の低い機械学習やっても意味ない」
ということです。
論文に示されていますが、例えば:
・missing dataをどう扱ったか不明:45%
・連続変数をどう扱っているか不明:20%(ロジスティック回帰については66%)
・因子のselectionしたか不明:58%
・non-linearityが検査されているのがたった10%
・interaction termをどうしたか不明:89%
・hyperparameterをどう扱ったか不明:半分以上
・ほとんどの研究でcalibrationが調べられていません
おそらく、少なくない研究でデフォルト設定のまま機械学習やっていると思います。
機械学習をかじった事のある方には自明ですが、こんなことあり得ないですよね。
でもこれが医学研究の実態かと思います。
これ意味ないですよね?
予測モデルの精度を上げるために機械学習があるようなものなので、きちんとモデルを作れなければ意味ありません。
ロジスティック回帰と同じ予測精度なわけありません。
どうしたらよいか?
本来は機械学習に慣れているエンジニアの方にお願いすべきです。
でもどこでもそれができるわけではありません。
本来はそしたらやらない方が良いです。
最低限、以下のことを論文に明記するよう推奨されています。
・どうモデルしたかの詳細
・validationにresamplingを使った場合は、全データを使っても精度を確認
・training, validationのperformanceも明記
・calibrationも評価
→AUCはdiscriminationの評価ですね。predictionはcalibrationも重要です。
気をつけましょう。
結論
多くの医学研究の機械学習はレベルが低すぎて参考にならない。
ではまた。