心不全(特にEFの低下しているもの)に対してβ遮断薬で治療することは、循環器内科では常識です。
今までいくつものランダム化試験でβ遮断薬の有用性が示されてきたからです。
ただ
「心不全患者全員を治療した方がよいのか」
には諸説あります。
今回の論文(Lancetに掲載)は、最新の機械学習によりβ遮断薬投与の個別化を目指したもの。
これを批判的に吟味してみました。
Contents
心不全にβ遮断薬:機械学習で個別化医療?
心不全を大雑把にわけると、
・心収縮能が保たれている心不全:HFpEF
・心収縮能が保たれていない心不全:HFrEF
とあり、当然HFrEFの予後が悪いわけです。
今回はHFrEFに限った話。
β遮断薬はHFrEFの予後改善に効果があるのですが、これは10以上のRCTから得られているコンセンサスです。
心不全の治療は他にも色々ありますが、基本的にはHFrEF→β遮断薬、というのが臨床の常識です。
これがevidence-based medicine, EBMですね。
*副作用や併存疾患で導入できない方は除く
ところが、実際は当然
・β遮断薬が予後改善に効果ある患者
・β遮断薬が予後改善に効果ない患者
います。
もしかしたら、β遮断薬を行かない方が良い患者もいるかもしれない。
これをはっきりさせるのが個別化医療というわけです。
********:
2014年、心房細動があるHFrEF患者ではβ遮断薬の効果があまりなさそう、という研究がLancetに出版されて話題となりました(Lancet. 2014;384(9961):2235-2243.)。
これははっきりとしたEffect measure modification (EMM)を示した貴重な研究です。
これで臨床現場にどれほどインパクトがあったかは定かではありませんが···
さて、心房細動以外にも、β遮断薬の効果を規定する因子は当然あります。
今回の研究は、そういった要素でHFrEFの集団をサブグループにわけ、それぞれのβ遮断薬の効果を検討したものです(Lancet 2021 doi.org/10.1016/ S0140-6736(21)01638-X )。
なお、AFのEMMを示した研究と同じグループからです。
どういう研究?
systematic reviewで見つかった関連する11のRCTのうち、9つのindividual patient dataを用いたものです。
以下、(エコー検査時の)AFとsinusを分けて解析しています。
overviewはこんな感じです:
患者データに基づきclustering
→それぞれのグループでのβ遮断薬の効果をみる
→色々な方法でvalidation
clustering
年齢、性別、···など14の項目に欠損値のない集団のみが解析対象です。
variational autoencoder (VAE)というneural networkの手法を用いて、14の項目をdimension reductionしました(より少ない項目に情報をまとめました)。
*dimension reductionで最も有名なのはPCAですが、VAEの方がより複雑なinteractionなどをcaptureでき、概してperformanceがよいです
そしてその情報を元にhierarchical clusteringでsubgroupに分けました。
*k-means++という手法を用いても同様に行いました。
なお、dimensionの数とsubgroupの数は少し複雑な方法で統計的に決定しました。
outcome measure
死亡がアウトカムで、ITTの解析が用いられました。
Odds ratio, risk ratio, NNT (= 1 / risk difference) が計算されました。
*当然follow-up期間は研究により異なりますが、この解析ではそれは考慮されていません。
validation
clusteringのrobustnessは
bootstrapでclustering→患者がoverlapしている度合いをJaccard scoreでみる
という方法で評価。
validationは
iterative leave-one-trial-out(それぞれのtrialをどれか無くしたdataset)
→それぞれのclusterを予測するモデルをrandom forestで作る
→無くした一つのtrialで、作ったモデルでclusterのmembershipを予測
→予測されたclusterと、全データを用いて判別されたcluster(メインの解析でのcluster)との一致性を評価
(adjusted Rand index [ARI]という指標:-1 ~ 1で、0がclusterがrandomに作られた場合)
という方法。
結果は?
9つのRCT、15659人が解析対象となりました。
中央値で年齢が64歳、LVEFが27%とかなり重症なHFrEFがメインです。
follow-up期間は中央値で1.3年(IQR 0.9, 1.9)でした。
以下、sinusの12822名とAFの2837名に分けての解析です。
Sinusでは6グループに分かれました。
Overallのリスク比 (95%CI)は0.86 (0.81, 0.90)
最小と最大のグループのものは0.71 (0.57, 0.87)と0.93 (0.82, 1.05)でした。
AFでは5グループに分かれました。
Overallのリスク比 (95%CI)は0.96 (0.87, 1.05)
最小と最大のグループのものは0.73 (0.54, 0.98)と1.12 (0.92, 1.36)でした。
論文ではそれぞれのグループの特徴も紹介されています。
Robustnessに関しては、Jaccard scoreは0.575;random assignmentだと0.121
validityに関しては、ARIが0.493
でした(いずれもsinus群)。
解釈は?
clusteringでβ遮断薬へのresponseが異なるsubgroupを同定できた
というものになります。
これに関して、いくつか考えたいことがあります。
個人的には、この研究の意義に懐疑的です。
この研究の目的は?
はっきり言うと、目的がはっきりしていない研究だと思います。
論文読んでもわからない。
「novel AI」にてβ遮断薬の効きが異なるclusterを分けられる、というのがhypothesisですが、それをやる目的は何か。
謎です。
もし目的が「β遮断薬の反応性が異なるサブグループを見つける」ことであれば、conditional average treatment effect (CATE)やindividualized treatment effect (ITR)の推定をやるべきです。
それはsupervised MLとなります。
同定されたサブグループの意味は何か
この論文が示すところは、
β遮断薬のHFrEFに対する効果は「cluster」ごとに異なる
というEMMです。
では、そのclusterの意味はなんなのか。
もし本当にそういうclusterがいて、それを同定できているなら筋は通ります。
しかし「本当にそういうclusterがいる」かは誰もわかりません。
というか、おそらく著者らが恣意的に選んだ因子にのみ規定されるclusterはいないと思われます。
また、この解析がRCTに参加している人だけが対象になっていることも考えるべきです。
当然HFrEFの患者全体のrepresentativeではありませんね。
そしたらこのclusteringで同定を目指しているのは「RCTに参加した中の本当のcluster」ということになり、
それでは臨床的意義がほとんどないです。
Clusterの理解
EMMがあるからclusterが重要だ!!
というメッセージですが、患者がどのclusterに所属するかは、結局モデルに当てはめるしかないです。
これは仕方ないのですが、そのモデルの中身を理解する努力(MLのinterpretation)を試みないと、疫学研究としてはなかなかインパクトを出せないと思います。
なお、この論文で使われたモデルを臨床使用することが目的なら良いのですが、そういうpracticeはなかなか浸透しないと思います。
また、上の議論より、この論文のclusterがoptimalだとは到底いえません。
解析に疑問
リスク比とオッズ比がメインの指標なのに、follow-up期間が統一されていないのは大問題。
95%CIにmultiple comparisonが考慮されていない
200, 300人規模のclusterがあり、それらの治療効果がefficientに評価されているかは疑問
*解析はvalidです(バイアスはない)。
なぜなら全て1:1 RCTなので、どんなconditional exchangeabilityも基本的には成り立つからです。
Robustnessとvalidityの評価は妥当か
Jaccard scoreが0.575
ARIが0.493
が十分と言えるか。
これは十分な知識・経験が自分になくわかりません。
が、それぞれの意味を考えると自信満々に「大丈夫」とは言えない気がします。
結論
HFrEFのRCT参加集団について、clusteringで同定されたサブグループがβ遮断薬の効果についてEMMが認められた。
個人的にはclinical implicationが不明瞭。
ではまた。