External validationの方法いろいろ【まとめ】

予測モデルのvalidationというのは、そのデータ内で行うもの(internal validation)だけではありません。

むしろ、そのデータ外でどの程度通用するかというのが一番大事です。

これは予測モデルの「test」の話ですが、疫学的な側面もあります。

この記事では、external validationの種類と特徴について概説していきます。

 

 

External validationの方法いろいろ

External validationの方法いろいろ

External validationの「そのデータと関係あるであろう集団」というのは、やや曖昧な表現です。

ここら辺は専門的な意見が必要となります。

*例えば心筋梗塞の予測モデルで、「カテーテル治療を受けたことがある人」がいない集団の予測モデルは、どの程度臨床的に意義があるか、といった観点です。あんまり意味なさそうですよね。

 

External validationの種類は、以下の「transportability」を判断する事がポイントとなります。

temporal:時間

geographical:場所

methodological:データ収集の方法

spectrum:同じカテゴリーだが少し異なる集団(病勢が異なるなど)

これらが異なる場合の外的妥当性の評価、というのがexternal validationです。

 

*当然ですが、external validationをするには、それ用のデータが必要です。

そういう観点では、data splittingをしていると捉えることもできます。

しかしinternal validationのdata splitting(ランダム)と異なり、external validationの場合は「作為的に意味のあるデータの分け方をする」事になります。

 

*この記事とInternal validationの記事は、「Clinical prediction models(2019)」という教科書を参照しています。

 

 

Temporal validation

時間で分ければOKです。

例えば2000-2010年のデータで予測モデルを作り、2011-2019年のデータで評価する、など。

 

重要なポイントは、それぞれ見ているものが同じである事が前提である、という点です。

例えば:

ある病気の発症がアウトカムの場合。診断基準なんかはしょっちゅう変わるので、2000年と2015年で診断されたものとは異なる場合の方が多いですよね。

予測因子も、例えばバイオマーカー値を用いるときは、そのアッセイが変わっていないかはとても重要。

 

これらはかなりコアなポイントで、外すと予測モデルが何を見ているか意味不明になります。

こういうポイントは結構医者しかわからなかったりするので、純粋なエンジニアだけの集団による臨床研究が難しい所以でもあります。

必ず抑えて下さい。

 

 

Geographic validation

これは例えば病院間でのvalidation、といった感じです。

cross validationのように行うこともできます。「leave-one-center-out CV」という事です。

 

ただ、これにも問題が多いです。

・サンプル数がかなり少なくなりうる

→他施設の共同研究が対象となりますが、経験ある方はわかると思いますが、非常に登録者数の少ない施設、というのは必ず存在します。そしたらこの方法でvalidationするのは難しいです。

・解釈が難しい

→例えば作ったモデルが、病院1では予測能が高かったけど、病院2では低かった場合。その通りに解釈することはできません

→それが「病院間のheterogeneityを原因とする」ということができないからです。偶然の可能性が高いです。

→ただ一方、実際に何かしらを意味している可能性もあります。

→ここら辺は、専門的な考え方が必要です。

 

 

External validationでは概して予測モデルの性能が悪い

一番信頼できるvalidationは、全く別のコホートでのvalidation。

Fully independent validationといいますが、この場合モデルの予測能は概して悪いです。

この理由はたくさん考えられます。

例えば:

・サンプル数が少ない

・measurement errorの影響(人間を相手にしている以上、避けては通れません)

・validationで全ての予測因子が使えない(割としょっちゅうあります)

・予測因子やアウトカムが画一的な評価の結果となっていない(医者によって診断結果に差があったりしますよね)

・モデル構築過程が良くない(統計解析の問題)

・オリジナルの集団とvalidationの集団に、本当の何かしらの違いがある

 

ということで、問題は山積みです。

でもExternal validationこそが重要なのは言うまでもありません。

まず大事なのは、そもそもデータを集約化し、大規模な構造化データを作ることでしょう。

 

 

結論

External validationの種類は色々あるが、概してモデルの予測能は悪くなる。

問題が山積み。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2020 All Rights Reserved Powered by AFFINGER5.