Regression Discontinuity Designのポイント【数式なし】

Regression discontinuity design (RDD),日本語では「回帰不連続デザイン」。

臨床研究ではそこまで普及してませんが、因果推論の手法としてはメジャーです。

知らないと何やってんだか意味不明ですが、知ってると、色々と応用できる可能性あり。

ただ間違えやすいポイントがあり、注意です。

この記事ではRDDについて、初学者向けにわかりやすく解説していきます。

 

 

Regression Discontinuity Designのポイント

Regression Discontinuity Designのポイント

観察研究で因果推論を行う手法の一つです。

「あるカットオフ」の前後で、「ある介入」が行われる頻度がガクッと変わる時、適用できる手法がこれ。

みたいのは、その介入とアウトカムの因果関係。

 

つまり主役が3つです。

✅カットオフの基準となる連続変数Z(Running variableと言います)

✅介入の有無を示す0-1変数T

✅アウトカムY

 

******

RDDの解説は、どんなものでも、最初にsharp RDとfuzzy RDという聞き慣れない用語からスタートします。

ここで躓く人多数(だと思ってます)。

 

でも難しいことなくて、

・sharp RD = カットオフの前後で、介入の頻度が0% vs. 100%

・fuzzy RD = カットオフの前後で、介入の頻度が0% vs. 100%ではない

というだけ。

 

なぜこれが大事かというと、そもそも求められるものが異なってくるからです。

では行ってみましょう!

 

 

Sharp RD

単純なケースです。

例えば、ある病院では

「腫瘍マーカーZが10以上なら必ず生検を行い(T=1)、10未満なら生検を行わない(T=0)」

というプラクティスが例外なく行われていたとします。

そしたら迷わずSharp RDデザインで研究をすべし!!!

 

我々の研究で、「生検→5年間のその癌による死亡」という因果関係を知りたいとします。

つまり、生検した方がよいのかどうなのか。

 

Sharp RDの場合、求められる効果は

「cutoffにおけるT→Yの効果」

です!

つまり腫瘍マーカーが10の人にのみ言及できる!!

めっちゃ限定的・・・・なのです。

 

求め方は:

1: Zのwindow(10から±ちょっと)を設定します

2: window内、10より上、10より下、それぞれで「Y ~ Z」という(普通の)linear regressionを行います

3: それぞれ、T=0 only、T=1 onlyのpopulationですね

4: そして、それぞれのregressionの「Z=10」の切片を求めます

5: その差こそが、Z=10における、T→Yの因果効果です。

 

簡単ですね!

 

 

Sharp RDのassumption

さて、なんで上のような方法で因果効果が求まるのでしょうか?

これは、Sharp RDのassumptionの基づきます。

それは、、、

Potential outcomeがカットオフ付近で、Running variableに対し連続

????????

 

そんな難しいことはありません。

step 1でwindowを設定しましたね。

例えば9.5~10.5だとします。

9.5~10は全員T=0、10~10.5が全員T=1です。

10~10.5で「もし全員T=0だったらのY」、というのがpotential outcomeです(観測されないoutcome)。

・「もし全員T=0だったらのY」が、9.5≤Z≤10.5で連続計測されている流れから途切れない

・「もし全員T=1だったらのY」が、9.5≤Z≤10.5で連続計測されている流れから途切れない

ということです。

 

このpotential outcomeが「途切れない」からこそ、

それぞれのregressionの「Z=10の切片」が、それぞれのpotential outcomeを示すわけで、

それらを比較してpotential outcomeの比較=因果効果が得られる、というわけです。

 

*便宜上windowでのcontinuous potential outcome、として説明してきましたが、どれくらい連続であれば良いかは知りません。

結局観測されないので、「カットオフあたりで連続する」ということが合理的かどうか、というのが議論のポイントになります。

例えば、明らかにカットオフの前後で性格の違うアウトカムのリスクが変化する場合、このassumptionは成り立ちません

=RDDは使えません。

今回の例の腫瘍マーカーは「生検の判断」のみに関わるので、このassumptionは成り立ちます。

 

 

Fuzzy RD

「腫瘍マーカーZが10以上なら80%生検を行い、10未満なら1%で生検を行う」

のようなシナリオがfuzzy RD。

まあ、ほとんどの場合fuzzy RDです。

じゃあなぜsharp RDを学ぶの??、というと、それがfuzzy RDの理解に必要不可欠だからです。

 

fuzzy RDで求められる効果はというと、

「カットオフにおける、compliersのT→Yの因果効果」

と、compliersに限定されることになります。

 

*complierについてはIV analysisのこの記事を参照いただきたいですが、

基本的には「もしZ>10ならT=1, Z<10ならT=0の人」という定義です。

もちろんZ>10かZ<10のどちらかしか観測されていないので、仮定の話。

 

******

この求め方は、基本的にIV analysisに基づきます。

IV analysisの記事をまずお読みください。

 

*すごく単純に言うと、これです:

instrument - outcome Yのassociation / instrument - exposure Tのassociation = compliersでのT→Yの因果効果

 

そしたら、

・Instrument: Z>10 or not

・exposure: T

・outcome: Y

としてIV analysisをやることを考えましょう。

 

ただしRDDなので、一般的なIV analysisとはちょっと違います。

・instrument - Yのassociation: sharp RDと同じく求めます(2つのregression→カットオフの切片の差)

・instrument - Tのassociation: これも同様(2つのregression→カットオフの切片の差)

・この2つを割ればOK!

 

と言うことでした。

 

 

Fuzzy RDのassumption

さて、大事なassumptionですが、3つあります。

continuous potential outcome(sharp RDのもの)

「Z>10 or not」がinstrumentである

monotonicity

 

2つ目、「Z>10 or not」がinstrumentである、について。

これはIV analysisと同様のアプローチを行うために必須です。

 

instrumentであるためには、以下の3つの条件が必要でした:

・instrumentとAは関連する(relevance)

・instrumentのYへの影響は必ずTを介する(exclusion restriction)

・instrumentとYの間にconfounderがない(independence)

 

「Z>10 or not」だけを考えると、2つ目のexclusion restrictionをviolateしそうです。

なぜなら、Zが高い vs 低いで、予後には介入の有無に関わらず関連しそうですよね(がんの進行具合を反映する、など)

ただ、ここでは「狭いwindow」において、のみを考えています

よって、そのカットオフがかなり恣意的でない限り、だいたいこれらの条件は満たされます。

 

3つ目のmonotonicityは、IV analysisで必要なassumptionでしたね。

Defierがいないということ。

これがあるから、IV analysisは計算可能で、かつその適応集団がcompliersのみになるのでした。

だから、fuzzy RDもcompliersにのみしか言及できません。

 

 

Local randomizationとは?

さて、これが間違えやすいポイントです。

local randomizationとは、

window内で、「Z>10の集団」と「Z<10の集団」で性質がほぼ同じ(ランダム化されていると考えられる)

という事です。

 

このlocal randomizationは、sharp RDにもfuzzy RDにも必要のないassumptionなのです!!!!

これが勘違いされやすいポイント!!

繰り返しますが、RDDにlocal randomizationは必要ありません!!

 

なお、local randomizationであれば、continuous potential outcomeと言えます(十分条件)。

 

******

local randomizationであるということは、

・9.5<Z<10でのT=0に関するregressionが10<Z<10.5に連続し(continuous potential outcome)、

10<Z<10.5でのpotential outcomeのregressionが9.5<Z<10のものと同じ形になる

ということを意味します。

 

つまり、local randomizationであれば、

fuzzy RDであったとしても複雑な工程を経る必要はなく

window内でT→Yのregressionを普通に行う事で、T→Yの因果効果が得られます。

 

ただ、local randomizationと考えられるか、ということを示すのはなかなか難しい。

適当に、色々な因子がp値>0.05だから、というのは全然だめ。

実際測定されていない因子もバランスされていなければならないので、実質locally randomだと示すのは無理かと思っています。

 

*観察研究で、如何によくmatchingされていても、それがRCTとして扱えるか、言い切れませんね。

それと同じです。

 

 

まとめ

Sharp RD→continuous potential outcome

Fuzzy RD→continuous potential outcome, Instrumentの条件, monotonicity

が必要で、

どちらとも「カットオフでの因果効果」がわかる。

Fuzzy RDでは、compliersに限定した効果がわかる。

local randomizationは必要ない。

ではまた。

-疫学・臨床研究

Copyright© Riklog , 2021 All Rights Reserved Powered by AFFINGER5.