このページの翻訳:
  • ja

因果推論

因果推論とは

  • 因果推論は因果関係を科学するのものではなく「因果効果」を推定するもの
    • 「$X$ は $Y$ の“原因”なのか?」という「ともすると哲学的な問い」に答えるものではない
    • $X$ を変えると $Y$ はどのくらい変わるか?」を調べるものである.
      • つまり介入がなければ因果は想定できない.
      • no causation without manipulation” by Rubin
  • これはあくまで集団レベルの定義である.仮想的な介入下での平均アウトカムを比較するものである.
    • 注意すべきは,注目している集団によって介入効果が違う可能性があるという点
      • 〜〜において XXX が YYY に与える効果」という解釈が重要.Causal Estimand.
  • ランダム化が必須だ!という厳しい因果警察もいるが,因果推論は実世界の集団においてその介入をするかどうかの意思決定をサポートするものである
    • ギチギチに条件付けした「特殊な集団」における限定的な因果効果に意味があるか
    • 条件付け後の未測定交絡によるバイアスがどの程度「深刻」で,結論をひっくり返すほどか?という考え方が重要
  • 観察研究でも,Target Trial Emulationなどで模倣的に RCT に近づける工夫はされるようになってきている.

用語の整理

アウトカム:連続値 $Y$Outcome ≒ Endpoint ≒ Dependent Variable
曝露因子:二値変数 $A$ Exposure ≒ Treatment ≒ Explanatory Variable/Independent Variable
共変量 $L$Covariates ≒ Adjustment variables
期待値 $E\left[ Y\right] $母集団全体における $Y$ の期待値.
e.g. $E\left[ \text{BP} \right]$ は,母集団全体における血圧の期待値 Estimand.
これをサンプル全体の血圧の平均 (=Estimator) で推定したい
条件付き期待値 $E\left[ Y|L\right] $共変量 $L$ が同じ値の人における $Y$ の期待値
e.g. $E\left[ \text{BP} |A=1,\text{sex} =0\right]$ は,母集団のうち曝露因子Aに曝露した女性における血圧の期待値.これも「サンプルの中での曝露あり女性」での平均血圧 (=Estimator)から推定したい
  • $A$ は連続変数でもよい

因果推論もどき

変数名回帰係数 β 95%CI P-value
A2.22.1-2.30.01
B1.10.9-1.30.13
C2.11.7-2.30.02
D0.70.3-1.20.08
  • 気になる変数を全部入れて多変量回帰分析したら,変数AとCは「回帰係数が統計的に有意!」
    • これでは意味なし.冷静に数式を考える

$$ E\left[ Y|A,B,C,D\right] =\beta_{0} +\beta_{1} A+\beta_{2} B+\beta_{3} C+\beta_{4} D $$

  • ここで,たとえば A における回帰係数 $\beta_{1}$が何を意味しているかというと

$$ \beta_{1} = E\left[ Y|A=1,B,C,D\right] -E\left[ Y|A=0,B,C,D\right] $$

  • この数字に何か意味をつけて解釈できるか?
  • 推定しているのはあくまで「条件付き期待値」の差である.
  • 実際には $B$, $C$, $D$ の DAG がうまく想起できないことがほとんど(そもそも全て効果があるかもしれないが確信も持てないというモチベーションで回帰分析に入れているはず)であり,他の交絡因子の有無も不明で,$A$との関連も独立なのかどうか,中間因子になっていないかなども不明.どう考えても Conditional Exchangeability の成立は難しい.

調整変数の推定結果

  • 調整変数の推定結果は因果効果ではない.
    • その他の変数を条件付けた期待値の比較にすぎない
    • その変数に対する conditional exchangeability を成立させて作ったモデルでない限り,因果的解釈はできない
  • これが有名な the Table 2 Fallacy 問題1)

Causal Roadmap

  • 知りたい「効果」と統計手法の出す「推定値」のミスマッチに気を付ける
Step1Set the “Causal Estimand”どんな効果を知りたいのか定義する
Step2Identificationデータから効果を知るための条件を考える(効果の識別)
Exchangeability, Consistency, Positivity の3条件.
それらの条件が満たされない場合,満たす条件を考えた上で(“調整“して)比較する.
Step3Estimation実際にデータから求めたい値を計算する(推定)
  1. $E\left[ Y^{a=1}|L\right] -E\left[ Y^{a=0}|L\right]$(causal estimand の設定)
  2. $E\left[ Y|A=1,L\right] -E\left[ Y|A=0,L\right] $ (効果の識別,identification)
  3. $E\left[ Y|A=a,L\right]$ を estimation:
    • 純粋に計算する.$L$ が同じかつ $A=a$の人における $Y$ の平均をみる
    • 回帰モデルに当てはめる
  • 回帰分析,標準化,傾向スコア,自然実験……推定結果は異なるものが得られるかもしれない.
    • 問いを明確にすること「どのような対象集団における効果か」「仮想的な介入は?」「仮定は何を置いているか」「モデルは何か」「Causal contrastは?」ロードマップに沿って考える
    • 各手法の仮定,Estimand をよく理解すること

1. Causal Estimand

  1. 母集団は何を見ているか
  2. 母集団のなかで,Marginal effectを見ているのか,Conditional effectを見ているのか
/曖昧に定義された母集団2)サンプリングに基づく母集団への推論
Conditional/重回帰分析,傾向スコア層化・調整
MarginalRCT,傾向スコアマッチング,自然実験IPTW,標準化,g-formula
  • 調整変数による効果修飾があるのか
  • 母集団間の修飾因子の分布の違い
  • 推定値が一致しないのは,異なる問いに対する答えになっているだけかもしれない
    • また感度分析も,本来違う causal estimand を考えるもの同士で行って結果が同じになったからといって頑健性を高めるものとは言えない(傾向スコアマッチング vs 傾向スコアIPTWもそう).
  • 参考:Kurth et al (2006) 3)

2. Identification

Exchangeability

/ExchangeabilityConditional Exchangeability
仮定の実証が不可能自然実験重回帰分析,傾向スコア,IPTW,標準化
仮定の成立が確率的に期待できるRCT/
  • Exchangeability において何かしらの仮定を置いているということは全て同じ
    • conditional exchangeability を担保するという点では,重回帰分析だろうが傾向スコアだろうが同じ
    • また自然実験が重回帰分析に必ずしも優れるとは限らない.質的に異なる仮定に依存しているだけ.
    • 測定された変数を条件づけると,conditional exchangeability が成立する
      • これはドメイン知識に基づいた仮定であり,正しいことの証明は不可能.
      • DAGで仮定を可視化し議論しやすくすることはできる.
  • RCT は割り付け時点では理論上 Exchangeabilityが成立しているはずだが,その後の追跡期間の Lost-to-follow-upなどで限定される

Positivity & Consistency

/Positivity (+) Positivity (-)
Consistency(+)RCT/
Consistency(-)傾向スコアマッチング重回帰分析,傾向スコア層化・調整,IPTW,標準化
  • 傾向スコアマッチングは Positivity を担保できるのが利点の1つ(両端を切り落とす)
    • 傾向スコア IPTW でも極端な重みづけになるケースを除外するなどで対応可
  • RCTは,実際に介入するので Consistency 成立が見込める(薬剤のdoseが指定されていないなど,事前のデザインが悪い場合は成立しない)

3. Estimation

/アウトカムモデル曝露モデル
RCTなしなし
重回帰分析ありなし
傾向スコア層化なしあり
傾向スコア調整単純(PSのみの調整)あり
傾向スコアマッチなし(モデルに組み入れてもよい)あり(誤設定確認がしやすい)
IPTW単純4)あり
標準化ありなし
  • 異なるモデルの仮定を置いているため,当然答えも異なる

Null result の解釈

  • 治療効果のエビデンスが得られなかったとき
    1. 本当に効果がない sharp null
    2. 平均因果効果はない(→効果の異質性が大きいが,一部の集団には非常に効く)
    3. 統計的な検出力不足
    4. 見ている「仮想的な介入」がうまく設定できていない
      • どうやって,だれに,どう比較するのか
      • Well-defined Intervention, Causal Contrast

因果効果を明確に定義しよう

  • 「BMI30以上であること」という曝露因子を考える意味は?
    • もし全員のBMIが30未満だったら…どの程度の死亡リスクか…という因果効果は因果推論の対象として良くない
    • そもそもどうやって介入するのか?選択肢が無数にある(運動・食事・薬剤・外科手術)
      • 介入が一意に定まらない = “Ill-defined intervention5)
      • 推定値としては得られても,その解釈が難しい
  • Consistency (SUTVA) 違反になる
    • 人種,社会属性のみならず「XXスコア」みたいなものも難しい

観察データで見ている介入は「治療の開始」ではない

  • 観察研究では「いま治療を受けている人」vs「いま治療を受けていない人」の比較になっていたりする
  • 「治療開始」による効果を見ることができていない可能性が高い
    • prevalent user bias が起きる
  • 統計的には以下のデザインで解決を試みることはできる
    • Target trial emulation
    • ベースライン前曝露の条件付けを行う

Causal contrast

  • エンドポイントをどう適切に設定するか
    • 従来は仮想的介入下での平均アウトカムの比較を行ってきたが,最近はアウトカムで分布がどう変わるかに着目する手法もある
      • 分位点回帰など
  • 集団レベルで介入する方法
  • 「継続した複数時点での介入」には G-methods
    • 時間依存性曝露の因果推論 time-varying effect は難しい
    • G-methods; G-formula, IPW for a marginal structural model, G-estimation of a structural nested model, TMLE
  • 一時点の介入ではなく継続的な介入の効果をみるという意味で解析として価値がある
  • 追跡中に曝露状態が変化することはリアルワールドでも良くある
  • 効果の異質性の問題も
1)
Westreich D, Greenland S. The table 2 fallacy: presenting and interpreting confounder and modifier coefficients. Am J Epidemiol. 2013;177(4):292-298. DOI, Pubmed, PMC3626058
2)
誰に対する効果なのかいまいちハッキリしない.対象が準母集団化している.
3)
Kurth T, Walker AM, Glynn RJ, et al. Results of multivariable logistic regression, propensity matching, propensity adjustment, and propensity-based weighting under conditions of nonuniform effect. Am J Epidemiol. 2006;163(3):262-270. DOI, pubmed
4)
marginal structural model
5)
Hernán MA, Taubman SL. Does obesity shorten life? The importance of well-defined interventions to answer causal questions. Int J Obes (Lond). 2008;32 Suppl 3:S8-S14. DOI, pubmed