meta data for this page
このページの翻訳:
- ja
因果推論
因果推論とは
- 因果推論は因果関係を科学するのものではなく「因果効果」を推定するもの
- 「$X$ は $Y$ の“原因”なのか?」という「ともすると哲学的な問い」に答えるものではない
- 「$X$ を変えると $Y$ はどのくらい変わるか?」を調べるものである.
- つまり介入がなければ因果は想定できない.
- “no causation without manipulation” by Rubin
- これはあくまで集団レベルの定義である.仮想的な介入下での平均アウトカムを比較するものである.
- 注意すべきは,注目している集団によって介入効果が違う可能性があるという点
- 「〜〜において XXX が YYY に与える効果」という解釈が重要.Causal Estimand.
- ランダム化が必須だ!という厳しい因果警察もいるが,因果推論は「実世界の集団においてその介入をするかどうかの意思決定」をサポートするものである
- ギチギチに条件付けした「特殊な集団」における限定的な因果効果に意味があるか
- 条件付け後の未測定交絡によるバイアスがどの程度「深刻」で,結論をひっくり返すほどか?という考え方が重要
- 観察研究でも,Target Trial Emulationなどで模倣的に RCT に近づける工夫はされるようになってきている.
用語の整理
アウトカム:連続値 $Y$ | Outcome ≒ Endpoint ≒ Dependent Variable |
曝露因子:二値変数 $A$ | Exposure ≒ Treatment ≒ Explanatory Variable/Independent Variable |
共変量 $L$ | Covariates ≒ Adjustment variables |
期待値 $E\left[ Y\right] $ | 母集団全体における $Y$ の期待値. e.g. $E\left[ \text{BP} \right]$ は,母集団全体における血圧の期待値 Estimand. これをサンプル全体の血圧の平均 (=Estimator) で推定したい |
条件付き期待値 $E\left[ Y|L\right] $ | 共変量 $L$ が同じ値の人における $Y$ の期待値 e.g. $E\left[ \text{BP} |A=1,\text{sex} =0\right]$ は,母集団のうち曝露因子Aに曝露した女性における血圧の期待値.これも「サンプルの中での曝露あり女性」での平均血圧 (=Estimator)から推定したい |
- $A$ は連続変数でもよい
因果推論もどき
変数名 | 回帰係数 β | 95%CI | P-value |
A | 2.2 | 2.1-2.3 | 0.01 |
B | 1.1 | 0.9-1.3 | 0.13 |
C | 2.1 | 1.7-2.3 | 0.02 |
D | 0.7 | 0.3-1.2 | 0.08 |
- 気になる変数を全部入れて多変量回帰分析したら,変数AとCは「回帰係数が統計的に有意!」
- これでは意味なし.冷静に数式を考える
$$ E\left[ Y|A,B,C,D\right] =\beta_{0} +\beta_{1} A+\beta_{2} B+\beta_{3} C+\beta_{4} D $$
- ここで,たとえば A における回帰係数 $\beta_{1}$が何を意味しているかというと
$$ \beta_{1} = E\left[ Y|A=1,B,C,D\right] -E\left[ Y|A=0,B,C,D\right] $$
- この数字に何か意味をつけて解釈できるか?
- 推定しているのはあくまで「条件付き期待値」の差である.
- Conditional Exchangeability の仮定が成立して初めて,因果効果として解釈できるようになる
- 実際には $B$, $C$, $D$ の DAG がうまく想起できないことがほとんど(そもそも全て効果があるかもしれないが確信も持てないというモチベーションで回帰分析に入れているはず)であり,他の交絡因子の有無も不明で,$A$との関連も独立なのかどうか,中間因子になっていないかなども不明.どう考えても Conditional Exchangeability の成立は難しい.
調整変数の推定結果
- 調整変数の推定結果は因果効果ではない.
- その他の変数を条件付けた期待値の比較にすぎない
- その変数に対する conditional exchangeability を成立させて作ったモデルでない限り,因果的解釈はできない
- これが有名な the Table 2 Fallacy 問題1)
Causal Roadmap
- 知りたい「効果」と統計手法の出す「推定値」のミスマッチに気を付ける
Step1 | Set the “Causal Estimand” | どんな効果を知りたいのか定義する |
Step2 | Identification | データから効果を知るための条件を考える(効果の識別) Exchangeability, Consistency, Positivity の3条件. それらの条件が満たされない場合,満たす条件を考えた上で(“調整“して)比較する. |
Step3 | Estimation | 実際にデータから求めたい値を計算する(推定) |
- $E\left[ Y^{a=1}|L\right] -E\left[ Y^{a=0}|L\right]$(causal estimand の設定)
- $E\left[ Y|A=1,L\right] -E\left[ Y|A=0,L\right] $ (効果の識別,identification)
- $E\left[ Y|A=a,L\right]$ を estimation:
- 純粋に計算する.$L$ が同じかつ $A=a$の人における $Y$ の平均をみる
- 回帰モデルに当てはめる
-
- 問いを明確にすること「どのような対象集団における効果か」「仮想的な介入は?」「仮定は何を置いているか」「モデルは何か」「Causal contrastは?」ロードマップに沿って考える
- 各手法の仮定,Estimand をよく理解すること
1. Causal Estimand
- 母集団は何を見ているか
- 母集団のなかで,Marginal effectを見ているのか,Conditional effectを見ているのか
/ | 曖昧に定義された母集団2) | サンプリングに基づく母集団への推論 |
---|---|---|
Conditional | / | 重回帰分析,傾向スコア層化・調整 |
Marginal | RCT,傾向スコアマッチング,自然実験 | IPTW,標準化,g-formula |
- 調整変数による効果修飾があるのか
- 母集団間の修飾因子の分布の違い
- 推定値が一致しないのは,異なる問いに対する答えになっているだけかもしれない
- また感度分析も,本来違う causal estimand を考えるもの同士で行って結果が同じになったからといって頑健性を高めるものとは言えない(傾向スコアマッチング vs 傾向スコアIPTWもそう).
- 参考:Kurth et al (2006) 3)
2. Identification
Exchangeability
/ | Exchangeability | Conditional Exchangeability |
---|---|---|
仮定の実証が不可能 | 自然実験 | 重回帰分析,傾向スコア,IPTW,標準化 |
仮定の成立が確率的に期待できる | RCT | / |
- Exchangeability において何かしらの仮定を置いているということは全て同じ
- RCT は割り付け時点では理論上 Exchangeabilityが成立しているはずだが,その後の追跡期間の Lost-to-follow-upなどで限定される
Positivity & Consistency
/ | Positivity (+) | Positivity (-) |
---|---|---|
Consistency(+) | RCT | / |
Consistency(-) | 傾向スコアマッチング | 重回帰分析,傾向スコア層化・調整,IPTW,標準化 |
- 傾向スコアマッチングは Positivity を担保できるのが利点の1つ(両端を切り落とす)
- 傾向スコア IPTW でも極端な重みづけになるケースを除外するなどで対応可
- RCTは,実際に介入するので Consistency 成立が見込める(薬剤のdoseが指定されていないなど,事前のデザインが悪い場合は成立しない)
3. Estimation
/ | アウトカムモデル | 曝露モデル |
---|---|---|
RCT | なし | なし |
重回帰分析 | あり | なし |
傾向スコア層化 | なし | あり |
傾向スコア調整 | 単純(PSのみの調整) | あり |
傾向スコアマッチ | なし(モデルに組み入れてもよい) | あり(誤設定確認がしやすい) |
IPTW | 単純4) | あり |
標準化 | あり | なし |
- 異なるモデルの仮定を置いているため,当然答えも異なる
Null result の解釈
- 治療効果のエビデンスが得られなかったとき
- 本当に効果がない sharp null
- 平均因果効果はない(→効果の異質性が大きいが,一部の集団には非常に効く)
- 統計的な検出力不足
- 見ている「仮想的な介入」がうまく設定できていない
- どうやって,だれに,どう比較するのか
- Well-defined Intervention, Causal Contrast
因果効果を明確に定義しよう
観察データで見ている介入は「治療の開始」ではない
- 観察研究では「いま治療を受けている人」vs「いま治療を受けていない人」の比較になっていたりする
- 「治療開始」による効果を見ることができていない可能性が高い
- prevalent user bias が起きる
- 統計的には以下のデザインで解決を試みることはできる
- Target trial emulation
- ベースライン前曝露の条件付けを行う
Causal contrast
- エンドポイントをどう適切に設定するか
- 従来は仮想的介入下での平均アウトカムの比較を行ってきたが,最近はアウトカムで分布がどう変わるかに着目する手法もある
- 分位点回帰など
- 集団レベルで介入する方法
- 「継続した複数時点での介入」には G-methods
- 時間依存性曝露の因果推論 time-varying effect は難しい
- G-methods; G-formula, IPW for a marginal structural model, G-estimation of a structural nested model, TMLE
- 一時点の介入ではなく継続的な介入の効果をみるという意味で解析として価値がある
- 追跡中に曝露状態が変化することはリアルワールドでも良くある
- 効果の異質性の問題も