stats:causal:dag
DAG
- Directed Acyclic Graph (DAG)
- 完璧な DAG は誰にもわからない.
- が,仮定の可視化・批判的吟味のコミュニケーションツールとして有用
- DAGを描こうが描くまいが,回帰分析をしている時点で仮定は置いているはず.その議論を円滑化する手法として考える.
DAGの原則
- 要因間の関係性を図で整理する
- 点 Node と 矢印 Edges で構成
- 点は変数(アウトカムや曝露因子)
- 矢印は一方向にしか書かない (= Acyclic)
- 左から右に時間が流れるように書くのが望ましい(必須ルールではない)
- 同じ喫煙や飲酒でも「ある時点」を意識することで一方向性に書く(双方向性の矢印は生まれない)
- 直接矢印で結ばれている場合に「因果効果あり」と考える
DAGに基づく変数選択
- 交絡因子は調整するが,共通効果,中間因子は調整しない
- これは DAG を実際に書いてみないと判断できず,またドメイン知識(医学専門知識や先行研究の知見)を要する
- 全部突っ込んでステップワイズは最悪
DAGのルール
1) 共通原因は裏口経路になる
- 上の DAG において,Z は X と Yの共通原因 common cause
- これを backdoor path(裏口経路)という
- Z を条件づける(四角で囲む)ことで,裏口経路を閉じることができる
2) 共通の効果を条件づけると裏口経路になる
- 上の DAG において, $C$ は $X$ と $U$ の共通効果(common effect; collider)
- 学歴($X$)と仕事のパフォーマンス($Y$)の関連をみる
- この2つは本来あまり関係がなさそうだが,Google社内で評価してしまうと?
- Google社員($C$),$U$(コミュ力やいろんな要素)とすると
- Google社内で $X$ が低いということはおそらく別の要因で採用されており,その要因は $Y$ に影響を与えてしまう
- X と未測定変数 U の関連は,そのままであれば生じない
- が,C を 条件づけることによって関連が生じてしまう
- Cの値が同じ人だけを対象に分析するということになり,バイアスになる(Collider Stratification Bias)
- 一種の選択バイアスではあるが,ここではむしろ一般化可能性(外的妥当性)の問題というより,そもそも因果効果を正しく推定できない(=内的妥当性の)問題になる
選択バイアスの例
- RCTにおいても,選択バイアスが生じるシナリオは多数ある
- 追跡の失敗 Loss-to-follow-up
- 競合リスク Competing Risk
- サンプリング方法
- 欠測データ Missing Date
- 自己選択 Self-Selection
- 詳しくは Hernan,et al. 2004 “A Structural Approach to Selection Bias”1)
3) 中間因子を条件づけると過調整になる
- M は曝露効果の中間因子・媒介因子 Mediator になっている
- ここで M を条件づけると,M を経由した間接効果がブロックされてしまう
- Mを経由しない直接効果をどうしても推定したい場合には有用
- ただし多くの場合,全体的な効果を見たいことが多く,過小推定になる
参考文献
- Glymour, M, Maria. “Using causal diagrams to understand common problems in social epidemiology.” Methods in social epidemiology (2006): 393-428.
1)
Hernán MA, et al. A structural approach to selection bias. Epidemiology. 2004;15(5):615-625.PMID:15308962, DOI
stats/causal/dag.txt · 最終更新: 2023/10/08 by admin