このページの翻訳:
  • ja

DAG

  • Directed Acyclic Graph (DAG)
  • 完璧な DAG は誰にもわからない.
    • が,仮定の可視化・批判的吟味のコミュニケーションツールとして有用
    • DAGを描こうが描くまいが,回帰分析をしている時点で仮定は置いているはず.その議論を円滑化する手法として考える.

DAGの原則

  • 要因間の関係性を図で整理する
  • 点 Node と 矢印 Edges で構成
  • 点は変数(アウトカムや曝露因子)
  • 矢印は一方向にしか書かない (= Acyclic)
    • 左から右に時間が流れるように書くのが望ましい(必須ルールではない)
    • 同じ喫煙や飲酒でも「ある時点」を意識することで一方向性に書く(双方向性の矢印は生まれない)
  • 直接矢印で結ばれている場合に「因果効果あり」と考える

DAGに基づく変数選択

  • 交絡因子は調整するが,共通効果,中間因子は調整しない
  • これは DAG を実際に書いてみないと判断できず,またドメイン知識(医学専門知識や先行研究の知見)を要する
    • 全部突っ込んでステップワイズは最悪

DAGのルール

1) 共通原因は裏口経路になる


  • 上の DAG において,Z は X と Yの共通原因 common cause
  • X と Y の間に本来因果効果はないが,統計的関連(交絡)が生じる
  • これを backdoor path(裏口経路)という
    • Z を条件づける(四角で囲む)ことで,裏口経路を閉じることができる

2) 共通の効果を条件づけると裏口経路になる


  • 上の DAG において, $C$ は $X$ と $U$ の共通効果(common effect; collider)
    • 学歴($X$)と仕事のパフォーマンス($Y$)の関連をみる
    • この2つは本来あまり関係がなさそうだが,Google社内で評価してしまうと?
    • Google社員($C$),$U$(コミュ力やいろんな要素)とすると
    • Google社内で $X$ が低いということはおそらく別の要因で採用されており,その要因は $Y$ に影響を与えてしまう
  • X と未測定変数 U の関連は,そのままであれば生じない
  • が,C を 条件づけることによって関連が生じてしまう
    • Cの値が同じ人だけを対象に分析するということになり,バイアスになる(Collider Stratification Bias)
    • 一種の選択バイアスではあるが,ここではむしろ一般化可能性(外的妥当性)の問題というより,そもそも因果効果を正しく推定できない(=内的妥当性の)問題になる

選択バイアスの例

  • RCTにおいても,選択バイアスが生じるシナリオは多数ある
    1. 追跡の失敗 Loss-to-follow-up
    2. 競合リスク Competing Risk
    3. サンプリング方法
    4. 欠測データ Missing Date
    5. 自己選択 Self-Selection
  • 詳しくは Hernan,et al. 2004 “A Structural Approach to Selection Bias”1)

3) 中間因子を条件づけると過調整になる


  • M は曝露効果の中間因子・媒介因子 Mediator になっている
  • ここで M を条件づけると,M を経由した間接効果がブロックされてしまう
    • Mを経由しない直接効果をどうしても推定したい場合には有用
    • ただし多くの場合,全体的な効果を見たいことが多く,過小推定になる

参考文献

  • Glymour, M, Maria. “Using causal diagrams to understand common problems in social epidemiology.” Methods in social epidemiology (2006): 393-428.
1)
Hernán MA, et al. A structural approach to selection bias. Epidemiology. 2004;15(5):615-625.PMID:15308962, DOI