このページの翻訳:
  • ja

信頼区間

定義

  • 95%CI (confidence interval)
  • SE; standard error: 標準誤差

$$ 95\% CI=\text{標本平均} \pm 1.96SE $$

  • ただし上記をそのまま使って良いのはLinear regression(線形回帰)の場合のみ
  • Logistic regression や COX proportional modelでは以下

$$ 95\% CI=exp\left( \text{標本平均} \pm 1.96SE\right) $$

解釈1

  • 「同じ母集団から同じ研究(標本調査)を100回繰り返し行った時,それぞれの研究で算出された95%信頼区間100個のうち95個の間に,真値が含まれる」
    • しかし現実に「同じ研究」が100回行われることは当然ない
    • そのため自分の研究で得られた「95%信頼区間」が,その100の95%信頼区間のうちどの線なのかは,誰にもわからない.
    • 自分の研究で得られた 95%信頼区間は,真値を含むかもしれないし,含まないかもしれない
  • 上記は平易な入門書など初学者向けに語られる解説の1つだが,かえってややこしい

解釈2

  • 「95%CI は p > 0.05 を満たす推定値の集合」
    • 「効果はゼロである(=帰無仮説が正しい)」という仮説検定とは違って,信頼区間の計算は「効果はaである」(aは具体的な数値)の型の仮説達の各々について一挙に検定を行うことと同じ
    • つまり信頼区間は「効果として棄却されない推定値 a 全体の集合」を示す
      • たとえば 95%信頼区間であれば,単に仮説θ=θ₀が有意水準5%で棄却されないようなパラメータ値θ₀全体の集合と解釈する
      • その中にnull値,つまり「効果の差=0」ないし「効果の比=1」を含むのであれば,それらの推定値が棄却されないということになり,P=0.05 で「有意差なし」と判定するのと同じ意味
    • なお信頼係数95%は単に有意水準として5%を選んだことを意味するに過ぎない
    • ここで言えば「有意水準 α %で棄却されない推定値 aの集合」=「(100-α)%信頼区間」
      • ここでの(100-α)%は確率なのか割合なのか,といった議論はあまり本質的なものではない1)
  • 以上が検定と信頼区間の表裏一体性に基く信頼区間の解釈

棄却されない=判定を保留する推定値の集合

  • 仮説検定において「有意差なし判定」つまり「棄却されない(有意水準0.05で p>0.05となる)こと」は「その仮説の成否について判断を保留するべきである」というだけの意味である
    • 「仮説 θ=θ₀ のP値が α 以上ならば、仮説 θ=θ₀ の正否に関する判断を保留する」
    • 「有意差なし」は「母集団では本当に差がない(真実として差=0や比=1である)」ことを文字通りに意味するわけではない.用いた統計モデルと手元のデータからは「母集団では本当に差がない」のだとしても矛盾はない(=compatible)ということである
      • この仮説検定の基本解釈は,そのまま信頼区間にも適用される
  • 信頼区間については「含まれる効果の値aについての判断を保留する」ことになる
    • 今回用いた(種々の必要条件を有する)統計モデルとその推定値は矛盾ない(=compatible)ということ
      • 信頼区間に含まれるパラメータ値は「判断を保留するパラメータ値」でしかない
      • 母数はそれらの値を取ることはあるかもしれないし,ないかもしれない
    • 特定の統計モデルと,手元の標本データと,95%信頼区間に含まれる「それらの数値」は矛盾しない(=compatible)
  • 信頼区間に含まれる値について,この「判断を保留」というニュアンス以上に何か強い結論を述べてしまうのは間違い
    • たとえば null値を含む信頼区間が得られたからと言って,「効果が0である」ということを結論にするのは誤り.
      • 実際には null 値を含む信頼区間の多くは,実用上重要性の高い非 null値も含む
        • たとえば ハザード比の信頼区間が [0.8-3.5] であったとして,このとき null値 HR=1を含むが,HR=3 という臨床的インパクトの大きい数値もまた棄却されない.このことを考えれば「効果はない」と結論することが誤っている可能性は当然想定すべきである.
    • ただし,ここで区間内のすべての値が実用上重要でないと判断されるレベルであれば「我々の結果は重要な効果がないことと最も適合している most compatible」という説明を行うことは妥当である
      • たとえば HR 1.1 [0.9-1.2] といった結果のときがこれに該当する
    • また閾値αの選択が目的に合わせて適切であれば,αの大きさに応じた危険度を承知した上で,信頼区間に含まれないパラメータ値は「データと整合性 compatibility がなさ過ぎる」という理由で捨て去る判断をすることはありうるだろう(=従来型の仮説検定と同じこと)
      • しかし信頼区間の限界値の「すぐとなりの値」がいきなり捨て去られるという二値的判断にはやはり限界がある

適合性区間 compatible intervals

  • 要するに「捨て去られずに残ったパラメータ値達」が信頼区間を構成しているのである
  • それらの推定値は「手元のデータ及び今回使用した統計モデルと矛盾しない・両立する(=compatible)」ものであり,それ以上でも以下でもない.それゆえ,compatible intervals と言った方が自然かもしれない
    • confidence intervals などという名前だから「自信過剰」になってしまうのではないか?
      • 信頼区間を文字通り「信頼」するのはやめよう
    • 適合性 compatibility はむしろ古くからある統計学の概念であり,データと仮説・モデルとの間の協和性 consonance(Folks, 1981),整合性 consistency(Cox, 1977)とも呼ばれてきた

この名称を用いる利点1

  • この名称を用いる大きな利点は,区間に含まれる具体的な仮説(効果量の値)に注意を向けさせることである.
    • 区間に含まれる値の広がりに注目することで,「効果なし」という帰無仮説は区間内の多くの合理的な可能性の1つとして議論できるし,そうされるべきである.
    • これにより「差なし」「効果なし」と誤って宣言することを避けることができる2)
A major advantage of using confidence intervals as compatibility intervals is that it directs our attention to the concrete hypotheses (effect size values) included in the interval, rather than encouraging blurry statements like ‘uncertainty is high’ or ‘low’ (Greenland, 2019b). A focus on the spread of the values contained in the interval helps avoiding falsely declaring ‘no difference’ or ‘no effect’, because the hypothesis of no effect can (and should) be discussed as but one of the many reasonable possibilities inside the interval.

この名称を用いる利点2

  • また,区間を記述することは,点推定値(観察された関連性)を強調しすぎることを避けるのに役立つ.
    • データは点推定値として得られた効果量 effect size に最も適合している most compatible が,同じ背景モデルのもとで,他の多くの効果量にも合理的に適合している reasonably compatible ことが明示される3)
As a further important benefit, describing the interval helps to avoid putting too much emphasis on the point estimate (the observed association). Although the data are most compatible with the effect size given by the point estimate, the interval will usually show that, under the same background model, the data are also reasonably compatible with many other effect sizes.

二値的判断の限界

  • 仮説検定にしろ信頼区間にしろ,結局「ある閾値αでぶった切る」という乱暴なことをしている点は同じである
  • 科学と無関係に社会的実践では「やるか?やらないか?」の2値的な判断が必要になるので仕方がないところもある
    • しかし実践に直結しない事柄など,2値的情報に縮小する必然性がない場合もある
    • そのような場合には,「効果=0」という帰無仮説のみでなく「効果=a」というあらゆる仮説におけるP値を関数的に扱って(=P値関数),その情報をそのまま読者に提供するという方法が提案できるのではないか?

区間推定が不可能な場合

  • 区間推定ができないような効果指標もあるが,そのようなものを選んで解析を行うこと自体,本来は避けた方が良い
    • そもそも「効果の曖昧さ」を定量して曖昧なまま受け入れるための推測統計であったはずである
    • 効果量が推定できないのであれば,効果指標として不適切である
  • 一般にノンパラメトリック検定と呼ばれている方法をそのまま単純に用いると「効果指標 θ=θo である」という仮説群を扱うことにならない
    • そのため効果の指標に関する科学的分析としては不適切である
  • 特に,効果の大きさと方向を見積もることと無関係に,単に「有意差を出すため」の検定法選択を行うことはナンセンスである
    • このような議論は端的に「“推定”のほうが“検定”よりも重要である」などと表現される
      • 有意か有意でないかを判定するためだけの「仮説検定」に重きを置くのではなく,実際の効果量の推定の幅について議論しよう──という至って当然の議論である

参考

  • “Methodology of superiority vs. equivalence trials and non-inferiority trials” J Hepatol. 2007 May;46(5):947-54. DOI
  • “95%信頼区間とは?” 解説動画(平易) Youtube
1)
解釈1に基づくなら割合とも取れるが
2) , 3)
【CC-BY】Amrhein, V., & Greenland, S. (2022). Discuss practical importance of results based on interval estimates and p-value functions, not only on point estimates and null p-values. Journal of Information Technology, 37(3), 316–320. DOI