内科のメモ帳

ずぼらな覚え書き

ユーザ用ツール

サイト用ツール


stats:p-value

P値

  • P値は手元のデータと統計モデルの適合性の良さ compatiblity の程度を示す指標である1)
    • P値が低いことは手元のデータがP値計算に用いた「統計モデル」と相性が悪いことを意味する
    • 「統計モデル」にはパラメータの値に関する仮説(=帰無仮説もその一種)が含まれる
      • 帰無仮説「効果=0」以外の具体的な「効果=x」全てについてもP値は算出可能で,それをグラフとして解釈することもできる(=P値関数
  • P値にしろ信頼区間にしろベイズ統計での事後分布や信用区間にしろ「現実の母集団に関する何かを表している」と性急に考えるべきではない
  • これらは全て「データの数値と統計モデルとの適合性(compatibility)の程度」を示しているに過ぎない
    • そもそも標本データの数値自体,大きくバイアスされたものかもしれない
    • また,統計モデルの選択自体が妥当でないかもしれない
      • 統計モデル自体が数学的フィクションに過ぎず,モデルと現実を混同すべきではない

ASA声明におけるP値の6原則

  1. P 値はデータと特定の統計モデル(訳注: 仮説も統計モデルの要素のひとつ)が矛盾する程度をしめす指標のひとつである.
  2. P 値は調べている仮説が正しい確率や,データが偶然のみでえられた確率を測るものではない.
  3. 科学的な結論や,ビジネス,政策における決定は P 値がある値(訳注: 有意水準)を超えたかどうかにのみ基づくべきではない.
  4. 適正な推測のためには,すべてを報告する透明性が必要である.
  5. P 値や統計的有意性は,効果の大きさや結果の重要性を意味しない.
  6. P 値は,それだけでは統計モデルや仮説に関するエビデンスの,よい指標とはならない.

意思決定とP値

  • P値や信頼区間 confidence interval をデータとモデルから計算しただけで「現実の母集団に関する結論が得られた」かのような自信過剰 overconfident になるべきではない

Overconfidentの問題

  • 統計学やP値は「科学的お墨付き」を与えるものではない
    • むしろ曖昧性とどう向き合うか?という視座を1つ与えてくれるものである
      • というより統計学はそもそも「曖昧さを受け容れろ」としか言ってくれないものである
  • すぐれた研究デザインとその実施という原則,多様な数値およびグラフによるデータの要約,研究対象である事象の理解,背景情報に基づく結果の解釈,すべてを報告すること,そしてデータの要約の意味の適正な論理的かつ定量的理解.この全てが重要.
    • P値や信頼区間といった「ひとつの指標」が科学的推論の代わりにはなることはありえない2)
      • つまり総合的な判断を合理的に下すしかない
  • 現実の母集団の話に繋げるためには,データやモデルと「現実の母集団」との関係性について丁寧な議論を行う必要がある(たとえば以下)
    1. 取得したデータはそもそも調べたい母集団をうまく代表しているのか?
    2. 使用した統計モデルは目的のために妥当であるか?
  • 以下は2019年 Nature に800人以上の科学者の署名を集めた有名なCommentより抜粋 3)
Inferences should be scientific, and that goes far beyond the merely statistical. Factors such as background evidence, study design, data quality and understanding of underlying mechanisms are often more important than statistical measures such as P values or intervals.「推論は科学的であるべきであり,それは単に統計的なものをはるかに超えるものである.背景となるエビデンス,研究デザイン,データの質,背景メカニズムの理解といった要素は,P値や区間といった統計的尺度よりも重要であることが多い」

不幸な用語

  • Nayman-Person流の仮説検定においては,帰無仮説を前提として算出したP値(null P値)が有意水準 α 未満になったとき,その帰無仮説が「棄却 reject された」という「用語」を用いる.しかし,本来それはそのまま意思決定につながるわけではない
    • これは本来,有意水準 α という「ある閾値」において,ある統計モデルが手元のデータの数値と適合し難い incompatible 結果であったことを意味するに過ぎない
    • つまり日常用語的な意味での「仮説の “否定” reject」と「帰無仮説の “棄却” reject」は全く別物として考えた方が良い
      • そもそも帰無仮説の受容 acceptance や棄却 rejection,信頼区間 confidence interval などはその意味で「不幸な用語選択」だったかもしれない
        • 単一の仮説検定では,本来その仮説を肯定も否定もできない.信頼区間は信頼に値するものではないし,統計学的に有意 significant かどうかは別に重要 significant なものではない.

仮説探索と意思決定

  • P値を計算することも,それが有意水準α(通例 0.05)よりも低いかどうかを確認することも自由である
    • もっと言えば「後出しジャンケンでP値を計算」することも「手元のデータにとって都合のいい統計モデルを選択すること」(p-hacking)も,それ自体は自由である(=探索的行為
      • むしろ手元のデータに気軽に後出しジャンケンを適用しまくることは統計の学習にもよい.それだけでは害は発生しない.
    • しかしそういう後出しジャンケンの結果が現実の重大な意思決定で安易に使われるべきではない
      • 事前にプロトコルを提出し(相対的には)厳格に行った「仮説検証型」の臨床試験はバイアスを排除する力が(観察研究などと比べ)強いため「新薬として承認するかどうか」という重大な意思決定においても重視されることになる

帰無仮説との関係

  • 古典的な仮説検定で用いる「帰無仮説」はP値を計算する際に使用する統計モデルの中の1要素として考える
  • このときのP値は「仮説θ=a(帰無仮説)の下での統計モデル内で,手元のデータ以上に極端な値が得られる確率」である
    • たとえばRCTであれば,標本がランダム抽出されていて,ランダムに割り付けされていて,途中で偏った脱落や欠測がなく,他に大きなバイアスがないという前提に加え,適切な統計モデルを選択し,さらに両群の介入によって差は生じない(=帰無仮説)という前提のもとでバーチャル確率を計算する.それがP値である
    • そのP値が低いということは「その統計モデル」と「手元の標本データ」の適合度が低い(矛盾が大きい)incompatible というこを意味するにすぎない
      • 帰無仮説が間違っていてもP値は低くなるが,他の前提条件が満たされていなくてもP値は低くなる
  • また,ここで帰無仮説は「θ=a」という単一の仮説を扱っているが,対立仮説は「θ≠a」であり,単一仮説でない点にも注意が必要
    • 帰無仮説が棄却されるときに採択する対立仮説は「θ=b(bはa以外の全て)」という非常に幅広い仮説である
      • 帰無仮説「θ=a」が棄却された(=帰無仮説に基づき算出されたP値が低い)からといって,実際にどの程度の差があるのか,つまり「θ=b」のうちどの値が真実なのかは P値のみからは分からない
      • たとえば「θ=c」という「ある値」が真実であったとして,その値の大きさが極めて小さいのであれば,その介入の価値は乏しい(=効果量 effect size の方が重要

信頼区間との関係

  • 信頼区間とP値は裏表の関係である
    • たとえば95%CI は p > 0.05 を満たす推定値の集合である
  • 信頼区間の算出は「効果はゼロである(=帰無仮説が正しい)」という仮説検定のみならず「効果はaである」(aは具体的な数値)の型の仮説達の各々について一挙に検定を行うことと同じ
  • そのためパラメータθに関する「θ=θo」型の仮説群について定義された検定法であれば,P値と信頼区間は完全に双対する概念となる
    • この条件であれば,信頼区間は「仮説θ=θo」が棄却されない推定値θoの範囲として自然に決まる
    • 信頼区間と同時に報告されるP値はそれぞれ対応したものにすべきであって,「統計的に有意かどうか」の判定で別の検定法のP値を求め,信頼区間はまた別のものを使う,といったことはなされるべきではない
    • P値函数と合わせて解釈すると理解しやすい
  • P値と信頼区間は表裏一体であり,信頼区間を算出するということは検定の仕組みも同時に使っていると考えて良い
  • 信頼区間を算出できない検定やP値もあるが,効果量を推定するという用途で使えないため,実用的ではない(なるべく使用は控えたい).
    • 以下はASA声明の邦訳に携わった佐藤先生のOA論文より抜粋4)
検定や P 値といった頻度論的手法は,ランダム化臨床試験やランダムサンプリングをともなった標本調査では非常に有効なツールである.しかし,通常疫学的な観察研究では要因のランダム化も,対象者のランダムサンプリングもなされておらず,データ生成のメカニズムは不明である.ASA 声明にも述べられているように,ランダム化もランダムサンプリングもなされていないデータに検定や P 値を用いてどのような結果がえられても,そもそもの仮定が満たされていないので意味がない(Greenland, 1990).(中略)信頼区間の計算には検定の考え方が使われていることから(Rothman et al., 2008),観察研究では信頼区間を報告すれば検定や P 値の誤用から免れるというわけでもないことに注意してほしい(Greenland et al., 2016)

医師国家試験とP値

  • 柳川氏が紹介5)しているように,医師国家試験(第105回;2011年施行)でP値などの解釈について「誤答肢しかない出題」がされている(105B43).
    • 同論文において柳川氏は「医学界,および久留米大学医学部の数人の重鎮と目される医師に誤出題であることを説明したが,理解してもらえずに愕然とした.解答枝 e が正解でないことを理解するには統計的基礎知識を必要とするが,彼らはその知識を持ち合わせていなかったからである.重鎮と目される医師たちとの対話の中で,医・歯・薬学系における統計学講義の貧弱さを思い知り肌寒い思いがした.医・歯・薬学系向けの良質な統計学テキストの開発と,責任をもって統計学講義を担当・推進することが出来る教員のための常勤ポストの設置を声高くよびかけたい」と結んでいる
3)
Valentin Amrhein, Sander Greenland et al. “Scientists rise up against statistical significance.” Nature 567, 305-307 (2019). DOI
4)
佐藤 俊哉, ASA声明と疫学研究におけるP値, 計量生物学, 2017-2018, 38 巻, 2 号, p. 109-115 J-Stage
5)
計量生物学 Vol. 38, No. 2, 153–161 (2017)J-Stage
stats/p-value.txt · 最終更新: 2022/11/08 by admin

Donate Powered by PHP Valid HTML5 Valid CSS Driven by DokuWiki