【p値だけではダメ!】p値に依存した結果報告の落とし穴と正しい報告方法を解説!

p値は医学研究の報告には欠かせない指標になっています。
特に有意水準0.05という基準が多用されており、p値が0.05を下回れば差があった、
と判断できることから、分かりやすい指標のように扱われています

ただ、いつでもp値と有意水準0.05で評価することには大きな落とし穴があります!

今回はp値の落とし穴とp値に依存しない報告方法について解説します!

p値とは?

用語の定義

まずp値について復習しましょう!

統計学的検定では帰無仮説を設定して「帰無仮説が正しいときにどれだけ珍しいデータが得られたか」ということを検証します。

この「どれだけ珍しいか」を表すのがp値で、
p値は「帰無仮説が正しいときに得られたデータ以上のデータが得られる確率」と定義されます。

そのため、よく使われる有意水準0.05という基準は
「帰無仮説が正しいときに5%も起こらない事象は珍しい事象である」ということを表しています。

p値を解釈するときのよくある誤解

よくある誤解

医学研究において「p値が0.05を下回ったので有意」というたびたび結論を目にします。

ただ多くの場合、この報告はp値を誤用しています!

どのような点で誤用なのか、実際にある誤解例を見ながら考えていきましょう!

データが得られる確率ではない!

p値は「目の前の物事が起こった確率」「手元のデータが得られるとなる確率」と理解されていることがありますが、それは間違った理解です!

もし「目の前の物事が起こった確率」が正しいとすると、
小数点以下を何桁もある連続値のp値はほぼ0になってしまうのではないでしょうか?

正しくは「帰無仮説の下で得られたデータ以上の事象が起こった確率」です。

そのため、p値を計算するときには「帰無仮説」が重要になってきます。

「帰無仮説なんて設定していないよ!」と思われるかもしれませんが、
p値を計算しているということは帰無仮説を設定していることに他なりません。

多くのソフトウェアでは「差がない(差が0)」という帰無仮説をおいていますので
計算したときはどのような帰無仮説を置いているのか確認しましょう!

検定の多重性の問題

p値を用いて効果に差があるかを確認するときに、
何度も検定を行って「どこかに差があるか」を確認している研究が多くあります。

これは間違った解析方法です!

というのも、「差があるかないか」の判断に有意水準が使われますが、
有意水準とは「差がないときに何%まで誤って差があると言ってもいいか」という基準です。

つまり、有意水準の0.05は「差がないときに100回検定を行って5回は差があると言ってもいい」ということになります。

特にこの「差がないのに差があるといってしまう確率(αエラー)」は検定の回数が増えれば増えるほど大きくなってしまうので、何度も検定を行うことで誤った報告をしてしまう確率が上がってしまいます。

また、検定を繰り返し行っている研究には「差があった」項目のみを報告していることも少なくありません。
そのような報告方法では過大評価された報告となってしまいます。

そのため、検定を複数回行ったときにはp値を使った解釈には注意する必要があります!

検定の多重性や多重性が心配されるときの報告方法はコチラにもまとめているので
是非参考にしてください。

「p値が小さい=治療効果が大きい」ではない!

次のよくある誤解として「p値が小さいときには治療効果も大きい」というものがあります。

p値の定義は「差がないときにどれだけ珍しいことが起こったか」を示す指標です。
この定義の中に「治療効果の差」という指標は含まれていません

またp値の算出には、治療効果の差に加えて、データのばらつきも考慮する必要があるため、
一概に治療効果とp値を一対一対応させることはできません。

そのため、この表現は正しくなくp値が小さいからといって、大きな治療効果がある、と判断することはできないので注意しましょう!

また治療効果の大きさを示したいときには、p値ではなく、オッズ比やハザード比のような効果の要約値で報告するようにしましょう!

p値は症例数に依存する

前の「「p値が小さい=治療効果が大きい」ではない!」に通ずるところがありますが、
p値は症例数が多くなると小さくなるという特徴があります。

例えば、コインを100回、1000回、10000回投げたときに、
いずれも表が45回、450回、4500回出たときを考えましょう。

帰無仮説は「表が出る確率は50%である」とします。

いずれも表が出る確率は45%なので、直観的にはどれでもp値は同じになる、と考えられるのではないでしょうか?

ただ実際にp値を計算してみると…

  • 100回中45回表:0.3682 <0.05
  • 1000回中450回表:0.001731 <0.05
  • 10000回中4500回表:2.2*10^-16 <0.05

有意水準が0.05だとすると、100回では帰無仮説は棄却されない一方で、
1000回、10000回であれば帰無仮説は棄却されます。

このようにp値は症例数に依存するため、p値のみで評価すると
研究の規模に研究の結論が左右されることになります

そのため、p値を使って評価するときには症例数も考慮する必要があります!

どのようにp値を報告すべき?

それではどのようにp値を報告していくべきでしょうか?

研究のパターンによって、報告方法を見ていきましょう!

事前にデザインされた研究

Primary endpoint の報告方法

事前にデザインされた臨床試験のような前向き研究では
primary endpointを中心に研究がデザインされます

例えば、「有意水準、検出力は何%にするのか」や「優越性試験か非劣性試験か」を決めて、
primary endpointに従って研究の症例数や判断規準が設定されます。

今回はprimary endpointがp値によって評価されるときを考えましょう!

つまり、primary endpointについて「p値が有意水準未満であれば、治療効果があった」と判断する場合を考えます。

このような場合、primary endpointはp値に関する基準があり、「治療効果があったかなかったか」はp値によってなされるため、報告時にはp値を報告することが一般的です

Secondary endpoint の報告方法

一方でsecondary endpointについてはどうでしょうか?

secondary endpointは研究の結果を補助するためのエンドポイントです。

例えば、primary endpoitを「治療によって治った人の割合」だとすれば、
secondary endpointは「治療によって治るまでの期間」のように、
治療効果を別の視点から見たときにどうなるか、を評価するために設定されます。

注意してほしいのは、試験をデザインするときに中心となっているのはprimary endpointであり、
secondary endpointに関しては試験のデザインの際には考慮されないことが多いということです。

そのような場合には、secondary endpointには有意水準が定められていないので、
p値ではなく、治療効果の要約値やその信頼区間を報告します。

Secondary endpointもp値を報告する?

臨床試験によってはSecondary endpointでも検定をベースに判断基準を定めていることがあります
そのような研究の多くは閉手順によって検定を行うことで検定の多重性の問題に対応しています。
つまり、primary endpointにおいて優越性が示された場合のみ、Secondary endpointの検定を行う、という手順で検定を行います。

ただ必ずSecondary endpointの検定を行うべきというわけではないので、研究に応じてどのような評価を行うか考えましょう!

事前にデザインされた研究の報告方法

このように事前にデザインされた研究でも、「何を中心にデザインされたか」によって
「p値を使って評価・報告すべきか」が変わってきますので注意が必要です!

後ろ向き研究の場合

後ろ向き研究の多くは主の目的はあれど、解析計画を定めない研究です。

このような研究は仮説の検証よりも、むしろ次の研究の参考にする結果の創出が目的になっています。

また探索的な研究では多くの解析を行って検討を重ねながら、多角的な視点で治療効果や予後因子などを調べる必要があります
場合によっては検討を重ねるうちに、別の解析を行う必要が出てくることもあります。

そのため、探索的な研究においては検定の多重性の問題が避けられないので、
p値を使って報告するよりも、治療効果の要約値とその信頼区間を使って結果をまとめ、
報告する
方が好ましいです。

まとめ

各記事のまとめ

今回はp値に依存した研究報告にどんな落とし穴があるのか、について解説しました!

p値に依存した研究報告は、昔から根強く残ったp値絶対主義のような考え方によるものだと思います。
その考えが残っているためにp値を誤用した研究論文がトップジャーナルに掲載されることだってあります。

だから「p値で差がつけばジャーナルが採択してくれる」ではなく、
是非この機会に正しいp値の解釈と使い方を身に着けてもらえたらうれしいです!

コメント

タイトルとURLをコピーしました