【p値だけではダメ！】p値に依存した結果報告の落とし穴と正しい報告方法を解説！

ｐ値は医学研究の報告には欠かせない指標になっています。
特に有意水準0.05という基準が多用されており、ｐ値が0.05を下回れば差があった、
と判断できることから、分かりやすい指標のように扱われています。

ただ、いつでもｐ値と有意水準0.05で評価することには大きな落とし穴があります！

今回はp値の落とし穴とｐ値に依存しない報告方法について解説します！

ｐ値とは？

まずｐ値について復習しましょう！

統計学的検定では帰無仮説を設定して「帰無仮説が正しいときにどれだけ珍しいデータが得られたか」ということを検証します。

この「どれだけ珍しいか」を表すのがｐ値で、
ｐ値は「帰無仮説が正しいときに得られたデータ以上のデータが得られる確率」と定義されます。

そのため、よく使われる有意水準0.05という基準は
「帰無仮説が正しいときに5%も起こらない事象は珍しい事象である」ということを表しています。

p値を解釈するときのよくある誤解

医学研究において「ｐ値が0.05を下回ったので有意」というたびたび結論を目にします。

ただ多くの場合、この報告はｐ値を誤用しています！

どのような点で誤用なのか、実際にある誤解例を見ながら考えていきましょう！

データが得られる確率ではない！

p値は「目の前の物事が起こった確率」や「手元のデータが得られるとなる確率」と理解されていることがありますが、それは間違った理解です！

（もし「目の前の物事が起こった確率」が正しいとすると、
小数点以下を何桁もある連続値のp値はほぼ0になってしまうのではないでしょうか？）

正しくは「帰無仮説の下で得られたデータ以上の事象が起こった確率」です。

そのため、ｐ値を計算するときには「帰無仮説」が重要になってきます。

「帰無仮説なんて設定していないよ！」と思われるかもしれませんが、
ｐ値を計算しているということは帰無仮説を設定していることに他なりません。

多くのソフトウェアでは「差がない（差が0）」という帰無仮説をおいていますので
計算したときはどのような帰無仮説を置いているのか確認しましょう！

検定の多重性の問題

ｐ値を用いて効果に差があるかを確認するときに、
何度も検定を行って「どこかに差があるか」を確認している研究が多くあります。

これは間違った解析方法です！

というのも、「差があるかないか」の判断に有意水準が使われますが、
有意水準とは「差がないときに何%まで誤って差があると言ってもいいか」という基準です。

つまり、有意水準の0.05は「差がないときに100回検定を行って5回は差があると言ってもいい」ということになります。

特にこの「差がないのに差があるといってしまう確率（αエラー）」は検定の回数が増えれば増えるほど大きくなってしまうので、何度も検定を行うことで誤った報告をしてしまう確率が上がってしまいます。

また、検定を繰り返し行っている研究には「差があった」項目のみを報告していることも少なくありません。
そのような報告方法では過大評価された報告となってしまいます。

そのため、検定を複数回行ったときにはｐ値を使った解釈には注意する必要があります！

検定の多重性や多重性が心配されるときの報告方法はコチラにもまとめているので
是非参考にしてください。

「p値が小さい=治療効果が大きい」ではない！

次のよくある誤解として「p値が小さいときには治療効果も大きい」というものがあります。

ｐ値の定義は「差がないときにどれだけ珍しいことが起こったか」を示す指標です。
この定義の中に「治療効果の差」という指標は含まれていません。

またｐ値の算出には、治療効果の差に加えて、データのばらつきも考慮する必要があるため、
一概に治療効果とｐ値を一対一対応させることはできません。

そのため、この表現は正しくなくｐ値が小さいからといって、大きな治療効果がある、と判断することはできないので注意しましょう！

また治療効果の大きさを示したいときには、ｐ値ではなく、オッズ比やハザード比のような効果の要約値で報告するようにしましょう！

ｐ値は症例数に依存する

前の「「p値が小さい=治療効果が大きい」ではない！」に通ずるところがありますが、
ｐ値は症例数が多くなると小さくなるという特徴があります。

例えば、コインを100回、1000回、10000回投げたときに、
いずれも表が45回、450回、4500回出たときを考えましょう。

帰無仮説は「表が出る確率は50%である」とします。

いずれも表が出る確率は45%なので、直観的にはどれでもｐ値は同じになる、と考えられるのではないでしょうか？

ただ実際にｐ値を計算してみると…

100回中45回表：0.3682 <0.05
1000回中450回表：0.001731 <0.05
10000回中4500回表：2.2*10^-16 <0.05

有意水準が0.05だとすると、100回では帰無仮説は棄却されない一方で、
1000回、10000回であれば帰無仮説は棄却されます。

このようにｐ値は症例数に依存するため、ｐ値のみで評価すると
研究の規模に研究の結論が左右されることになります。

そのため、ｐ値を使って評価するときには症例数も考慮する必要があります！

どのようにp値を報告すべき？

それではどのようにｐ値を報告していくべきでしょうか？

研究のパターンによって、報告方法を見ていきましょう！

事前にデザインされた研究

Primary endpoint の報告方法

事前にデザインされた臨床試験のような前向き研究では
primary endpointを中心に研究がデザインされます。

例えば、「有意水準、検出力は何％にするのか」や「優越性試験か非劣性試験か」を決めて、
primary endpointに従って研究の症例数や判断規準が設定されます。

今回はprimary endpointがｐ値によって評価されるときを考えましょう！

つまり、primary endpointについて「ｐ値が有意水準未満であれば、治療効果があった」と判断する場合を考えます。

このような場合、primary endpointはｐ値に関する基準があり、「治療効果があったかなかったか」はｐ値によってなされるため、報告時にはｐ値を報告することが一般的です。

Secondary endpoint の報告方法

一方でsecondary endpointについてはどうでしょうか？

secondary endpointは研究の結果を補助するためのエンドポイントです。

例えば、primary endpoitを「治療によって治った人の割合」だとすれば、
secondary endpointは「治療によって治るまでの期間」のように、
治療効果を別の視点から見たときにどうなるか、を評価するために設定されます。

注意してほしいのは、試験をデザインするときに中心となっているのはprimary endpointであり、
secondary endpointに関しては試験のデザインの際には考慮されないことが多いということです。

そのような場合には、secondary endpointには有意水準が定められていないので、
ｐ値ではなく、治療効果の要約値やその信頼区間を報告します。

Secondary endpointもp値を報告する？

臨床試験によってはSecondary endpointでも検定をベースに判断基準を定めていることがあります。
そのような研究の多くは閉手順によって検定を行うことで検定の多重性の問題に対応しています。
つまり、primary endpointにおいて優越性が示された場合のみ、Secondary endpointの検定を行う、という手順で検定を行います。
ただ必ずSecondary endpointの検定を行うべきというわけではないので、研究に応じてどのような評価を行うか考えましょう！