【研究に必要な症例数は？】サンプルサイズ設計が必要な理由とサンプルサイズ設計の手順を解説！

サンプルサイズ設計は医学研究において統計学的に結論を導く上で重要な試験デザインの要素になります。サンプルサイズ設計を行うことで研究の信頼性が高くなり、評価される研究になります。

ただサンプルサイズ設計を行えば良い研究というわけではありません！

今回はサンプルサイズ設計が必要な理由とサンプルサイズ設計の手順を説明します！
また記事の後半では実際にサンプルサイズ設計ツールを使って、サンプルサイズ設計の実践を行っていますので、ぜひ最後までお読みください！

サンプルサイズ設計が必要な理由

サンプルサイズ設計が必要な理由は大きく統計学的評価の観点、実施可能性の観点、倫理的な観点と３つに分けられます。

統計学的評価の観点

サンプルサイズが求められる一番の理由は統計学的な観点からです。

サンプルサイズとｐ値には「サンプルサイズが大きくなると小さい差でもｐ値は小さくなる」という関係があります。そのため、ｐ値が小さくなり統計学的有意差あり、という結論であったとしても、サンプルサイズが大きかったために、臨床的な意味がない微小な差が特定される、ということがあります。

その臨床的な観点と統計学的な観点をつなぎ、検出された統計学的有意差が臨床的に意味のある結果であるかを判断するためにサンプルサイズ設計が必要になります。

実施可能性の観点

２つ目の理由は実施可能性の観点からの理由です。実施可能性の観点では以下２点が考えられます。

実施可能性の２つの観点

サンプルサイズが増えるほど実施コストが増える
サンプルサイズが増えるほど試験の完了が難しくなる

前者の実施コストには価格としてのコスト以外にも管理コストなどが含まれます。例えば、患者さんを治療する治療費などの価格コストや質の良いデータを出すための定期的なモニタリング等の管理コストのことを指します。

後者は「目標の患者登録を達成できるか」という観点です。患者登録が完了できたかどうかは研究の質と関連します。もし登録例数が目標のサンプルサイズに達していない場合、仮に仮説を棄却できていたとしても、質の低い研究と見なされてしまいます。

例えば、年間に集積できる症例数が10例のときに、サンプルサイズが1000例必要となった場合どうでしょうか？この場合、研究が完了するまでに100年もの時間をかけることになります。
このように実際に実際に登録できる例数とサンプルサイズ設計の結果を比べることで、研究の実施可能性を考えることができます。

このように患者登録が問題なく完了して研究の質を担保できる実施可能性があるか、を判断するためにもサンプルサイズ設計が必要になります。

倫理的な観点

最後の理由は倫理的な観点です。これは教科書で説明されることは少ないですが、重要な観点です。

特に当てはまるのは治験など初めて患者さんに投与する薬剤を用いる場合。

このような薬剤はヒトに対する安全性や有効性が十分確認されていません。そのため、安全性も有効性も確認できていない薬剤で、有害事象にさらされたり無効な治療を受けさせられる症例を減らす必要があります。そのため、臨床的に最低限かつ論理的なサンプルサイズを計算する必要があります。

サンプルサイズ設計に必要な要素とサンプルサイズ数との関係

サンプルサイズ設計の行う上で必要な要素は以下の4つになります。

サンプルサイズ設計に必要な要素

臨床的に意味のある差
データのバラつき
αエラー
検出力

上の4つの要素とサンプルサイズを合わせて、サンプルサイズのペンタゴン（五角形）と呼ばれることもあります。

サンプルサイズのペンタゴンは4つの情報が分かれば、残り一つの情報を求めることができる、という5つの要素の関係性を示しています。例えば、検出力を求めたければ、臨床的に意味のある差、データのばらつき、αエラー、サンプルサイズを特定すればよい、ということになります（この考え方は事後的な検出力を計算するときに役立ちます）。

各要素の詳細と設定方法を順番に見ていきましょう！

臨床的に意味のある差

サンプルサイズ設計を行う中で一番大切なのがこの臨床的に意味のある差(clinically meaningful difference)です。臨床的に意味のある差は「どの程度差があれば帰無仮説を棄却するか」と判断する基準です。

臨床的に意味のある差の設定方法の例として優越性試験の場合の設定方法を見ていきましょう！
優越性試験では一方の治療がもう一方の治療より優れているかを検証する試験デザインです。例えば、治療Aと治療Bの治療効果を比較したい場合、毒性が治療A＜治療Bであれば、治療Aに対する治療Bの優越性を検証する優越性試験が組まれます。

このとき、臨床的に意味のある差は毒性とのバランスで設定されます。考え方としては「治療Aに対する治療Bの毒性の強さはどの程度の治療効果に差があれば許容できるか」ということ。

このように臨床的に意味のある差は治療のリスクと比較して、どの程度ベネフィットを見込むべきかを定量化して設定します。

【臨床試験のデザイン】優越性試験、非劣性試験、同等性試験の違いと考え方を解説！

臨床研究の中でも新しい治療法の有効性を検証する研究のことを臨床試験と呼びます。臨床試験では優越性試験、非劣性試験、同等性試験という試験デザインがあります。優越性試験、非劣性試験、同等性試験はそれぞれ特徴があり、適応される状況もことなります。...

また、臨床的に意味のある差は大きくなるほどサンプルサイズは小さくなります。ただし、差を大きく見込むほど、本当にそこまで治療効果に差がなかった場合、有意にならないという点には注意が必要です。

例えば、本当は１０の差が付いていれば十分なのに、サンプルサイズを減らしたいからと差を１５と見込んだとしましょう。このとき結果に１２の差がついていたとしても、有意にならないということがあり、本当は効果がある治療が捨てられる、という可能性が上がってしまいます。

そのため、サンプルサイズと相談しながら、意味のある差を見逃さないように臨床的に意味のある差を設定する必要があります。

データのバラつき

データのバラつきはエンドポイントの標準偏差や分散のことを指します。このデータのバラつきは過去の臨床研究の結果から決定することが一般的です。

例えば、過去の臨床研究において、エンドポイントの標準偏差が１２や１4であれば、平均的に１３と設定されます。また、臨床研究間でサンプルサイズが異なる場合には、よりサンプルサイズが多い方が信頼できるとし、サンプルサイズが多い方の標準偏差を採用することもあります。

一般に必要なサンプルサイズはバラつきと臨床的に意味のある差の比が小さいほど少なくなります。注意が必要なのはバラつき単体ではなく、バラつきと臨床的に意味のある差の比を確認する必要があることです。そのため、単にバラつきを小さくするように工夫したとしても、それによって臨床的に意味のある差が小さくなるとサンプルサイズが増える可能性があるので注意しましょう！

αエラー、検出力

αエラーは「帰無仮説が正しいときに誤って帰無仮説を棄却してしまう確率」、検出力は「対立仮説が正しいときに正しく対立仮説を採択する確率」です。

αエラーは2.5%~5%、検出力は80%~90%の範囲で設定されることが一般的です。ただし、希少疾患など研究の実施が困難な疾患を対象とした臨床研究では、10%のαエラーや70%の検出力が設定されることもあります。そのため、どの程度のαエラーと検出力が研究領域によって許容されるか、によってαエラーと検出力を設定しましょう！

またαエラー、検出力とサンプルサイズの関係は、αエラーが大きくなるほどサンプルサイズが小さくなり、検出力が大きくなるほどサンプルサイズは大きくなります。αエラーと検出力では、サンプルサイズの増減の方向が逆なので注意しましょう！

サンプルサイズ設計に必要な情報はエンドポイントの型によって変わる

サンプルサイズ設計には以下の4つの要素が必要であると説明しました。

サンプルサイズ設計に必要な要素

臨床的に意味のある差
データのばらつき
αエラー
検出力

その中でもαエラーと検出力以外の臨床的に意味のある差とデータのバラつきはエンドポイントの型によって何を設定すべきかが変わってきます。

エンドポイントの型ごとのサンプルサイズ設計に必要な情報は以下になります。

エンドポイントの型	臨床的に意味のある差	データのばらつき
連続値型	平均値の差	標準偏差（分散）
二値型	各群の発生割合
Time-to-event型	登録期間、観察期間年次生存割合 or 生存期間中央値

今扱っているエンドポイントがどのような型であるかを意識して、サンプルサイズ設計に必要な情報を設定しましょう！

サンプルサイズ設計でよくある誤解２選！

サンプルサイズ設計は臨床研究をデザインする上で重要な要素です。ただし、サンプルサイズ設計の重要性から誤った解釈をされることも少なくありません。

次はサンプルサイズ設計を行った臨床研究の解釈としてよくある誤解を２つ見ていきましょう！

誤解①：セカンダリーエンドポイントもｐ値で判断できる
誤解②：事後的なサンプルサイズ設計で妥当なサンプルサイズであれば良い研究

誤解①：セカンダリーエンドポイントもｐ値で判断できる

サンプルサイズ設計において注意が必要なのは「サンプルサイズ設計が行われるのは主にプライマリーエンドポイントに対して」ということです。例えば、プライマリーエンドポイントを全生存期間、セカンダリーエンドポイントを無増悪生存期間とした場合は、サンプルサイズの対象となるのはプライマリーエンドポイントである全生存期間である、ということになります。

つまり、サンプルサイズ設計で設定した有意水準が適応されるのは、プライマリーエンドポイントに対してのみ。

そのため、セカンダリーエンドポイントはサンプルサイズ設計で設定した有意水準およびｐ値はできません。

誤解②：事後的なサンプルサイズ設計で妥当なサンプルサイズであれば良い研究

一般にサンプルサイズ設計は研究開始前に行われます。サンプルサイズ設計に必要な情報からも分かるように、どの程度の効果が見込めれば意味のある治療なのか、を研究の開始前に決めておく必要があるからです。

一方で、よく論文を投稿すると検出力の事後算出を求められることがあります。このとき、臨床的に意味のある差の代わりに、実際に得られた効果の差が用いられます。もし計算された検出力が80%ほどであれば、その研究において妥当なサンプルサイズであると判断されることがあります。それは間違った解釈です。

というのも、臨床的に意味のある差≠実際に得られた差だからです。事実、実際に得られた差が微小だとしても、サンプルサイズが大きければ検出力は大きくなります。つまり、意味のない差を検出する力が、サンプルサイズが大きかったために、高かったとしても意味がないということです。

そのため、事後的な検出力でサンプルサイズの妥当性を事後的に検討しようとする主張はありますが、誤解を生むため、推奨することはできません。

事後的なサンプルサイズの是非については以下でも触れているので参考まで！

実際にサンプルサイズ設計をやってみよう！

実際にサンプルサイズ設計をやってみましょう！

サンプルサイズ設計のツールとして以下を作成したので、そのツールを使ってサンプルサイズを計算します。

今回は連続値で正規分布に従うエンドポイントを比較するランダム化比較試験を考えます。このとき、設定するパラメータは臨床的に意味のある差（平均値の差）、データのバラつき、αエラー、検出力の４つに割り付け比を加えたの５つになります。それぞれの値を以下のように設定したときのサンプルサイズを計算してみましょう！