【複数の用量を比較したい！】用量反応関係のある多重比較法を解説！

臨床試験の中には複数の用量を比較して最適な用量を決めることを目的とした試験が行われます。
一般的に用量が増えるほど有効性が高いという関係があり、この関係を用量反応関係と呼びます。

では用量反応関係があることで2群の比較とはどのような違いがあるのでしょうか？

またどのような検定方法があるのでしょうか？

この記事では用量関係のあるときの検定方法とその使い分けについて解説します！

用量反応関係と用量反応関係を調べる目的

用量反応関係とは用量と有効性・毒性の関係性のことです。

例えば、多くの医薬品では用量が増えるほど有効性が高くなります。
ただすべての薬剤で用量が増えれば必ず有効性が上がるのか、というとそうではなく、
どこかで有効性が頭打ちになることもありますし、許容できない副作用が発生することがあります。

そのため、用量反応関係を調べて最適な用量を決定することが必要になってきます。

用量反応関係を調べる方法

臨床試験のデザイン

用量反応関係を調べる試験として、一つの対照群に対して、複数用量の試験群の有効性を調べる試験が行われてきました。

例えば、対照群にプラセボ、試験群に低用量、中用量、高用量の３種類の試験薬を設定して、
「プラセボに対してどの用量が有効性を示すか」ということを調べる臨床試験です。

そのため、検定方法として対照群と試験群それぞれの治療効果を比較する方法が使われます。

統計学的な注意点

用量反応関係を調べる試験ではどのような統計学的な注意が必要でしょうか？

一番大きな問題点は「検定の多重性」。
というのも、用量反応関係を調べる試験では「対照群に対して各用量それぞれが有効かどうか」を検証します。
そうすると、試験群の用量が増えるほど検定の回数は増えてしまいます。

そのため、用量反応関係を調べる試験ではαエラーが事前に決めた有意水準を超えないような手順や検定方法で比較を行う必要があります。

用量反応関係がある群の比較方法

今回は対照群にプラセボ、試験群に低用量、中用量、高用量の３種類の試験薬を設定して、「プラセボ vs. 低用量」、「プラセボ vs. 中用量」、「プラセボ vs. 高用量」で、治療効果の平均値を比較したい状況を考えましょう！

また治療効果の平均値は以下の条件を満たしているとします。

治療効果の前提

分布の形は左右対称で正規分布に従う
各群の真の分散は等しい

用量反応関係がある群間比較の方法として以下の方法が考えられます。

Bonferroniの方法による有意水準を使ったｔ検定
Tukey検定
Dunnett検定
Williams検定

それぞれの解析方法を見ていきましょう！

Bonferroniの方法による有意水準を使ったｔ検定

Bonferroniの方法は検定の多重性を調整する方法で、
各検定の有意水準を全体の有意水準を検定の回数で割った値とする方法です。

例えば、全体の有意水準を0.05としたときに、「プラセボ vs. 低用量」、「プラセボ vs. 中用量」、「プラセボ vs. 高用量」の3回の検定を行う場合には、各検定の有意水準を0.05/3＝0.017で行います。

ただし、この方法は非常に保守的な方法で、有意になりにくいという特徴があることには注意しましょう！

Tukey検定

Tukeyの検定は治療群の全ての組み合わせについて比較を行う方法です。

つまり、「プラセボ vs. 低用量」、「プラセボ vs. 中用量」、「プラセボ vs. 高用量」に加えて、
「低用量 vs. 中用量」、「低用量 vs. 高用量」、「中用量 vs. 高用量」についても比較を行います。
Tukey検定では試験群内でも比較を行うため、有効性が最も見込める最適な用量を決めるために役立つ検定方法でもあります。

Tukey検定を行う上で注意が必要なのはｐ値が算出されないことです。

「ｐ値がないと有意かわからないよ！」と思いましたか？

大丈夫です！
Tukey検定では有意かどうか判断するために、棄却限界値と検定統計量を比較します。
つまり、棄却限界値＜検定統計量であれば、有意であると判定します。
（有意水準＞ｐ値とは不等号が逆になるので注意しましょう！）

今回は検定統計量の計算方法は割愛しますが、ｔ検定の検定統計量と同様に平均値の差を分散で割った形で算出されます。
また棄却限界値はスチューデント化された範囲の表から有意水準と群の数、自由度（総症例数-群の数）を参照して設定します。

例えば、全体の有意水準5%で以下のデータをTukey検定で比較する場合は、
群の数4、自由度5*4-4=16の箇所を参照して、棄却限界値は4.05になります。

対照群（プラセボ）、試験群（低用量、中用量、高用量）の計4群
各群の症例数は5例

Dunnett検定

Dunnett検定は「プラセボ vs. 低用量」、「プラセボ vs. 中用量」、「プラセボ vs. 高用量」の組み合わせで比較を行う方法です。

そのため、試験群同士の比較に興味がないときにはTukey検定よりもDunett検定が使用されます。

またTukey検定では「どの群に差があるか」のみを検証していましたが、Dunett検定では「どの群でプラセボに比べて効果が大きいか」という片側検定にも対応した検証が可能になっています。

Dunnett検定もTukey検定と同様に棄却限界値と検定統計量を使って有意かどうかを判断します。Dunnett検定ではDunnett検定の表から棄却限界値を参照します。

例えば、全体の有意水準5%で以下のデータをDunnett検定で比較する場合は、
群の数4、自由度5*4-4=16の箇所を参照して、棄却限界値は2.59になります。

対照群（プラセボ）、試験群（低用量、中用量、高用量）の計4群
各群の症例数は5例

Dunnett検定はTukey検定に比べて検定の回数が少ないため、棄却限界値が小さくなり有意になりやすいことが分かります。

Williams検定

Williams検定はDunnett検定と同様に「プラセボ vs. 低用量」、「プラセボ vs. 中用量」、「プラセボ vs. 高用量」の比較を行う方法です。

Williams検定の主な目的は「プラセボに勝っているか」ということを片側検定で検証することです。

Dunnett検定が同時に検定を行っているのに対して、Williams検定は閉手順によって行われます。

つまり、「プラセボ vs. 高用量」の検定が有意ならば「プラセボ vs. 中用量」を検定、
次に「プラセボ vs. 中用量」の検定が有意ならば「プラセボ vs. 低用量」を検定、
というように、前の検定が有意であれば次の検定を行います。

こうすることで有効性が得られる最低の用量を探索していきます。

Williams検定での有意かどうかの判断は有意水準とｐ値を使って行います。
例えば、有意水準を0.05として設定したときには、「プラセボ vs. 高用量」のｐ値と0.05を比較、
「プラセボ vs. 高用量」が有意ならば「プラセボ vs. 中用量」のｐ値と0.05を比較、
という順に有意かどうかを判断します。

「有意水準がそのままで繰り返し検定を行っても検定の多重性は起こらないの？」と思われたかもしれません。

そもそも検定の多重性は同時に検定を行ったときαエラーが有意水準を超えてしまう、という問題です。
重要なのは「同時に」検定を行っていることで、Williams検定は「前の検定が有意であれば検定を行う」という条件をつけて次の検定に進める手順であるため、全体のαエラーは有意水準内に抑えることができます。

Tukey検定、Dunnett検定、Williams検定をどのように使い分ける？

用量反応関係があるデータの比較方法としてTukey検定、Dunnett検定、Williams検定の３種類を解説しました。

ではこれらの検定をどのように使い分けていけばよいでしょうか？

それぞれの特徴から使い分けを見ていきましょう！

Tukey検定とDunnett検定、Williams検定の使い分け

Tukey検定とDunett検定、Williams検定の大きな違いは試験群内での比較に興味があるかということです。
Tukey検定では「低用量 vs. 中用量」、「低用量 vs. 高用量」、「中用量 vs. 高用量」のように試験群内での比較も行いますが、Dunnett検定とWilliams検定は試験群内の検定は行いません。

「試験群間の比較も出来たほうがお得！」と思われるかもしれませんが、
Tukey検定はDunnett検定やWilliams検定よりも有意になりにくかったり、両側検定にしか対応していなかったりと注意点があるので、Tukey検定の選択には慎重になる必要があります。

そのため、「試験群内での比較に興味があるか」で使い分ける必要があり、
試験群内での比較に興味があるときにはTukey検定、対照群との比較にのみ興味があるときにはDunnett検定やWilliams検定を使う、と覚えておきましょう！

Dunnett検定とWilliams検定の使い分け

Dunett検定とWilliams検定はどちらも「プラセボ vs. 低用量」、「プラセボ vs. 中用量」、「プラセボ vs. 高用量」に対して検定を行う方法です。
Dunett検定とWilliams検定の大きな違いは検定の手順で、
Dunnett検定は同時、Williams検定は高用量から順番に検定を行います。

この手順が違う理由として「用量と有効性に関連があるか」という点が関係します。

つまり、Dunnett検定は「用量と有効性に関連がない」から検定の順番がつけられないのに対して、
Williams検定は「高用量ほど有効性が高い」という有効性の単調性を仮定してるため、
「高用量から検定を行おう」という考えで検定の順番をつけています。

そのため、「用量が増えると有効性があがるという関連があるか」で使い分ける必要があり、
「関連がない」場合にはDunnett検定、「関連がある」場合にはWilliams検定を使います。

（そういう意味ではDunnett検定は用量反応関係があるときの検定とは少しずれているのかもしれません）