【p値では評価できない効果の大きさを評価しよう!】平均値の差を評価する効果量(effect size)のCohenのdとHedgesのgを解説!

多くの医学研究では治療効果の有無や暴露の影響の有無をp値を使って評価しています。

ただそれらをp値のみで評価することは適切ではないことが指摘されており、
p値に合わせて効果の大きさを評価することが望ましいとされています。

この効果の大きさを評価するために定量的な評価項目を標準化した効果量という指標が用いられます。

この記事では

  • 効果量とはどのような指標なのか?
  • 効果量はどのように使われているのか?

を解説します!

平均値を比較する効果量とは?なぜ効果量が使われる?

効果量=標準化した効果の差や比

効果量とは標準化した効果の差や比のことです。

「標準化した(Standardized)」というのは「正規分布(t分布)のスケールに直す」ということを意味します。標準化することで異なる単位を持つ尺度を比較可能になるというメリットがあります。

その中でも今回は正規分布やt分布に直したときの平均的な効果の差を示す指標について解説します!

効果量ではなくp値ではダメなのか?

臨床研究に取り組んでいる方は「効果の差はp値で確認すればいいんじゃないの?」と思われたかもしれません。

効果の差をp値で評価することには2つの大きな落とし穴があります。

それはp値は効果の大きさを評価することができないことと症例数に依存すること

そのため、p値が小さくとも効果の差が大きいとは言えません。また、症例数が多ければどんなに小さな効果の差でもp値は小さくなるので、本当に効果に差があるのか症例数が大きいために差があるように見えているのかが分からなくなります。

そのため、標準化した効果の差である効果量を用いることで、症例数に依存せず効果の大きさを定量的に評価する必要があります。

効果量は異なる研究間での効果の比較に使われる

標準化された効果の差は異なる研究間の比較に用いられます。

例えば、メタアナリシス

メタアナリシスは複数の研究の結果を統合して、統計学的な方法を用いて一つの結果として報告する研究です。一般に複数のRCTを集めたメタアナリシスはエビデンスレベルが最も高い研究として認められています。

メタアナリシスでは複数の研究を統合していますが、中には異なる評価指標を用いて効果を評価していることがあります

例えば、とあるダイエットの効果を評価したい場合でも、体重の減少を評価するか、BMIの減少を評価するか、と研究によって評価指標が変わってくることがあります。このような場合には、単純に体重とBMIを足し合わせて平均を計算することはできません。

そんなときに役立つのが標準化された効果の差なのです!

標準化することによって、異なる指標を同じスケールに直しているので、異なる単位であっても比較可能となります。

平均値の差を評価する効果量の代表例:Cohen’s d, Hedges’ g

平均値の差を評価する効果量の代表例:Cohen’s d, Hedges’ g

平均値の差を評価する効果量には、代表的な効果量として以下の2つがあります。

平均値の差を評価する効果量の代表例

  • Cohen’s d(コーヘンのd)
  • Hedges’ g(ヘッジズのg)

Cohen’s dとHedges’ gそれぞれの計算式は以下のようになっています。
※群Aと群Bの何かしらのスコアの平均値を比較する状況を想定

  • Cohen’s d

$d_{C}=\frac{|群Aの平均値-群Bの平均値|}{\sqrt{群Aと群Bをプールした標本分散}}$

  • Hedges’ g

$g_{H}=\frac{|群Aの平均値-群Bの平均値|}{\sqrt{群Aと群Bをプールした不偏分散}}$

どちらも平均値の差を両群合わせた標準偏差(分散の平方根)で割った形で計算できます。

違いがあるのは、Cohen’s dは標本分散、Hedges’ gは不偏分散を使っていることです。

つまり、症例数が十分大きくなればどちらの値も同じ大きさになっていきます。

Cohen’s dとHedges’ gはどちらを使うべき?

Cohen’s dとHedges’ gはどちらを使うべき?

Cohen’s dとHedges’ gどちらを使うべきかは症例数によって変わってきます。

一般にCohen’s dとHedges’ gの選択の基準となる症例数は50例と言われています

症例数が50例以上のときはCohen’s d、50例未満のときはHedges’ gを使うと覚えておきましょう。

そもそもCohen’s dとHedges’ gの違いは標準偏差の計算方法でした。
つまり、50例以上であれば分散の偏りも無視できるだろう、ということですね。

効果量の大きさの目安は?

効果量の大きさの目安は?

効果量が大きいのか小さいのかどのように判断すればよいのでしょうか?

Cohenは効果量の大きさに対して以下のような目安を提案しています。

効果量の絶対値効果の差の解釈
0.2小さい(small)
0.5中程度(small)
0.8大きい(large)

ただしCohen自身もこの基準を肯定している訳ではなく、
「研究分野において明確な基準がない場合にのみ参考にすること」を勧めています。

そのため、先行研究において
「どの程度の効果量を差があると見なしているのか」や「標準化する前の差がどの程度なのか」
を確認して効果の大きさを評価するようにしましょう!

まとめ

各記事のまとめ

今回は平均値の差を評価する効果量を解説しました!

効果量は評価項目を標準化することによって、異なる評価項目を統合する際に有用です。そのため、メタアナリシスではよく使われる指標になっています。

代表的な効果量にはCohen’s dやHedges’ gがあります。Cohen’s dとHedges’ gの違いは算出するときに、標本分散を使うか、不偏分散を使うかです。

そのため、Cohen’s dとHedges’ gを使い分ける際には症例数が基準となり、50例未満ならHedges’ g、50例例以上ならCohen’s dというように使い分けられます。

効果量はp値では評価できない効果の大きさを評価することができる指標ですので、ぜひ覚えておきましょう!

以下に参考として、細かい計算方法を載せていますのでご参考まで。

参考:Cohen’s dとHedges’ gの計算方法

群Aと群Bのスコアを比較する研究でスコアの平均値の差に該当する効果量を求めてみましょう!

記法は以下のように定めます。

  • 群Aと群Bの症例数:$n_A$例、$n_B$例
  • 群Aの各症例のスコア:$x_{Ai}$ $(i=1,\cdots,n_A)$
  • 群Bの各症例のスコア:$x_{Bj}$ $(j=1,\cdots,n_B)$

このとき、群Aと群Bの平均値は以下のようになります。

  • 群Aのスコアの平均値:$\bar{x}_A = \Sigma_{i=1}^{n_A}x_{Ai}/n_A$
  • 群Bのスコアの平均値:$\bar{x}_B = \Sigma_{j=1}^{n_B}x_{Bi}/n_B$

上記の記法でCohen’s dとHedges’ gは以下のように算出されます。

Cohen’s dの計算方法

$d_{C}=\frac{|\bar{x}_A-\bar{x}_B|}{\sigma_{c}}$

ただし、

$\sigma_c = \sqrt{\frac{\Sigma_{i=1}^{n_A}(x_{Ai}-\bar{x}_A)^2+ \Sigma_{j=1}^{n_B}(x_{Bj}-\bar{x}_B)^2}{n_A+n_B}}$

Hedges’ gの計算方法

$g_{H}=\frac{|\bar{x}_A-\bar{x}_B|}{\sigma_{g}}$

ただし、

$\sigma_g = \sqrt{\frac{\Sigma_{i=1}^{n_A}(x_{Ai}-\bar{x}_A)^2+ \Sigma_{j=1}^{n_B}(x_{Bj}-\bar{x}_B)^2}{n_A+n_B-2}}$

コメント

タイトルとURLをコピーしました