【どう扱えばいい？】欠測値の考え方と解析での扱い方を解説！

医学研究において避けて通れないのが欠測値。

「患者さんが転院しちゃった」とか「カルテに記載がなかった」とかあらゆる理由で、
データに欠測が発生してしまいます。

欠測値があるからその症例のデータは使えない、モッタイナイ(´；ω；`)ｳｩｩ
とお困りのあなた！

欠測値は適切に扱うことで問題なく研究結果として報告することができます！

この記事ではその欠測値の考え方と取り扱い方法について解説します！

欠測値とは？

欠測値（missing value）とはある理由により得られなかったデータのことを指します。

欠測値の原因は研究ごとに様々で「患者が転院してしまった」や「データを取り忘れた」など
が考えられます。

欠測値の問題は以下の3点です。

欠測値の問題点

推定精度の低下
バイアスの発生
結果の信頼性が損なわれる

それぞれの問題点について順番に見ていきましょう！

欠測値の問題点

推定精度の低下

治療効果の推定精度は症例数が多いほど高くなることが分かっています。

欠測値を含むデータを解析する場合、欠測値がある症例数を除いて解析を行うことがあります。

そのような解析の場合、欠測値が発生すると欠測値がある症例数分、症例数が減ってしまい
治療効果の推定精度が低下してしまいます。

例えば、治療の有効割合が30%で、症例数が100例と1000例の場合の
治療有効割合の推定精度を見てみましょう！

このとき推定精度は信頼区間で評価することができ、
信頼区間の幅が狭いほど精度がよいことを示します。

このとき、治療の有効割合とその95%信頼区間を計算するとそれぞれ以下のようになります。

（100例） 30/100 = 30%（95%信頼区間 21.2%～40.0%）

（1000例）300/1000 = 30%（95%信頼区間 27.2%～32.9%）

100例の信頼区間の幅は18.8%、1000例の信頼区間の幅は5.7%と、
1000例の方が信頼区間が狭くなっていることが分かります。

このように症例数が少ないほど推定精度が低くなってしまいます。

そのため、欠測値がある場合、解析に使えない症例は解析から除かれて症例数が減ってしまうので、
欠測値がない場合に比べて推定精度が下がってしまいます！

バイアスの発生

欠測値の理由はさまざまあり、その理由の中には結果に影響するような理由もあります。

例えば、転院にも「仕事の都合でやむを得ず引っ越した場合」や
「病状が悪化してより専門的な病院に移る場合」などが考えられます。

それぞれ同じ欠測と扱うと、治療効果の評価にどのような影響があるでしょうか？

「仕事の都合」の場合、結果とは関係のない理由で、治療効果の評価に影響しないと考えられますが、
「病状の悪化」の場合、治療は無効であった、のような悪い結果が得られていたでしょう。

そのため、後者を除いて解析することは悪い結果を除いて解析することになり、
治療効果を過大評価するバイアスが入ってしまいます。

このように、欠測が起こった時には、欠測の理由が結果にどのように評価に影響するか、
を判断して取り扱わないと、結果にバイアスが入ってしまいます。

結果の信頼性が損なわれる

欠測値が多いと「データの取り方は正しかったのか」、「研究体制に問題はなかったのか」
と研究の質が問われます。

もし、同じ仮説を同じ規模、同じデザインで評価した2つの研究があったとき、
「欠測値が多い研究」と「欠測値が少ない研究」どちらを信用するでしょうか？

きっと「欠測値が少ない研究」でしょう。

このように欠測値が結果に影響を与えていないとしても、欠測値が起こることで研究の見られ方が
変わってしまうので、欠測値は発生させないことが第一です！

欠測値を扱うときには欠測の理由を特定しよう！

多くの場合、真の欠測理由を特定することは困難とされています。

それでも、どのようなメカニズム（理由）でその欠測が発生したかを考えることには
大きな意味があります！

というのも、欠測と結果にどんな関係があるかと推測するか、によって
適切な解析方法は変わってきますし、欠測理由がどの程度結果へ影響を与えるか
考察できるようになります！

欠測理由を考える上で意識してほしいことが、以下の欠測メカニズムのどれに当てはまるか、ということです。

欠測メカニズム

・MCAR(missing completely at random): 欠測を無視しても問題がない
欠測がどんなデータとも関連しておらず、ランダムに生じている

・MAR (missing at random) : 解析の工夫で偏りのない解析が可能
欠測が観測された他のデータに依存して起こっている

・MNAR (missing not at random)：解析の工夫では偏りのない解析が不可能
欠測が同じく欠測したデータに依存して起こっている

この欠測メカニズムが解析方法の選択に影響してきます。

ただ実際に解析するときにはMARを仮定することが多い印象です。
その理由はMARは工夫によって問題なく解析できるので便利な仮定だから。

では「みんながMARを仮定しているからMARでOK！」でよいでしょうか？

もちろんそうではなく、「本当はMNARであったときに、MARを仮定して行った解析の結果が
どのように変わってくるのか」を考えることが重要です。

例えば、欠測の理由が「病状の悪化」であるときを考えましょう。
「病状の悪化」は治療が効かなかったと考えられるので、
治療と欠測理由は関連があり、MNARと考えられます。

このような時にもMARを仮定して解析を行うことが多いですが、
欠測理由を考えておくことで解析結果を別の視点から見ることができます。
例えば、「解析結果は治療効果を過大評価しているのではないか？」と考察できるでしょう。

このように多くの場合MARが仮定されますが、手元のデータがどのように欠測したかを考えることで、
より深い考察ができるようになります！

欠測値の解析方法

次に欠測値の解析方法を見ていきましょう！

代表的な解析方法は大きく3つの方針に分けることができます。

欠測したデータを除く
欠測値を補完する
欠測値を欠測値のまま扱う

それぞれ順番に見ていきましょう！

欠測したデータを除いて解析する

一つ目の方法は完全データ解析です。

完全データとは、必要なデータが欠測した症例のデータは解析から除いてしまって、
ちゃんとデータが取れた症例のみになったデータのことです。
なので、完全データ解析はすべてデータがそろった症例のみを対象にした解析ということですね。

完全データ解析はシンプルで分かりやすい解析方法ですが、大きな問題点があります。

それは欠測メカニズムにはMCARが仮定されていることです。

多くの欠測値は結果に影響する理由で発生しているため、
完全データ解析では解析結果にバイアスが生じてしまいます。

欠測値を補完して解析する

二つ目の方法は欠測値を何かのデータで補完して解析する方法です。

補完方法には様々あります。

欠測値補完の例

直前にとられたデータで補完する（LOCF）
治療開始時のデータで補完する（BOCF）
ほかのデータがとれた症例の平均値で補完する（Mean imputation）
他の症例のデータから推定したデータで補完する（Multiple imputation）

どれも様々な前提があるので、欠測が起こった後の推移を予想して適切な方法を使う必要があります。

例えば直前にとられたデータで補完するLOCFでは
「欠測後の結果は最後に観察したときと同じ」という前提があります。

これは状況によって正しいとも間違っているともなります。

欠測理由が「病状の悪化」であれば、直前に得られたデータよりも予後が悪くなると考えられます。
そのため、LOCFでは「患者の状態を本来より良い」というバイアスが入ってしまいます。

そのため、欠測値を補完するときには、どのような理由、メカニズムで欠測をしたかを考えて、
その理由にあった補完方法を使う必要があります！

欠測値を欠測値のまま扱って解析する

3つ目は欠測値を欠測値のまま解析する方法です。

？？？？欠測値があったら解析できないのでは？？？？

とおかしくなった思われたのではないでしょうか笑

確かに一回しかデータをとらないときには補完など別の対応が必要になりますが、
複数回経時的にデータをとっているときには、
これまでのデータやほかの症例のデータを活用することで推定することが可能になります！

この解析方法はMMRM（mixed-effects models for repeated measures）と呼ばれ、
欠測メカニズムがMARである場合には妥当な方法であるとされています。

ただ理論的には複雑な方法で、分布や分散の仮定など難しい設定も必要になります。
なので、MMRMを行う際は近くの統計家に相談しましょう！

またMARでは妥当な解析ということは、逆に言えばMNARではバイアスが入ってしまう
ということなので、万能な方法というわけでもないことには注意してください！

結局どの解析方法を使うべき？

3種類の解析方法を説明しましたが、一体どの解析方法を使うべきでしょうか？

答えは、「様々な解析を行って、結果への影響を確認する感度解析を行うこと」

つまり、複数の解析を行って、解析結果がどう変わるかを考察する、ということです。

というのも、欠測の理由は様々考えられ、特定の理由と断定することが困難です。
また、複数の理由で欠測していることもしばしば。

そのため、絶対に正しい解析方法は分からないので、複数の解析結果を比較して、
解析結果にどんな違いがあるか確認する必要があります。

もし、解析結果が複数の解析で同じであれば、その結果が頑健であった、と主張できるようにもなります！

データ扱う上で大切なこと

ここまで欠測値の見方や解析方法を解説してきました。

ただ、データを扱う上で一番大切なことは「欠測を起こさないこと」です！

・・・そんなこと分かってるよ！(# ﾟДﾟ)

と思われたかもしれません。

ただ本当にこれが一番大切なことです。

ここまで説明してきたように、
欠測の理由を完璧に特定することはできず、万能な解析方法はありません。
解析で対応できる範囲には限界があります。

そのため、欠測を発生させないようにデータのとり方を工夫するなど、
研究の準備段階から欠測に対する対応を考えておく必要があります。

まとめ

今回は欠測値とはなにかと欠測値を扱う上で大切なことについて解説しました！

医学研究において欠測値は避けて通れないものですが、正しく付き合うことで質の高い研究になります。

ぜひ、今回の記事から欠測値の取り扱いを理解して、研究に役立ててみてください！

記事のまとめ

欠測値によって研究に様々な問題が発生してしまう
欠測値が起こる理由を特定して、適切な解析、結果への影響を考えよう
一番大切なのは、欠測が起こらないように研究を計画すること！