【予測モデルの変数はどう選ぶ？】機械的な変数選択法と説明変数の正しい選び方を解説！

予測モデルは結果変数に関連する説明変数を複数入れて、データへの当てはまり具合を見ることで構築していきます。その際に多くの研究では機械的に説明変数を選んでくる変数選択法が使われます。

この変数選択の方法、なんとなくで選んでいないでしょうか？
機械的に選ばれるから、どれも正しい方法だと思っていないでしょうか？

この記事では、４種類の変数選択法の概要と正しい説明変数の選び方を解説します！

大前提：説明変数は既報から選ぶべき！

この記事では機械的な変数選択法について解説しますが、

説明変数の選び方は統計家のコンセンサスとして、
「予測モデルを構築するときの説明変数は同領域の過去の論文・報告から選ぶべき」
という考え方があります。

既報から選ぶことで重要な変数の取り逃しを防ぐ！

予測モデルを構築するときの説明変数は同領域の過去の論文・報告から選ぶべき理由は、
以下の通りです。

既報から説明変数を選ぶ理由

すでに複数の研究で報告された説明変数は強い影響を与える因子である
機械的な変数選択法は重要な変数を取り逃したり、不要な変数を取り入れる可能性がある

そのため、同じ研究領域で特定された説明変数があるときには、その変数を利用して予測モデルを構築していきます。

機械的な変数選択法が適用される状況

では、もし予測モデルや予後因子・予測因子を特定するような過去の研究がない場合はどうすればよいでしょうか？

このような場合にはイベント数と候補となる説明変数の数の比によって機械的な変数選択法が使われることがあります。
ここではイベント数はロジスティック回帰の場合は各カテゴリの最も少ない症例数、Cox比例ハザードモデルの場合はイベントが発生した症例数を指します。

例えばこちらの論文ではイベント数/候補となる説明変数の数が

10より大きい場合：モデルの安定性に注意して、機械的な変数選択法も選択肢となる
10以下の場合：変数の解釈が困難になる（そもそも予測モデル構築を勧めない）

としています。

そのため、イベント数/候補となる説明変数の数が十分に得られる場合には、機械的な変数選択も予測モデル構築法の選択肢となります。

ただし、それぞれの機械的な変数選択法にも注意点がありますので、以下では各変数選択法の概要と注意点を見ていきましょう！

代表的な４種の変数選択法

変数選択法とは、予測モデルを構築するときに説明変数を一定のルールで選んでくる方法です。

代表的な変数選択法には以下の４種類の方法があります。

代表的な変数選択法

ｐ値による変数選択
変数増加法
変数減少法
変数増減法

以下ではそれぞれの詳細と特徴を見ていきましょう！

{変数選択法のメリット・デメリットまとめ}

ｐ値による変数選択

この方法は各説明変数で単変量解析を行って、ｐ値が事前に決めた基準以下になった変数を予測モデルに加える方法です。

例えば、ｐ値が0.05未満となるような変数を予測モデルに加える、というように変数選択を行います。

この方法ではたまたまｐ値が小さくなった因子が取り込まれてしまう検定の多重性が問題となります。

そのため、ｐ値による変数選択は数多くの研究で使われている方法である一方で、
一番推奨されない方法です。

変数増加法

変数増加法（forward selection）は説明変数が一つも入っていないモデルから、事前に定めた取り入れ基準に従って説明変数の数を増やしていく方法です。

取り入れ基準にはよくｐ値が使われます。

例えば、取り入れ基準を0.1、説明変数の候補が３つ（性別、年齢、BMI）の場合の変数増加法の手順を見ていきましょう！

変数増加法の手順

性別、年齢、BMIを一つずつモデルに入れたときの各変数のｐ値を計算する。
性別、年齢、BMIのｐ値が0.05以下であり、最も小さい変数をモデルに取り入れる（性別が取り込まれる）。
性別＋年齢、性別＋BMIの二つのモデルを入れたときのｐ値を計算する。
年齢、BMIのｐ値のうち、0.05以下であり、どちらか小さい変数をモデルに取り入れる（BMIが取り込まれる）。
性別＋年齢＋BMIの3つをモデルに入れたときのｐ値を計算する。
もし、年齢のｐ値が0.05以上であれば取り込まず、変数増加法終了

変数増加法は変数を一つずつ組み入れる方法なので、症例数が少なくとも安定した推定が行える、という特徴があります。

ただし、変数選択がその前に取り入れられた変数に依存するため、重要な変数を取り逃す可能性があります。

変数減少法

変数減少法（backward selection）は説明変数の候補が全て入ったモデルから、事前に定めた取り入れ基準に従って説明変数の数を減らしていく方法です。

変数減少法でも除外基準にはよくｐ値が使われます。

例えば、除外基準を0.05、説明変数の候補が３つ（性別、年齢、BMI）の場合の変数減少法の手順を見ていきましょう！

変数減少法の手順

性別＋年齢＋BMIの全てを取り入れたモデルから各変数のｐ値を計算する。
性別、年齢、BMIのうち、0.05以上であり、最も大きい変数をモデルから取り除く（ここでは年齢が取り除かれる）。
性別＋BMIの二つのモデルを入れたときの各変数のｐ値を計算する。
性別、BMIのｐ値のうち、0.1以上であり、どちらか大きい方の変数をモデルから取り除く
もし、ｐ値が0.1以上となる変数がなければ変数減少法終了

変数減少法は初めから変数を全て組み入れているため、変数増加法に比べて重要な変数を取り逃す可能性は低くなります。

一方で、症例数が少ない状況では説明変数が多くなると推定が安定せず変数選択自体が行えない、変数選択が変数の除外順に依存するため重要な変数を取り逃す、という問題があります。

変数増減法

変数増減法（stepwise selection）は変数の取り入れと除外を繰り返してモデルを構築する方法です。

つまり、変数増加法と変数減少法を交互に行うようなイメージです。

変数増減法には説明変数が０個のモデルを想定して変数増加法から始める方法と説明変数が全て入ったモデルを想定して変数減少法から始める方法の２種類があります。

どちらの方法でも変数の取り入れ基準と除外基準の２つを設定する必要があります。

変数増加法と変数減少法と同様に取り入れ基準、除外基準としてｐ値がよく使われます。

多くの場合、取り入れ基準よりも除外基準の方が厳しめに設定されます（そうしないと取り入れた変数が次の除外の手順で除外されることになります）。

変数増減法は変数の取り入れと除外を繰り返すことから、変数増加法や変数減少法に比べて取り入れ順によって重要な変数を取り逃す可能性は低くなります。

ただし、取り入れ順によって検討されない組み合わせがあり、
重要な変数を取り逃す可能性があることには変わりないため、注意が必要になります。

発展的な変数選択法と説明変数の取り入れ・除外基準

今回説明した方法以外にも発展的な変数選択法や説明変数の取り入れ基準と除外基準が使われることがあります。

発展的な変数選択法

発展的な変数選択法にはLasso回帰やRidge回帰、Elastic net回帰という方法があります。

これらの方法では、回帰モデルを工夫することで、イベント数/候補となる説明変数の数が小さい場合でも、安定した解析が行えるという利点があります。

ただし、事前のモデル設定が複雑になることや、それにより解釈が難しくなることがあるため、
適用には注意が必要になります。

ｐ値以外の説明変数の取り入れ基準・除外基準

また今回はｐ値での説明変数の取り入れ基準と除外基準を説明しました。

この説明変数の取り入れ基準と除外基準にはｐ値以外にも、
AIC（赤池情報量基準）やBIC（ベイジアン情報量基準）といった方法があります。

AICやBICはｐ値にはない「モデルの複雑さ」を考慮した指標です。
つまり、AICやBICを使うことで「予測精度はいいが変数が非常に多いモデル」と
「予測精度がそこそこで変数が少ないモデル」のどちらがよいモデルか比較できるようになります。

この「モデルの複雑さ」は予測モデルを構築する際に重要な指標です。
一般に予測モデルの精度は説明変数が多い複雑なモデルほど高くなりますが、これは複雑なモデルほど予測モデルを構築した集団のデータの細かな変動を予測することができるようになるからです。

つまり、予測精度が高いのは予測モデルを構築した集団のみであり、別の集団では精度が悪くなることになります。そうなるとモデルの一般化可能性が損なわれ、実用化できないモデルとなってしまいます。

またモデルが複雑ということは、実臨床で活用するために予測するために患者さんに多くの検査を行う必要がある、ということでもあります。このようなモデルでは必要なデータをとるための負担が大きくなるため、実臨床で活用が難しくなります。

そのため、ｐ値の他にAICやBICを活用することでモデルの複雑さを考慮した、実用化しやすい予測モデルの構築につなげられるようになります。

まとめ

今回は代表的な変数選択法とその正しい選び方について解説しました！

変数選択の大前提は既報から選ぶことですが、場合によっては機械的な変数選択も行われることがあります。どのような状況で機械的な変数選択が行われるか、どの方法を選ぶのか、をこの記事を通して学んでいただけたならうれしいです！