医学研究では「患者さんが何年生存できるか」や「病気が治るまでにどのぐらい時間がかかるか」に興味があることがあります。このように特定の事象が発生するまでの期間のことを生存時間といい、生存時間を扱う解析を生存時間解析といいます。
生存時間解析では生存時間の要約としてよくカプランマイヤー曲線が使われます。
「よく」どころか「必須!」と言っても過言ではありません。
それぐらい生存時間解析では必須のカプランマイヤー曲線ですが、
カプランマイヤー曲線をどのように解釈すべきか、またカプランマイヤー曲線がどのような手順で描かれているのか、理解しているでしょうか?
この記事ではカプランマイヤー曲線が「どのような情報を与えてくれるのか?」や「カプランマイヤー曲線はどのような定義で描かれているのか」について解説します。
またEZRを使った解析方法も説明しているので、ぜひ一緒にカプランマイヤー曲線を描いてみましょう!
カプランマイヤー曲線とは?
カプランマイヤー曲線はTime-to-event型のエンドポイントを図示した生存曲線のことです。
英語では”Kaplan-Meier Curve”や”Kaplan-Meier Plot”のように表記します。
カプランマイヤー曲線はKaplanさんとMeierさんが考えたカプランマイヤー法に基づいて描かれるため、そのように呼ばれています。
カプランマイヤー曲線は以下の図のようなグラフのことで、横軸に時間、縦軸にその時点の生存割合を階段状に結んで作成します。
カプランマイヤー曲線の見方として重要なのは以下の3つです。
カプランマイヤー曲線の見方
- イベントが起こったところで階段が落ちる
- 打ち切りがひげで表現される
- その時点の生存例数はリスク集合(Number at risk)として表される
このようにカプランマイヤー曲線では、打ち切りもひげとして図示されるため、打ち切りを考慮する必要があるTime-to-event型のエンドポイントにぴったりの生存割合の図示の方法です。
カプランマイヤー曲線から分かること
カプランマイヤー曲線から分かる代表的な要約指標として以下の二つがあります。
カプランマイヤー曲線から分かる代表的な要約指標
- 年次生存割合
- 生存期間中央値
またカプランマイヤー曲線では要約指標以外にも付与される情報があります。
以下では代表的な要約指標とカプランマイヤー曲線から分かる重要な情報について順番に見ていきましょう!
年次生存割合
年次生存割合は1年時点の生存割合、2年時点の生存割合のように、特定の一時点の生存割合のことです。
“年次”として表現されることが一般的ですが、年に限る必要はありません。
予後の悪い疾患では6ヶ月生存割合など、短期的な生存割合が用いられることがあります。
年次生存割合はカプランマイヤー曲線から興味のある時点の生存割合を確認することでわかります。
例えば、1年生存割合を知りたければ、横軸の1年の場所から縦に生存割合を見ていきます。以下の例では1年生存割合は80%であることが分かります。
生存期間中央値(Median Survival Time; MST)
生存期間中央値は生存割合が50%となる時点のことです。
英語では”Median Survival Time (MST)”と表記されます。
注意が必要なのは、観察期間の中央値ではなく、カプランマイヤー曲線における生存割合が50%の時点を確認する必要があること。
例えば、以下の例では観察期間の中央値は3年ですが、カプランマイヤー曲線における生存割合が50%の時点は5年です。
そのため、生存期間中央値はカプランマイヤー曲線から確認するようにしましょう。
リスク集合(Number at risk)
リスク集合はその時点の生存例数を表した数値です。
英語では”Number at risk”と表記されます。
カプランマイヤー曲線においてはx軸の下に記載されることがあります。
リスク集合は軽視されがちですが、非常に重要な指標です。というのも、リスク集合は研究自体やその時点の生存割合がどの程度信頼できるかに関わってきます。
例えば、打ち切りが多い研究ではカプランマイヤー曲線に階段があまりないにも関わらず、リスク集合が減っていくということが起こります。そのような場合には研究自体の質を疑うべきということになります。
また同じ対象、同じ治療をターゲットにした2つの研究があったとき、1年時点の情報が以下の通りであった場合を考えてみます。どちらの情報がより正しいと考えられるでしょうか?
おそらく1年時点のNumber at riskが多い研究2の方が信用できると考えられるはずです。
研究 | 1年生存割合 | 1年時点のリスク集合 |
---|---|---|
1 | 50% | 10 |
2 | 80% | 1000 |
このようにリスク集合は研究の質や要約指標の信頼性に関わる重要な情報であることがわかります。
直観的な群間の差
カプランマイヤー曲線は直観的な群間の差を評価することにも使われます。
カプランマイヤー曲線は予後が良ければ上に這うような形、予後が悪ければ階段が早く落ちる形となります。そのため、カプランマイヤー曲線の階段の落ちる速さを見てあげることで、2群のどちらが予後が良いかを評価することができます。
カプランマイヤー曲線の描き方 – 生存割合の計算方法
以下ではカプランマイヤー曲線の各時点の生存割合の計算方法について解説します。
ただ基本的にはソフトウェアが描いてくれるため、細かい計算方法は知らなくても大丈夫です!
でも興味がある方は参考まで!
カプランマイヤー曲線はイベント発生時点の生存割合を以下の式で計算して、階段状に結んで作成します。
カプランマイヤー法による生存割合の計算式
$直前の生存割合\times(1-\frac{その時点のイベント数}{直前の追跡数})$
ただし、打ち切りがあると()内の考え方が複雑になってくるので、打ち切りがある場合と打ち切りない場合で、それぞれ描き方を見ていきましょう!
打ち切りがない場合
打ち切りがない場合は非常にシンプルで、ある時点の生存割合は「その時点の追跡例数/全症例数」となります。
例えば、5例を追跡して、生存の状況(いつ死亡したか)が以下のようになったとします。
患者番号 | 追跡期間 | イベント |
---|---|---|
1 | 1年 | 死亡 |
2 | 2年 | 死亡 |
3 | 3年 | 死亡 |
4 | 5年 | 死亡 |
5 | 7年 | 死亡 |
このとき、カプランマイヤー曲線では生存割合を以下のように計算します。
- 1年:$1 \times (1-1/5)=80\%$
- 2年:$0.8 \times (1-1/4)=60\%$
- 3年:$0.6 \times (1-1/3)=40\%$
- 4年:$0.4 \times (1-1/2)=20\%$
- 5年:$0.2 \times (1-1/1)=0\%$
このように打ち切りがない場合は、カプランマイヤー曲線では、1/全症例数と同じ確率で階段が落ち、各イベント時点の生存割合を(その時点の生存例数/全症例数)で計算してプロットします。
打ち切りがある場合
打ち切りがある場合には、単純に各イベント時点の生存割合を(その時点の生存例数/全症例数)で計算することができず、打ち切り例数を考慮して計算していく必要があります。
実際に数値を使ってカプランマイヤー曲線の描き方を見ていきましょう!
例えば、5例を追跡して、生存の状況(いつ死亡したか)と打ち切りの状況(いつ追跡不能になったか)が以下のようになったとします。
患者番号 | 追跡期間 | イベント |
---|---|---|
1 | 1年 | 死亡 |
2 | 2年 | 打ち切り |
3 | 3年 | 死亡 |
4 | 5年 | 死亡 |
5 | 7年 | 打ち切り |
このとき、カプランマイヤー曲線では生存割合を以下のように計算します。
- 1年:$1 \times (1-1/5)=80\%$
- 2年(打ち切り):$4/5 \times (1-0/4)=80\%$
- 3年:$4/5 \times (1-1/3)= 8/15 =53.3\%$
- 5年:$8/15 \times (1-1/2)=4/15 = 26.7\%$
- 7年(打ち切り):$4/15 \times (1-0/1)=4/15 = 26.7\%$
打ち切り時点ではカプランマイヤー曲線は生存割合が変わらず、階段が落ちていないことが分かります。
また打ち切り発生以降は()内の分母から打ち切り例が抜けており、分母はその時点の直前の追跡例数となっていることが分かるかと思います。
そのため、打ち切りがない場合とは異なり、階段の落ち方が一定にならない、ということになります。
このように打ち切りが発生している場合には、カプランマイヤー曲線は打ち切り発生前後で階段の落ち方が変わり、打ち切りを考慮して生存時間を記述しています。
EZRでカプランマイヤー曲線を描いてみよう!
次にEZRでカプランマイヤー曲線を描いてみましょう!
取り扱うデータは前述の打ち切りを含むデータです。
患者番号 | 追跡期間 | イベント |
---|---|---|
1 | 1年 | 死亡 |
2 | 2年 | 打ち切り |
3 | 3年 | 死亡 |
4 | 5年 | 死亡 |
5 | 7年 | 打ち切り |
データの読み込みから順番に進めるので、是非一緒にやってみましょう!
データセットの作成
今回はデータ数が少ないので、データを直接入力する形でデータセットを作成します。
データを直接入力する場合は以下のように選択します。
EZRでのデータセット作成方法(直接入力)
「ファイル」→「新しいデータセットを作成する(直接入力)」
「新しいデータセット」というウィンドウが開くので、ここでは「Survival」とします。
これで「✅OK」をクリックします。
すると「データエディタ:Survival」というウィンドウが開くので、以下のようにデータを入力しましょう。変数を増やしたいときは「列を追加」、症例数を増やしたいときは「行を追加」をクリックします。
イベントのフラグを入力する際には、必ずイベントが「1」、打ち切りが「0」となるようにしましょう!
EZRではイベントが「1」、打ち切りが「0」で処理されるため、逆に入力してしまうと間違った解析結果が出てきてしまいます。
実際にカプランマイヤー曲線を描いてみる
データセットが準備できたらいよいよカプランマイヤー曲線を描いていきましょう!
カプランマイヤー曲線を描くには以下のように選択します。
EZRでのカプランマイヤー曲線の作成方法
「統計解析」→「生存時間の解析」→「生存時間の記述と群間の比較(Logrank検定)」
すると、「生存時間の記述と群間の比較(Logrank検定)」というウィンドウが開きます。
このウィンドウで順番に変数を選択していきます。
- 観察期間の変数:year
- イベント(1)、打ち切り(0)の変数:event
これで「✅OK」をクリック。
これらの操作によってカプランマイヤー曲線を描くことができます!
年次生存割合と生存期間中央値も確認!
次にRコマンダーの「出力」を確認していきましょう。
ここには年次生存割合や生存期間中央値とそれらの95%信頼区間が表示されています。
例えば、3年時点の生存割合とその信頼区間は53.3%(95%信頼区間; 6.8%-86.3%)、生存期間中央値は5年であることが分かります。
【参考】イベントが起こっていない時点の生存割合と信頼区間はどう確認する?
EZRではイベント発生時点の生存割合と信頼区間は表示されますが、
イベント発生時点以外の時点の生存割合と信頼区間はどのように確認すればよいでしょうか?
実はイベント発生時点以外の時点の生存割合と信頼区間は
直前のイベント発生時点の生存割合と信頼区間と同じになります!
例えば、2年時点の生存割合と信頼区間を確認したければ、
1年時点の生存割合と信頼区間を確認すればよいことになります。
まとめ
今回は生存時間解析では必須のカプランマイヤー曲線について解説しました!
カプランマイヤー曲線は生存時間を直観的にグラフで示す方法で、横軸に観察期間、縦軸に生存割合をプロットして階段状に結ぶことで作図します。
カプランマイヤー曲線からは年次生存割合や生存期間中央値など、重要な要約指標を知ることができます。またカプランマイヤー曲線のリスク集合(Number at risk)は軽視されがちですが、研究の質を知るための重要な指標にもなり得るため、絶対に覚えておきましょう!
最後にカプランマイヤー曲線は生存時間解析ではキホンのキですので、ぜひ覚えておきましょう!
今回の記事がその力になれれば嬉しいです!
コメント