Процедура Каплана-Мейера

Материал из MachineLearning.

Перейти к: навигация, поиск

Процедура Каплана-Мейера или процедура выживания (англ. Kaplan-Meier estimator) оценивает функцию выживаемости.

График оценки функции выживаемости представляет из себя убывающую ступенчатую линию, приближающюю реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными.

Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента.

Содержание

Примеры задач

Пример 1(медицина)

Пациенты принимают некое лекарство. Нужно оценить долю пациентов, проживших после этого какой-то период времени.

Пример 2(экономика)

Оценить время, которое человек пробудет безработным, после ухода с прежнего места работы.

Пример 3(машиностроение)

Оценить время до того, как какая-то часть автомобиля откажет.

Описание метода

Оценка Каплана-Мейера

Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно.

Пусть выбраны t_i - моменты времени.

Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу.

Оценка функции выживания вычисляется по формуле

\hat{S}(t)=\prod_{i=0}^{T}\frac{R_i-d_i}{R_i},

где

R_i - число объектов, доживающих до момента времени t_i, исключая выбывших,

d_i - число объектов, для которых произошёл исход в момент времени t_i,

\frac{d_i}{R_i} - вероятность исхода.

Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если d_i=0, то \frac{R_i-d_i}{R_i}=1, а умножение на единицу никак результат не меняет.

Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).


Доверительный интервал выживаемости

Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда:

\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}

Доверительный интервал выживаемости в момент времени t с доверительной вероятностью 1-\alpha определяется так:

\hat{S}(t)-\sigma_{\hat{S}}\Phi_{\alpha}<S(t)<\hat{S}(t)+\sigma_{\hat{S}}\Phi_{\alpha},

где \Phi_{\alpha} - квантиль нормального распределения. Обычно берётся 95% доверительный интервал, т.е. \alpha=0.05.

Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль.


Литература

  • Стентон Гланц Медико-биологическая статистика. Электронная книга = Primer of BIOSTATISTICS. — 4-е изд. — М.: Практика, 1999. — С. 459.


См. также

Ссылки

Личные инструменты