Процедура Каплана-Мейера

Материал из MachineLearning.

Перейти к: навигация, поиск

Процедура Каплана-Мейера или процедура выживания (англ. Kaplan-Meier estimator) оценивает функцию выживаемости.

График оценки функции выживаемости представляет из себя убывающи. ступенчатую линию , где берутся достаточно большые отрезки, приближающие реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными.

Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента.

Содержание

Примеры задач

Пример 1(медицина)

Пациенты принимают некое лекарство. Нужно оценить долю пациентов, проживших после этого какой-то период времени.

Пример 2(экономика)

Оценить время, сколько человек будет безработным , после ухода с прежнего места работы.

Пример 3(машиностроение)

ценить время, пока какая-то часть автомобиля откажет.


Описание метода

Оценка Каплана-Мейера

Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно.

Пусть выбраны t_i - моменты времени.

Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу.

Оценка функции выживания вычисляется по формуле

\hat{S}(t)=\prod_{i=0}^{T}\frac{R_i-d_i}{R_i},

где

R_i - число объектов, доживающих до момента времени t_i, исключая выбывших,

d_i - число объектов, для которых произошёл исход в момент времени t_i,

\frac{d_i}{R_i} - вероятность исхода.

Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если d_i=0, то \frac{R_i-d_i}{R_i}=1, а умножение на единицу никак результат не меняет.

Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).


Доверительный интервал выживаемости

Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда:

\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}

Доверительный интервал выживаемости в момент времени t с доверительной вероятностью 1-\alpha определяется так:

\hat{S}(t)-\sigma_{\hat{S}}\Phi_{\alpha}<S(t)<\hat{S}(t)+\sigma_{\hat{S}}\Phi_{\alpha},

где \Phi_{\alpha} - квантиль нормального распределения. Обычно берётся 95% доверительный интервал, т.е. \alpha=0.05.


Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль.


Литература

  • Стентон Гланц Медико-биологическая статистика. Электронная книга = Primer of BIOSTATISTICS. — 4-е изд. — М.: Практика, 1999. — С. 459.


См. также

Ссылки

Статья в настоящий момент дорабатывается.
Ekaterina Mikhaylova 06:16, 11 января 2009 (MSK)


Личные инструменты