Процедура Каплана-Мейера
Материал из MachineLearning.
Процедура Каплана-Мейера или процедура выживания (англ. Kaplan-Meier estimator) оценивает функцию выживаемости.
График оценки функции выживаемости представляет из себя убывающи. ступенчатую линию , где берутся достаточно большые отрезки, приближающие реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными.
Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента.
Содержание |
Примеры задач
Пример 1(медицина)
Пациенты принимают некое лекарство. Нужно оценить долю пациентов, проживших после этого какой-то период времени.
Пример 2(экономика)
Оценить время, сколько человек будет безработным , после ухода с прежнего места работы.
Пример 3(машиностроение)
ценить время, пока какая-то часть автомобиля откажет.
Описание метода
Оценка Каплана-Мейера
Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно.
Пусть выбраны - моменты времени.
Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу.
Оценка функции выживания вычисляется по формуле
,
где
- число объектов, доживающих до момента времени , исключая выбывших,
- число объектов, для которых произошёл исход в момент времени ,
- вероятность исхода.
Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если , то , а умножение на единицу никак результат не меняет.
Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).
Доверительный интервал выживаемости
Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда:
Доверительный интервал выживаемости в момент времени с доверительной вероятностью определяется так:
,
где - квантиль нормального распределения. Обычно берётся 95% доверительный интервал, т.е. .
Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при
оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль.
Литература
- Стентон Гланц Медико-биологическая статистика. Электронная книга = Primer of BIOSTATISTICS. — 4-е изд. — М.: Практика, 1999. — С. 459.
См. также
Ссылки
- Kaplan-Meier estimator (Wikipedia)
- Множительные оценки Каплана-Мейера (StatSoft)
Статья в настоящий момент дорабатывается. Ekaterina Mikhaylova 06:16, 11 января 2009 (MSK) |