Процедура Каплана-Мейера
Материал из MachineLearning.
(дополнение) |
|||
Строка 1: | Строка 1: | ||
- | '''Процедура Каплана-Мейера или процедура выживания''' (англ. Kaplan-Meier estimator) оценивает функцию выживаемости. | + | '''Процедура Каплана-Мейера или процедура выживания''' (англ. Kaplan-Meier estimator) оценивает [[Функция выживаемости|функцию выживаемости]]. |
- | График оценки функции выживаемости представляет из себя | + | График оценки функции выживаемости представляет из себя убывающи. ступенчатую линию , где берутся достаточно большые отрезки, приближающие реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными. |
Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента. | Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента. | ||
- | |||
- | |||
==Примеры задач== | ==Примеры задач== | ||
Строка 19: | Строка 17: | ||
==Описание метода== | ==Описание метода== | ||
- | |||
- | |||
- | + | ===Оценка Каплана-Мейера=== | |
+ | Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно. | ||
- | <tex> | + | Пусть выбраны <tex>t_i</tex> - моменты времени. |
- | + | Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу. | |
- | + | '''Оценка функции выживания''' вычисляется по формуле | |
- | + | ||
- | + | <tex>\hat{S}(t)=\prod_{i=0}^{T}\frac{R_i-d_i}{R_i}</tex>, | |
- | + | где | |
- | + | <tex>R_i</tex> - число объектов, доживающих до момента времени <tex>t_i</tex>, исключая выбывших, | |
+ | |||
+ | <tex>d_i</tex> - число объектов, для которых произошёл исход в момент времени <tex>t_i</tex>, | ||
+ | |||
+ | <tex>\frac{d_i}{R_i}</tex> - вероятность исхода. | ||
+ | |||
+ | Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если <tex>d_i=0</tex>, то <tex>\frac{R_i-d_i}{R_i}=1</tex>, а умножение на единицу никак результат не меняет. | ||
Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958). | Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958). | ||
- | ==Доверительный интервал== | + | ==Доверительный интервал выживаемости== |
+ | Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда: | ||
<tex>\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}</tex> | <tex>\sigma_{\hat{S}}=\hat{S}(t)\sqrt{\sum_{i=0}^{t} \frac{d_i}{R_i(R_i-d_i)}}</tex> | ||
- | [[Доверительный интервал]] с доверительной вероятностью <tex>1-\alpha</tex>: | + | [[Доверительный интервал]] выживаемости в момент времени <tex>t</tex> с доверительной вероятностью <tex>1-\alpha</tex> определяется так: |
+ | |||
+ | <tex>\hat{S}(t)-\sigma_{\hat{S}}\Phi_{\alpha}<S(t)<\hat{S}(t)+\sigma_{\hat{S}}\Phi_{\alpha}</tex>, | ||
+ | |||
+ | где <tex>\Phi_{\alpha}</tex> - квантиль нормального распределения. Обычно берётся 95% [[Доверительный интервал|доверительный интервал]], т.е. <tex>\alpha=0.05</tex>. | ||
- | |||
- | + | Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при | |
+ | оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль. | ||
Строка 72: | Строка 79: | ||
== Ссылки == | == Ссылки == | ||
- | *[http://en.wikipedia.org/wiki/Kaplan-Meier Kaplan-Meier estimator] | + | *[http://en.wikipedia.org/wiki/Kaplan-Meier Kaplan-Meier estimator] (Wikipedia) |
+ | *[http://www.statsoft.ru/home/textbook/modules/stsurvan.html#kaplan Множительные оценки Каплана-Мейера] (StatSoft) | ||
[[Категория: Прикладная статистика]][[Категория:Анализ выживаемости]] | [[Категория: Прикладная статистика]][[Категория:Анализ выживаемости]] | ||
{{UnderConstruction|[[Участник:Ekaterina Mikhaylova|Ekaterina Mikhaylova]] 06:16, 11 января 2009 (MSK)}} | {{UnderConstruction|[[Участник:Ekaterina Mikhaylova|Ekaterina Mikhaylova]] 06:16, 11 января 2009 (MSK)}} |
Версия 17:43, 11 января 2009
Процедура Каплана-Мейера или процедура выживания (англ. Kaplan-Meier estimator) оценивает функцию выживаемости.
График оценки функции выживаемости представляет из себя убывающи. ступенчатую линию , где берутся достаточно большые отрезки, приближающие реальные значения функции выживаемости для этой задачи. Значения функции выживаемости между точками наблюдений считаются константными.
Важным преимуществом процедуры Каплана-Мейера, является то, что этот метод справляется с цензурированными данными, т.е. учитывается, что пациенты могут выбывать в ходе эксперимента.
Содержание |
Примеры задач
Пример 1(медицина)
Пациенты принимают некое лекарство. Нужно оценить долю пациентов, проживших после этого какой-то период времени.
Пример 2(экономика)
Оценить время, сколько человек будет безработным , после ухода с прежнего места работы.
Пример 3(машиностроение)
ценить время, пока какая-то часть автомобиля откажет.
Описание метода
Оценка Каплана-Мейера
Для цензурированных, но не группированных наблюдений времен жизни, функцию выживания можно оценить непосредственно.
Пусть выбраны - моменты времени.
Для каждого момента времени оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, перемножая вероятности выживания в каждом интервале, получим следующую формулу.
Оценка функции выживания вычисляется по формуле
,
где
- число объектов, доживающих до момента времени , исключая выбывших,
- число объектов, для которых произошёл исход в момент времени ,
- вероятность исхода.
Заметим, что можно перемножать значения только для тех моментов времени, когда произошёл хотя бы один исход, потому что, если , то , а умножение на единицу никак результат не меняет.
Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).
Доверительный интервал выживаемости
Оценку точности приближения кривой выживаемости дает стандартная ошибка выживаемости, ее можно рассчитать по формуле Гринвуда:
Доверительный интервал выживаемости в момент времени с доверительной вероятностью определяется так:
,
где - квантиль нормального распределения. Обычно берётся 95% доверительный интервал, т.е. .
Если посмортреть на графике пример доверительного интервала, то виден расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области заключается в том, что чем меньше наблюдений к концу эксперимента, тем больше ошибка.Поэтому существует ограничение при
оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль.
Литература
- Стентон Гланц Медико-биологическая статистика. Электронная книга = Primer of BIOSTATISTICS. — 4-е изд. — М.: Практика, 1999. — С. 459.
См. также
Ссылки
- Kaplan-Meier estimator (Wikipedia)
- Множительные оценки Каплана-Мейера (StatSoft)
Статья в настоящий момент дорабатывается. Ekaterina Mikhaylova 06:16, 11 января 2009 (MSK) |