Множественная проверка гипотез
Материал из MachineLearning.
Множественная проверка гипотез — класс задач прикладной статистики, возникающий при необходимости одновременного построения семейства статистических выводов. В каждое такое утверждение, представляющее собой вывод об отвержении гипотезы при проверке статистических гипотез, изначально закладывается возможность ошибки (ложного отклонения гипотезы, ошибки первого рода). Вероятность такой ошибки ограничивается неким достаточно малым значением — уровнем значимости (например, часто берут ), выражающим степень неуверенности в справедливости заключения. При одновременном построении заключений это приводит к тому, что вероятность совершения хотя бы одной такой ошибки оказывается ограничена сверху величиной вида , которая является недопустимо большой уже для достаточно малых , то есть, с достаточно большой вероятностью рассматриваемое множество выводов содержит ошибочные. Для устранения этого эффекта, называемого эффектом множественных сравнений, разработан ряд статистических техник. Процедура принятия или отклонения гипотез перестраивается таким образом, чтобы некая величина, являющаяся многомерным обобщением ошибки первого рода, была ограничена сверху наперёд заданным числом.
Содержание |
Примеры
- В 1950 году Джозеф Райн проводил эксперименты по выявлению людей с экстрасенсорными способностями. Каждый испытуемый должен был угадать цвет каждой карты в последовательности из 10 карт. В таком опыте вероятность случайно угадать 9 или 10 карт из 10 составляет 11*2-10 ≈ 0.01 — достаточно редкое событие, чтобы признать его маловероятным, поэтому Райн считал его свидетельством того, что испытуемый — экстрасенс. Однако, поскольку в опыте участвовало 1000 человек, вероятность того, что хотя бы один из них случайно угадает 9 или 10 карт составляла 1-(1-11*2-10)1000 ≈ 0.9998. Действительно, из 1000 испытуемых 12 человек угадали 9 из 10 карт, двое — все 10 карт. В последующих экспериментах ни один из них не подтвердил свои способности.
- Пусть инвестор выбирает, в какие из множества инвестиционных фондов вложить свои деньги. Для оценки инвестиционной привлекательности каждого фонда он вынужден использовать статистический критерий, чтобы отделить фонды, получившие в прошлом прибыль за счёт правильной стратегии управления, от тех, которые получили прибыль только в силу влияния случайных факторов. Чем больше множество фондов, из которых инвестор выбирает, тем больше вероятность того, что какие-то из них покажутся ему потенциально прибыльными, даже если их успех имел не систематический характер.
- Пусть сравниваются способности нового и уже существующего лекарств влиять на ряд симптомов некоторого заболевания, причём, поскольку интерес представляют выводы отдельно по каждому симптому, проверяются покомпонентные гипотезы превосходства нового лекарства над старым. Чем больше список рассматриваемых симптомов, тем более вероятно, что новый препарат окажется лучше старого хотя бы в отношении одного из симптомов.
- Пусть проверяется безопасность нового лекарства путём проверки наличия большого количества побочных эффектов. Чем больше побочных эффектов рассматривается, тем более вероятно, что хотя бы один из них будет признан связанным с употреблением лекарства.
Обозначения
Пусть — множество нулевых гипотез, проверяемых против альтернатив общего вида . Если нулевая гипотеза верна, будем писать , и в противном случае.
Пусть и — неизвестные множества индексов верных и неверных нулевых гипотез, , , . Количество отклонённых нулевых гипотез и количество принятых — наблюдаемые случайные величины, в то время как величины ,, и из приведённой ниже таблицы являются ненаблюдаемыми.
Число принятых гипотез | Число отвергнутых гипотез | Всего | |
---|---|---|---|
Число верных гипотез | |||
Число неверных гипотез | |||
Всего |
Задача состоит в том, чтобы выбрать метод, допускающий минимальное число ложных отклонений гипотез и ложных принятий . Как и в одномерном случае, подход заключается в том, чтобы, ограничив меру ошибки первого рода малой величиной , выбрать процедуру, минимизирующую меру ошибки второго рода, т.е., максимизирующую мощность.
Типы семейств гипотез
Иерархические, неиерархические
Меры ошибки первого рода при множественной проверке
Существует большое количество величин, обобщающих определение ошибки первого рода на задачу множественной проверки гипотез. Наиболее популярны следующие:
- FWER — familywise error rate, групповая вероятность ошибки (первого рода).
- k-FWER, gFWER — generalized familywise error rate, обобщённая групповая вероятность ошибки (первого рода).
- FDR — false discovery rate, средняя доля ложных отклонений гипотез (среди всех отклонений).
- FDP — false discovery proportion, доля ложных отклонений гипотез (среди всех отклонений).
Связь между мерами ошибки первого рода
- Для фиксированной процедуры множественной проверки .
- При (все рассматриваемые гипотезы верны) .
- .
Литература
Ссылки
- Multiple comparisons — статья из английской Википедии.