Проверка статистических гипотез
Материал из MachineLearning.
(уточнение) |
(дополнение) |
||
Строка 12: | Строка 12: | ||
Методика состоит в следующем. | Методика состоит в следующем. | ||
- | # Формулируется ''нулевая'' | + | # Формулируется ''нулевая гипотеза'' <tex>H_0</tex> о распределении вероятностей на множестве <tex>X</tex>. Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — ''основная'' или ''нулевая'' <tex>H_0</tex> и альтернативная <tex>H_1</tex>. Иногда альтернатива не формулируется в явном виде; тогда предполагается, что <tex>H_1</tex> означает «не <tex>H_0</tex>». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже. |
# Задаётся некоторая [[статистика (функция выборки)]] <tex>T:\: X^m \to \mathbb{R}</tex>, для которой в условиях справедливости гипотезы <tex>H_0</tex> выводится [[функция распределения]] <tex>F(T)</tex> и/или [[плотность распределения]] <tex>p(T)</tex>. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика <tex>T</tex>. Вывод функции распределения <tex>F(T)</tex> при заданных <tex>H_0</tex> и <tex>T</tex> является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для <tex>F(T)</tex>; в статистических пакетах имеются готовые вычислительные процедуры. | # Задаётся некоторая [[статистика (функция выборки)]] <tex>T:\: X^m \to \mathbb{R}</tex>, для которой в условиях справедливости гипотезы <tex>H_0</tex> выводится [[функция распределения]] <tex>F(T)</tex> и/или [[плотность распределения]] <tex>p(T)</tex>. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика <tex>T</tex>. Вывод функции распределения <tex>F(T)</tex> при заданных <tex>H_0</tex> и <tex>T</tex> является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для <tex>F(T)</tex>; в статистических пакетах имеются готовые вычислительные процедуры. | ||
# Фиксируется ''[[уровень значимости]]'' — допустимая для данной задачи вероятность ''ошибки первого рода'', то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число <tex>\alpha \in [0,1]</tex>. На практике часто полагают <tex>\alpha=0.05</tex>. | # Фиксируется ''[[уровень значимости]]'' — допустимая для данной задачи вероятность ''ошибки первого рода'', то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число <tex>\alpha \in [0,1]</tex>. На практике часто полагают <tex>\alpha=0.05</tex>. | ||
Строка 28: | Строка 28: | ||
* По мере увеличения длины выборки нулевая гипотеза может сначала приниматься, но потом выявятся более тонкие несоответствия данных гипотезе, и она будет отвергнута. То есть многое зависит от объёма данных; если данных не хватает, можно принять даже самую неправдоподобную гипотезу. | * По мере увеличения длины выборки нулевая гипотеза может сначала приниматься, но потом выявятся более тонкие несоответствия данных гипотезе, и она будет отвергнута. То есть многое зависит от объёма данных; если данных не хватает, можно принять даже самую неправдоподобную гипотезу. | ||
* Выбранная статистика <tex>T</tex> может отражать не всю информацию, содержащуюся в гипотезе <tex>H_0</tex>. В таком случае увеличивается вероятность ошибки второго рода — нулевая гипотеза может быть принята, хотя на самом деле она не верна. Допустим, например, что <tex>H_0</tex> = «распределение нормально»; <tex>T(X^m)</tex> = [[коэффициент асимметрии]]; тогда выборка с любым симметричным распределением будет признана нормальной. Чтобы избегать таких ошибок, следует пользоваться более [[Мощность критерия|мощными критериями]]. | * Выбранная статистика <tex>T</tex> может отражать не всю информацию, содержащуюся в гипотезе <tex>H_0</tex>. В таком случае увеличивается вероятность ошибки второго рода — нулевая гипотеза может быть принята, хотя на самом деле она не верна. Допустим, например, что <tex>H_0</tex> = «распределение нормально»; <tex>T(X^m)</tex> = [[коэффициент асимметрии]]; тогда выборка с любым симметричным распределением будет признана нормальной. Чтобы избегать таких ошибок, следует пользоваться более [[Мощность критерия|мощными критериями]]. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
== Типы критической области == | == Типы критической области == | ||
Строка 95: | Строка 89: | ||
#<tex>\beta(H_0) = \beta'(H_0)</tex>; | #<tex>\beta(H_0) = \beta'(H_0)</tex>; | ||
#<tex>\beta(H_1) \leq \beta'(H_1)</tex> для всех рассматриваемых альтернатив <tex>H_1\neq H_0</tex>, причём хотя бы для одной альтернативы неравенство строгое. | #<tex>\beta(H_1) \leq \beta'(H_1)</tex> для всех рассматриваемых альтернатив <tex>H_1\neq H_0</tex>, причём хотя бы для одной альтернативы неравенство строгое. | ||
+ | |||
+ | == Типы статистических гипотез == | ||
+ | |||
+ | * '''Простая гипотеза''' однозначно определяет функцию распределения на множестве <tex>X</tex>. Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия ([[Теорема Неймана-Пирсона]]). | ||
+ | |||
+ | * '''Сложная гипотеза''' утверждает принадлежность распределения к некоторому множеству распределений на <tex>X</tex>. Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях. | ||
== Типы статистических критериев == | == Типы статистических критериев == | ||
- | + | В зависимости от проверяемой ''нулевой гипотезы'' статистические критерии делятся на группы, перечисленные ниже по разделам. | |
- | + | Наряду с ''нулевой гипотезой'', которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на ''дополнительные предположения'', которые априори предпологаются выполненными. | |
+ | * ''Параметрические критерии'' предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Однако если выборка не удовлетворяет дополнительным предположениям, то вероятность ошибок (как I, так и II рода) резко возрастает. Прежде чем применять такие критерии, необходимо проверить дополнительную гипотезу о распределении с помощью критериев согласия. | ||
+ | * ''Непараметрические критерии'' не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относятся [[Категория:Ранговые критерии|ранговые критерии]]. | ||
- | Критерии | + | === Критерии согласия === |
+ | Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой. | ||
+ | * [[Критерий Колмогорова-Смирнова]] | ||
+ | * [[Критерий хи-квадрат]] (Пирсона) | ||
+ | * [[Критерий омега-квадрат]] (фон Мизеса) | ||
- | Критерии | + | === Критерии нормальности === |
+ | Критерии нормальности — это выделенный частный случай критериев согласия. | ||
+ | Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел. | ||
+ | Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии. | ||
+ | Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические. | ||
+ | В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности. | ||
+ | * [[Критерий Шапиро-Уилка]] | ||
+ | * [[Критерий асимметрии и эксцесса]] | ||
- | Критерии | + | === Критерии однородности === |
+ | Критерии однородности предназначены для проверки нулевой гипотезы о том, что | ||
+ | две выборки (или несколько) взяты из одного распределения, | ||
+ | либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров. | ||
- | Критерии | + | === Критерии тренда, стационарности и случайности === |
+ | Критерии тренда и случайности предназначены для проверки нулевой гипотезы об | ||
+ | отсутствии зависимости между выборочными данными и номером наблюдения в выборке. | ||
+ | Они часто применяются в анализе [[временной ряд|временных рядов]], в частности, при [[анализ регрессионных остатков|анализе регрессионных остатков]]. | ||
- | Критерии | + | === Критерии выбросов === |
- | Критерии | + | === Критерии дисперсионного анализа === |
+ | === Критерии корреляционного анализа === | ||
- | + | === Критерии регрессионного анализа === | |
== Литература == | == Литература == |
Версия 12:49, 11 августа 2008
|
Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.
Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, что рассматриваемая статистическая гипотеза не противоречит наблюдаемой выборке данных.
Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.
Методика проверки статистических гипотез
Пусть задана случайная выборка — последовательность
объектов из множества
.
Предполагается, что на множестве
существует некоторая неизвестная вероятностная мера
.
Методика состоит в следующем.
- Формулируется нулевая гипотеза
о распределении вероятностей на множестве
. Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая
и альтернативная
. Иногда альтернатива не формулируется в явном виде; тогда предполагается, что
означает «не
». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.
- Задаётся некоторая статистика (функция выборки)
, для которой в условиях справедливости гипотезы
выводится функция распределения
и/или плотность распределения
. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика
. Вывод функции распределения
при заданных
и
является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для
; в статистических пакетах имеются готовые вычислительные процедуры.
- Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число
. На практике часто полагают
.
- На множестве допустимых значений статистики
выделяется критическое множество
наименее вероятных значений статистики
, такое, что
. Вычисление границ критического множества является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
- Собственно статистический тест (статистический критерий) заключается в проверке условия:
- если
, то делается вывод «данные противоречат нулевой гипотезе при уровне значимости
». Гипотеза отвергается.
- если
, то делается вывод «данные не противоречат нулевой гипотезе при уровне значимости
». Гипотеза принимается.
- если
Итак, статистический критерий определяется статистикой
и критическим множеством
, которое зависит от уровня значимости.
Замечание. Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна. Тому есть две причины.
- По мере увеличения длины выборки нулевая гипотеза может сначала приниматься, но потом выявятся более тонкие несоответствия данных гипотезе, и она будет отвергнута. То есть многое зависит от объёма данных; если данных не хватает, можно принять даже самую неправдоподобную гипотезу.
- Выбранная статистика
может отражать не всю информацию, содержащуюся в гипотезе
. В таком случае увеличивается вероятность ошибки второго рода — нулевая гипотеза может быть принята, хотя на самом деле она не верна. Допустим, например, что
= «распределение нормально»;
= коэффициент асимметрии; тогда выборка с любым симметричным распределением будет признана нормальной. Чтобы избегать таких ошибок, следует пользоваться более мощными критериями.
Типы критической области
Обозначим через значение, которое находится из условия
, где
— функция распределения статистики
.
Фактически,
есть обратная функция:
.
На практике, как правило, используются статистики с унимодальной плотностью распределения, то есть плотностью, имеющей форму пика.
Критические области (наименее вероятные значения статистики) соответствуют хвостам распределения.
Поэтому чаще всего возникают критические области одного из трёх типов:
- Двусторонняя критическая область определяется двумя интервалами
.
- Левосторонняя критическая область определяется интервалом
.
- Правосторонняя критическая область определяется интервалом
.
Ошибки первого и второго рода
- Ошибка первого рода или «ложная тревога» (англ. type I error,
error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:
- Ошибка второго рода или «пропуск цели» (англ. type II error,
error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:
Верная гипотеза | |||
---|---|---|---|
| | ||
Результат применения критерия | | | (Ошибка второго рода) |
| (Ошибка первого рода) | |
Свойства статистических критериев
Мощность критерия:
— вероятность отклонить гипотезу
, если на самом деле верна альтернативная гипотеза
.
Мощность критерия является числовой функцией от альтернативной гипотезы
.
Несмещённый критерий:
для всех альтернатив
.
Состоятельный критерий:
при
для всех альтернатив
.
Равномерно более мощный критерий.
Говорят, что критерий с мощностью является равномерно более мощным, чем критерий с мощностью
, если выполняются два условия:
;
для всех рассматриваемых альтернатив
, причём хотя бы для одной альтернативы неравенство строгое.
Типы статистических гипотез
- Простая гипотеза однозначно определяет функцию распределения на множестве
. Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).
- Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на
. Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.
Типы статистических критериев
В зависимости от проверяемой нулевой гипотезы статистические критерии делятся на группы, перечисленные ниже по разделам.
Наряду с нулевой гипотезой, которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на дополнительные предположения, которые априори предпологаются выполненными.
- Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Однако если выборка не удовлетворяет дополнительным предположениям, то вероятность ошибок (как I, так и II рода) резко возрастает. Прежде чем применять такие критерии, необходимо проверить дополнительную гипотезу о распределении с помощью критериев согласия.
- Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относятся.
Критерии согласия
Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.
- Критерий Колмогорова-Смирнова
- Критерий хи-квадрат (Пирсона)
- Критерий омега-квадрат (фон Мизеса)
Критерии нормальности
Критерии нормальности — это выделенный частный случай критериев согласия. Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел. Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии. Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические. В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности.
Критерии однородности
Критерии однородности предназначены для проверки нулевой гипотезы о том, что две выборки (или несколько) взяты из одного распределения, либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров.
Критерии тренда, стационарности и случайности
Критерии тренда и случайности предназначены для проверки нулевой гипотезы об отсутствии зависимости между выборочными данными и номером наблюдения в выборке. Они часто применяются в анализе временных рядов, в частности, при анализе регрессионных остатков.
Критерии выбросов
Критерии дисперсионного анализа
Критерии корреляционного анализа
Критерии регрессионного анализа
Литература
- Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
Ссылки
- Statistical hypothesis testing — статья в англоязычной Википедии.