Уровень значимости

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

[убрать]

Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, если на самом деле она верна.

Другая интерпретация: уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.

Уровень значимости обычно обозначают греческой буквой \alpha (альфа).

Стандартная методика проверки статистических гипотез

В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка x^m=(x_1,\ldots,x_m).

Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) \alpha может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, если на самом деле она не верна (это называется также ложноотрицательным решением, false negative). Вероятность ошибки второго рода \beta связана с мощностью критерия \gamma простым соотношением  \gamma = 1-\beta. Выбор уровня значимости требует компромисса между значимостью и мощностью или (что то же самое, но другими словами) между вероятностями ошибок первого и второго рода.

Обычно уровень значимости рекомендуется выбирать из априорных соображений. Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться, и выбор часто сводится к назначению одного из популярных вариантов \alpha=0.001,\; 0.05,\; 0.1.

Существует две альтернативные методики, не связанные с априорным назначением \alpha.

Вычисление пи-величины (альфа-метод по Цейтлину)

Пи-величина (p-value) — это наименьшая величина уровня значимости, при которой нулевая гипотеза отвергается для данного значения статистики критерия T.

\pi(T) = \min \{ \alpha:\: T\in\Omega_\alpha \},

где \Omega_\alpha — критическая область критерия.

Фактически, пи-величина — это функция, которая пересчитывает значение статистики критерия T в значение вероятности ошибки первого рода.

Методика предполагает, что, вычислив значение \pi(T(x^m)) на заданной выборке x^m, статистик сам решит, является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу. Данная методика является более гибкой. В частности, она допускает «нестандартное решение» — продолжить наблюдения (увеличить объём выборки), если оценка вероятности ошибки первого рода попадает в зону неуверенности.

Вычисление ROC-кривой (зависимости мощности от уровня значимости)

ROC-кривая (receiver operating characteristic) — это зависимость мощности (1-\beta) от уровня значимости или вероятности ошибки первого рода \alpha.

Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соотвествует приемлемому компромиссу между вероятностями ошибки I и II рода.


Литература

  1. Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
  2. Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
  3. Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.

Ссылки

Личные инструменты