Критерий Стьюдента
Материал из MachineLearning.
(добавлены примеры) |
м (литература) |
||
Строка 171: | Строка 171: | ||
== Литература == | == Литература == | ||
- | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. | + | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с. |
== Ссылки == | == Ссылки == |
Версия 15:37, 14 августа 2008
t-критерий Стьюдента — общее название для статистических тестов, в которых статистика критерия имеет распределение Стьюдента. Наиболее часто t-критерии применяются для проверки равенства средних значений в двух выборках.
Все разновидности критерия Стьюдента являются параметрическими и основаны на дополнительном предположении о нормальности выборки данных. Поэтому перед применением критерия Стьюдента рекомендуется выполнить проверку нормальности. Если гипотеза нормальности отвергается, можно проверить другие распределения, если и они не подходят, то следует воспользоваться непараметрические статистические тесты.
Примеры применения
Чаще всего критерий Стьюдента применяется для проверки равенства средних значений в двух выборках.
Пример 1. Первая выборка — это пациенты, которых лечили препаратом А. Вторая выборка — пациенты, которых лечили препаратом Б. Значения в выборках — это некоторая характеристика эффективности лечения (уровень метаболита в крови, температура через три дня после начала лечения, срок выздоровления, число койко-дней, и т.д.) Требуется выяснить, имеется ли значимое различие эффективности препаратов А и Б, или различия являются чисто случайными и объясняются «естественной» дисперсией выбранной характеристики.
Пример 2. Первая выборка — это значения некоторой характеристики состояния пациентов, записанные до лечения. Вторая выборка — это значения той же характеристики состояния тех же пациентов, записанные после лечения. Объёмы обеих выборок обязаны совпадать; более того, порядок элементов (в данном случае пациентов) в выборках также обязан совпадать. Такие выборки называются связными. Требуется выяснить, имеется ли значимое отличие в состоянии пациентов до и после лечения, или различия чисто случайны.
Пример 3. Первая выборка — это поля, обработанные агротехническим методом А. Вторая выборка — поля, обработанные агротехническим методом Б. Значения в выборках — это урожайность. Требуется выяснить, является ли один из методов эффективнее другого, или различия урожайности обусловлены случайными факторами.
Пример 4. Первая выборка — это дни, когда в супермаркете проходила промо-акция типа А (красные ценники со скидкой). Вторая выборка — дни промо-акции типа Б (каждая пятая пачка бесплатно). Значения в выборках — это показатель эффективности промо-акции (объём продаж, либо выручка в рублях). Требуется выяснить, какой из типов промо-акции более эффективен.
Сравнение выборочного среднего с заданным значением
Задана выборка .
Дополнительное предположение: выборка нормальна.
Нулевая гипотеза (выборочное среднее равно заданному числу ).
Статистика критерия:
имеет распределение Стьюдента с степенями свободы, где
- — выборочное среднее,
- — выборочная дисперсия.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних при известных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки нормальны;
- значения дисперсий известны априори; это означает, что дисперсии были оценены заранее не по этим выборкам, а исходя из какой-то другой информации; случай «неизвестных дисперсий», когда такого источника информации нет и дисперсии приходится оценивать по самим выборкам, описан ниже.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
имеет стандартное нормальное распределение , где
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль стандартного нормального распределения.
Сравнение двух выборочных средних при неизвестных равных дисперсиях
Заданы две выборки .
Дополнительные предположения:
- обе выборки нормальны;
- значения дисперсий равны: , но априори не известны.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
имеет распределение Стьюдента с степенями свободы, где
- — выборочные дисперсии;
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где есть -квантиль распределения Стьюдента с степенями свободы.
Сравнение двух выборочных средних при неизвестных неравных дисперсиях
Задача сравнения средних двух нормально распределённых выборок при неизвестных и неравных дисперсиях известна как проблема Беренса-Фишера. Точного решения этой задачи до настоящего времени нет. На практике используются различные приближения.
Заданы две выборки .
Дополнительное предположение: обе выборки нормальны.
Нулевая гипотеза (средние в двух выборках равны).
Статистика критерия:
где
- — выборочные дисперсии;
- — выборочные средние.
Критерий (при уровне значимости ):
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
- против альтернативы
- если , то нулевая гипотеза отвергается;
где квантили определяются по-разному в различных приближениях:
- Критерий Кохрена-Кокса:
- , где есть -квантиль распределения Стьюдента с степенями свободы;
- Критерий Сатервайта:
- есть -квантиль распределения Стьюдента с числом степеней свободы
- Критерий Крамера-Уэлча:
- есть -квантиль распределения Стьюдента с числом степеней свободы
Сравнение двух выборочных средних в связанных выборках
Заданы две выборки одинаковой длины .
Дополнительные предположения:
- обе выборки нормальны;
- выборки связны, то есть элементы соответствуют одному и тому же объекту, но измерения сделаны в разные моменты (например, до и после обработки).
Сравнение выборочных средних в связанных выборках ничем не отличается от сравнения среднего разности с нулём.
История
Критерий был разработан Уильямом Госсеттом для оценки качества пива на пивоваренных заводах Гиннесса в Дублине (Ирландия). В связи с обязательствами перед компанией по неразглашению коммерческой тайны (руководство Гиннесса считало таковой использование статистического аппарата в своей работе), статья Госсетта вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).
Литература
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
Ссылки
- Проверка статистических гипотез — о методологии проверки статистических гипотез.
- Статистика (функция выборки)
- Student's t-test — статья в англоязычной Википедии.
- t-критерий Стьюдента — из русской Википедии.
- Распределение Стьюдента — из русской Википедии.
- Квантили распределения Стьюдента — из русской Википедии.