Статистический анализ данных (курс лекций, К.В.Воронцов)/2010

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Анализ поведения схожих критериев)
м (Анализ поведения схожих критериев)
Строка 62: Строка 62:
::Сизов Алексей: [[критерий Уилкоксона для связных выборок]] и [[критерий знаков]].
::Сизов Алексей: [[критерий Уилкоксона для связных выборок]] и [[критерий знаков]].
::Кожахметова Жанна: [[критерий знаков]] и [[медианный критерий]].
::Кожахметова Жанна: [[критерий знаков]] и [[медианный критерий]].
-
 
* <tex>x^n \sim Be(p_1),\;\;y^n \sim Be(p_2);</tex> <br> <tex>H_0\,:\; p_1=p_2, \;\;\; H_1\,:\; p_1\neq p_2; </tex>
* <tex>x^n \sim Be(p_1),\;\;y^n \sim Be(p_2);</tex> <br> <tex>H_0\,:\; p_1=p_2, \;\;\; H_1\,:\; p_1\neq p_2; </tex>

Версия 13:03, 24 сентября 2010

Содержание

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 100, 500, 1000 повторений);
  3. график с эмпирическими оценками мощности критерия для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметра, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также *.m-файл, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте (допускается, хотя и не рекомендуется использование среды R).

Пример задания

Исследуем поведение классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при разных значениях параметров.

x^n = (x_1,\ldots,x_n)\sim N(\mu_1,\sigma),\;\; y^n = (y_1,\ldots,y_n)\sim N(\mu_2,\sigma);

H_0\,:\; \mu_1=\mu_2,

H_1\,:\; \mu_1\neq\mu_2.

\sigma = 1; \;\;\; \mu_1=0; \;\;\; \mu_2=0\,:\,0.05\,:\,3; \;\;\;  n=5\,:\,1\,:\,50.

При каждом значении \mu_2 выборки для разных значений n генерируются независимо.

Задания

Анализ устойчивости критериев к нарушению предположений

  • Исследовать устойчивость одновыборочного критерия Стьюдента к нарушению предположения о нормальности данных. x^n — смесь распределений N(\mu,1) и U[-a+\mu,a+\mu] с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного). Для разных значений параметров выборки генерируются независимо.
    H_0\,:\; \mu=0, \;\; H_1\,:\; \mu\neq 0;
    p=0\,:\,0.02\,:\,1; \;\;  \mu=-1\,:\,0.05\,:\,1; \;\; n=100.
    Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению выборки.
Вишневский Валерий: a=1.
Гарсиа Анхела: a=5.
Дергунов Вадим: a=10.
  • Исследовать устойчивость двухвыборочного критерия Стьюдента для независимых выборок к нарушению предположения о нормальности данных. x^n \sim N(\mu_1,1), y^n — смесь распределений N(\mu_2,1) и U[-a+\mu_2,a+\mu_2] с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного). Для разных значений параметров выборки генерируются независимо.
    H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;
    \mu_1=0; \;\; p=0\,:\,0.02\,:\,1; \;\;  \mu_2=-1\,:\,0.05\,:\,1; \;\; n=100.
    Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к зашумлению одной из выборок.
Добров Григорий: a=1.
Дячкин Олег: a=5.
Ерошенко Александр: a=10.

Анализ чувствительности критериев к редактированию выборки

  • Известно, что исключение из выборки определённых наблюдений зачастую может достаточно сильно повлиять на результат анализа. Необходимо исследовать чувствительность одновыборочного критерия критерия Стьюдента к редактированию выборки.
    x^n \sim N(\mu,\sigma);
    H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu>0.
    При каждом значении параметра \mu генерируется выборка размера n, проводится проверка гипотезы H_0, затем по некоторому правилу из выборки исключается один из элементов, проверка гипотезы повторяется, затем исключается ещё один, и т.д. Обозначим за K максимальное число исключённых в таком процессе элементов. Построить графики вида 1, 2, 3, сделать выводы о чувствительности критерия к редактированию выборки.
Когадеева Мария: n=100;\;\;K=50;\;\;\sigma=1;\;\;\mu=-1\,:\,0.01\,:\,1;\;\; на каждом шаге исключается максимальный элемент.
Колесниченко Алексей: n=200;\;\;K=100;\;\;\sigma=5;\;\;\mu=-2\,:\,0.02\,:\,2;\;\; на каждом шаге исключается максимальный элемент.
Кошманова Наталья: n=100;\;\;K=50;\;\;\sigma=2;\;\;\mu=-2\,:\,0.02\,:\,2;\;\; на каждом шаге исключается минимальный элемент.
Лаптев Дмитрий: n=200;\;\;K=100;\;\;\sigma=5;\;\;\mu=-3\,:\,0.03\,:\,3;\;\; на каждом шаге исключается минимальный элемент.

Анализ поведения схожих критериев

Требуется исследовать поведение указанной пары статистических критериев, подходящих для решения одной и той же задачи, сравнить мощность и достигаемые уровни значимости и сделать выводы о границах применимости критериев. Необходимо для каждого из критериев построить графики вида 1, 2, 3, и показать, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий.

  • x^n \sim N(0,1),\;\;y^n \sim N(\mu,1);
    H_0\,:\; \mu=0, \;\;\; H_1\,:\; \mu\neq 0;
    \mu=-2\,:\,0.02\,:\,2;\;\; n=10\,:\,5\,:\,100.
Логачев Юрий: двухвыборочный критерий Стьюдента для независимых выборок и критерий Уилкоксона-Манна-Уитни.
Полежаева Елена: двухвыборочный критерий Стьюдента для связных выборок и критерий Уилкоксона для связных выборок.
Прокашева Ольга: двухвыборочные критерий Стьюдента для связных и независимых выборок.
Пятков Евгений: критерий Уилкоксона-Манна-Уитни и медианный критерий.
Сизов Алексей: критерий Уилкоксона для связных выборок и критерий знаков.
Кожахметова Жанна: критерий знаков и медианный критерий.
  • x^n \sim Be(p_1),\;\;y^n \sim Be(p_2);
    H_0\,:\; p_1=p_2, \;\;\; H_1\,:\; p_1\neq p_2;
Слепнева Екатерина: критерий хи-квадрат и точный критерий Фишера. p_1=0\,:\,0.02\,:\,1; \;\; p_2=0\,:\,0.02\,:\,1; \;\;n=50.
Тишин Кирилл: критерий хи-квадрат и точный критерий Фишера. p_1=0.5; \;\; p_2=0\,:\,0.05\,:\,1; \;\;n=10\,:\,2\,:\,50.
  • x^n  — смесь распределений N(0,1) и U[-a,a] с весами p и 1-p соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит p, то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
     H_0\,:\; x \sim N(0,1), \;\;\; H_1\,:\; H_0 неверна;
    p=0\,:\,0.02\,:\,1; \;\; n=10\,:\,5\,:\,100.
Чернышов Виктор: критерий Шапиро-Уилка и критерий Колмогорова-Смирнова. a=1.
Чиркова Алла: критерий омега-квадрат и критерий Шапиро-Уилка. a=2.
Шевцова Алена: критерий хи-квадрат и критерий омега-квадрат. a=5.
Щичко Антон: критерий Колмогорова-Смирнова и критерий хи-квадрат. a=7.

Ссылки