Статистический анализ данных (курс лекций, К.В.Воронцов)/2012

Материал из MachineLearning.

(Различия между версиями)

Версия 12:24, 12 ноября 2012

Содержание

1 Оценки
2 Задание 1. Исследование свойств одномерных статистических критериев на модельных данных
- 2.1 Пример задания
- 2.2 Задания
  - 2.2.1 Анализ поведения схожих критериев
  - 2.2.2 Анализ устойчивости критериев к нарушению предположений
3 Задание 2. Исследование свойств многомерного статистического метода на модельных данных
- 3.1 Пример
- 3.2 Задания
  - 3.2.1 Дисперсионный анализ
  - 3.2.2 Множественная проверка гипотез
    - 3.2.2.1 FWER
    - 3.2.2.2 FDR
4 Задание 3. Анализ реальных данных
- 4.1 Задания
5 Литература
6 Ссылки

Оценки

Студент	Задание 1 (1 балл)	Задание 2 (2 балла)
Александров Я.	0.9	2
Артюхин С.	1
Бобрик К.	1	2
Гаврилюк К.	1	2
Елшин Д.	1	2
Ермушева А.	1	2
Зимовнов А.	1	2
Игнатьев О.	0.9
Кириллов А.	1	2
Марченко Е.	1
Матвеева Д.	1	2
Меркулова Т.	1
Некрасов К.	1
Новиков П.	1
Панов А.	1	2
Плященко Е.	1	2
Полежаев В.	1	2
Сабурова М.	1	2
Соколов Е.	1	2
Фигурнов М.	1	2
Цупков С.	1	2
Шанин И.	0.9

Итоговая оценка вычисляется по формуле $0.6*HomeWork+0.4*(Oral-2)$ , где Oral — оценка от трёх до пяти баллов за устный экзамен, HomeWork — баллы, набранные за практические задания. Нецелые значения округляются по общепринятым правилам.
Если первое или второе задание не сдано, до экзамена студент не допускается.
Штраф за просрочку сдачи заданий начисляется из расчета 0.1 балла за сутки.
Задание считается сданным на момент получения проверяющим письма с отчётом (и кодом, если это указано в задании), при условии отсутствия необходимости внесения дополнений и исправлений.

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся $k$ раз для каждого набора значений параметров, и в $m$ из $k$ случаев гипотеза была отвергнута на некотором фиксированном уровне значимости $\alpha$ (примем $\alpha=0.05$ ), оценкой мощности будет отношение $m/k.$

Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т.д.), а также *.m-файл или R-скрипт, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.

Задание принимается до 23:59 14.10.

Пример задания

Исследуем чувствительность классического двухвыборочного критерия Стьюдента для проверки гипотезы однородности против альтернативы сдвига при зашумлении выборок наблюдениями, взятыми из равномерного распределения.

$x^n, \;\; x \sim 0.9\cdot N(\mu_1,1)+ 0.1\cdot U\left[-5+\mu_1,5+\mu_1\right]$ — выборка длины $n$ из смеси стандартного нормального $N(\mu_1,1)$ и равномерного $U\left[-5+\mu_1,5+\mu_1\right]$ распределений с весами $0.9$ и $0.1$ соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит $0.9$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).

$y^n, \;\; y \sim 0.9\cdot N(\mu_2,1)+ 0.1\cdot U\left[-5+\mu_2,5+\mu_2\right]$ — аналогичная выборка.

$H_0\,:\; \mathbb{E}(x)=\mathbb{E}(y), \;\; H_1\,:\; \mathbb{E}(x)\neq\mathbb{E}(y).$

$\mu_1=0, \;\; \mu_2=-2\,:\,0.01\,:\,2, \;\; n=15\,:\,5\,:\,200.$

Значения достигаемого уровня значимости при однократной генерации выборок.

Значения достигаемого уровня значимости, усрёднённые по 3000 экспериментам.

Значения эмпирических оценок мощности критерия при проведении 3000 экспериментов $(\alpha=0.05).$

Заметим, что однократная генерация выборок даёт достаточно нестабильные результаты, не позволяя точно оценить границы области, где нулевая гипотеза отклоняется, поэтому и необходимо усреднение по большому числу экспериментов.

Видно, что при достаточно большой разнице между средними и большом размере выборок наличие шума не мешает уверенно отклонять гипотезу однородности. Когда, наоборот, разница между средними невелика (меньше 0.2-0.5 в зависимости от размера выборок), мощность близка к нулю, а среднее значение достигаемого уровня значимости колеблется около 0.5, что логично, так как его распределение при справедливости нулевой гипотезы равномерно на $[0,1]$ .

Чтобы оценить вклад зашумления выборок, оценим при всех значениях параметра мощность критерия и средний достигаемый уровень значимости на аналогичных выборках без шума и сравним результаты.

Разность средних достигаемых уровней значимости на выборках без шума и с шумом.

Разность эмпирических оценок мощности на выборках без шума и с шумом.

Видно, что наличие шума всё меньше влияет на работу критерия с ростом объёма выборок и разницы между их средними. Тем не менее, в некоторых областях изменения параметров потеря мощности из-за 10% зашумления может составлять до 20%, а средний достигаемый уровень значимости может быть выше на 0.1.

Отметим, что приведённые количественные выводы справедливы только для шума рассматриваемой структуры.

Задания

Анализ поведения схожих критериев

Требуется исследовать поведение указанной пары статистических критериев, подходящих для решения одной и той же задачи, сравнить мощность и достигаемые уровни значимости и сделать выводы о границах применимости критериев. Необходимо для каждого из критериев построить графики зависимости достигаемых уровней значимости и оценок мощностей от параметров, и показать, в каких областях изменения параметров предпочтительнее использовать тот или иной критерий. Для получения более гладких графиков рекомендуется применять оба критерия к одним и тем же выборкам, а не генерировать их отдельно для каждого критерия.

$x^n, \;\; x \sim N(0,1),\;\;y^n, \;\; y \sim N(\mu,1);$
$H_0\,:$ средние двух выборок равны, $\;H_1\,:$ средние двух выборок не равны;
$\mu=-2\,:\,0.02\,:\,2;\;\; n=10\,:\,5\,:\,100.$

Александров: двухвыборочный критерий Стьюдента для независимых выборок и критерий Уилкоксона-Манна-Уитни.

Артюхин: критерий Уилкоксона-Манна-Уитни и медианный критерий.

Бобрик: критерий Уилкоксона-Манна-Уитни и двухвыборочный перестановочный критерий.

$x^n, \;\; x \sim p\cdot N(0,1)+ \left(1-p\right)\cdot U\left[-a,a\right]$ — выборка длины $n$ из смеси стандартного нормального $N(0,1)$ и равномерного $U\left[-a,a\right]$ распределений с весами $p$ и $1-p$ соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит $p$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
$H_0\,:\; x \sim N, \;\;\; H_1\,:\; H_0$ неверна;
$n=10\,:\,5\,:\,100.$

Гаврилюк: критерий Шапиро-Уилка и критерий Колмогорова-Смирнова, $a=1, \;\; p=0\,:\,0.02\,:\,1$

Елшин: критерий омега-квадрат и критерий Шапиро-Уилка, $a=2, \;\; p=0\,:\,0.02\,:\,1$

Ермушева: критерий хи-квадрат и критерий омега-квадрат, $p=0.1, \;\; a=0.5\,:\,0.1\,:\,5.$

Зимовнов: критерий Колмогорова-Смирнова и критерий хи-квадрат, $p=0.25, \;\; a=0.5\,:\,0.1\,:\,5.$

$x^n, \;\; x \sim 0.5\cdot N(0,1)+ 0.5\cdot U\left[-a,a\right], \;\; y^n, \;\; y \sim 0.5\cdot N(0,\sigma^2)+ 0.5\cdot U\left[-a,a\right]$ — выборки длины $n$ из смеси нормального и равномерного $U\left[-a,a\right]$ распределений с равными весами (при генерации выборки используется случайный датчик — если его значение не превосходит $0.5$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
$H_0\,:$ дисперсии двух выборок равны, $\;H_1\,:$ дисперсии двух выборок не равны;
$\sigma=0.1\,:\,0.05\,:\,4.$

Игнатьев: критерий Зигеля-Тьюки и критерий Брауна-Форсайта, $a=3, \;\; n=10\,:\,5\,:\,100.$

Кириллов: критерий Брауна-Форсайта и критерий О'Брайена, $a=0.5\,:\,0.1\,:\,5, \;\; n=50.$

Марченко: критерий О'Брайена и критерий Ансари-Бредли, $a=2, \;\; n=10\,:\,5\,:\,100.$

Анализ устойчивости критериев к нарушению предположений

Требуется исследовать поведение указанного критерия в условиях нарушения лежащих в его основе предположений. Оценить мощность и достигаемый уровень значимости критерия при различных значениях параметров, сделать выводы об устойчивости

Двухвыборочный критерий Стьюдента для независимых выборок, нарушение предположения о нормальности.

$x^n \sim p_1\cdot N(\mu_1,1)+ \left(1-p_1\right)\cdot U\left[-a+\mu_1,a+\mu_1\right]$ — выборка длины $n$ из смеси нормального $N(\mu_1,1)$ и равномерного $U\left[-a+\mu_1,a+\mu_1\right]$ распределений с весами $p_1$ и $1-p_1$ соответственно (при генерации каждой выборки используется случайный датчик — если его значение не превосходит $p_1$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного).
$y^n \sim p_2\cdot N(\mu_2,1)+ \left(1-p_2\right)\cdot U\left[-a+\mu_2,a+\mu_2\right]$ — аналогичная выборка.
$H_0\,:\; \mu_1=\mu_2, \;\; H_1\,:\; \mu_1\neq\mu_2;$
$\mu_1=0; \;\; \mu_2=-2\,:\,0.01\,:\,2.$

Матвеева: $p_1=0.8, \;\; p_2=1, \;\; a=1, \;\; n=15\,:\,5\,:\,200.$

Меркулова: $p_1=0.9, \;\; p_2=1, \;\; a=5, \;\; n=15\,:\,5\,:\,200.$

Некрасов: $p_1=p_2=0.8, \;\; a=2, \;\; n=15\,:\,5\,:\,200.$

Новиков: $p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=1, \;\; n=150.$

Панов: $p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=5, \;\; n=100.$

Критерий Фишера для проверки равенства дисперсий, нарушение предположения о нормальности.

$x^n, \;\; x \sim p_1\cdot N(0,\sigma_1^2)+ \left(1-p_1\right)\cdot U\left[-a,a\right]$ — выборка длины $n$ из смеси нормального $N(0,\sigma_1^2)$ и равномерного $U[-a,a]$ распределений с весами $p_1$ и $1-p_1$ соответственно (при генерации выборки используется случайный датчик — если его значение не превосходит $p_1$ , то добавляем в выборку элемент, взятый из нормального распределения, иначе — элемент, взятый из равномерного),
$y^n,\;\; y \sim p_2\cdot N(0,\sigma_2^2)+ \left(1-p_2\right)\cdot U\left[-a,a\right]$ — аналогичная выборка,
$H_0\,:\; var(x)=var(y), \;\; H_1\,:\; var(x)\neq var(y),$
$\sigma_1=2, \;\; \sigma_2=0.1\,:\,0.05\,:\,4.$

Плященко: $p_1=p_2=0.8, \;\; a=2, \;\; n=15\,:\,5\,:\,200.$

Полежаев: $p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=2, \;\; n=150.$

Сабурова: $p_1=p_2=0\,:\,0.01\,:\,1, \;\; a=3, \;\; n=100.$

Непараметрические критерии для проверки равенства дисперсий, нарушение предположения о равенстве медиан.

$x^n, \;\; x \sim N(0,1), \;\; y^n, \;\; y \sim N(\mu,\sigma^2);$
$H_0\,:\; var(x)=var(y), \;\; H_1\,:\; var(x)\neq var(y).$

Соколов: критерий Зигеля-Тьюки, $\mu=0\,:\,0.02\,:\,2, \;\; \sigma=0.1\,:\,0.05\,:\,2, \;\; n=50.$

Фигурнов: критерий Зигеля-Тьюки, $\mu=2, \;\; \sigma=0.1\,:\,0.05\,:\,2, \;\; n=15\,:\,5\,:\,200.$

Цупков: критерий Ансари-Бредли, $\mu=0\,:\,0.02\,:\,2, \;\; \sigma=0.1\,:\,0.05\,:\,2, \;\; n=50.$

Шанин: критерий Ансари-Бредли, $\mu=2, \;\; \sigma=0.1\,:\,0.05\,:\,2, \;\; n=15\,:\,5\,:\,200.$

Задание 2. Исследование свойств многомерного статистического метода на модельных данных

Необходимо провести исследование одного или нескольких многомерных статистических методов. Необходимо сдать: выполненный в LaTex или Microsoft Word отчёт с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости метода и т.д.), а также *.m-файл или R-скрипт, при запуске которого на экран выводятся графики, соответствующие имеющимся в отчёте.
Задание принимается до 23:59 11.11.

Пример

Исследуем чувствительность однофакторного дисперсионного анализа к расстояниям между выборками и дисперсиям выборок.
$x_i^{n_i}, \;\; x_i \sim N(\mu_i, \sigma_i), \;\; i=1,\ldots,3,$
$\mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_2=\sigma_3 = 0.01\,:\,0.01\,:\,1,$
$n_1=n_2=n_3=20.$
Посмотрим, как от расстояний между выборками и дисперсий зависят средний достигаемый уровень значимости и мощность используемого по умолчанию критерия Фишера:

Значения достигаемого уровня значимости, усрёднённого по 3000 экспериментам.

Значения эмпирических оценок мощности критерия при проведении 3000 экспериментов $(\alpha=0.05).$

Для каждой пары значений параметров $\mu, \sigma$ мощность оценивается как доля выборок, на которых нулевая гипотеза о равенстве всех средних была отвергнута.

Зависимость выглядит естественно: мощность растёт при увеличении расстояний между выборками и уменьшении их дисперсий. Для данного размера выборок средний достигаемый уровень значимости не превосходит 0.05 для всех значений $\mu\geq \sigma/2$ , мощность при этом не опускается ниже 0.7.

Для сгенерированных выборок проведём сравнение средних при помощи метода LSD. Для каждой пары средних $X_1,X_2, \; X_2,X_3, \; X_1,X_3$ метод даёт точечную оценку разности между ними и 95% доверительный интервал для этой разности. Так как $X_2-X_1=X_3-X_2=\mu$ , для оценки параметра $\mu$ можно использовать среднее между оценками $X_2-X_1$ и $X_3-X_2$ .

Рассмотрим усреднённые оценки и границы доверительных интервалов:

Полученные при помощи метода LSD точечные и интервальные оценки параметра $\mu$ .

Заметим, что усреднённая точечная оценка расстояния между выборками $\mu$ является точной и не зависит от дисперсии выборок, а ширина доверительного интервала для $\mu$ , напротив, зависит только от $\sigma$ :

Точность оценки параметра $\mu$ и ширина доверительного интервала для неё.

Можно считать, что метод детектирует значимую на уровне $\alpha=0.05$ разность между средними значениями выборок, если соответствующий 95% доверительный интервал для неё не содержит нуля. Рассмотрим для каждой пары значений параметров $\mu, \sigma$ доли выборок, на которых разница в $\mu$ между средними пар выборок $X_1, X_2$ и $X_2, X_3$ была детектирована.

Доли выборок с детектитуемыми различиями между средними при различных значениях $\mu$ и $\sigma$ .

Заметим, что при $\mu<\sigma$ достаточно велик шанс детектировать различия между средними только одной из двух абсолютно равнозначных пар выборок – в конусе $0.4\sigma\leq\mu\leq 0.9\sigma$ вероятность такого события составляет 0.4-0.6.

Оценим долю выборок, на которых была детектирована разница между средними выборок $X_1, X_3$ :

Мощность метода LSD при детекции различий между средними значениями выборок $X_1, X_3$ .

Разность эмпирических оценок мощностей критерия Фишера и метода LSD для детекции различия между средними выборок $X_1, X_3$ .

Сравнивая полученные оценки с построенными выше оценками мощности критерия Фишера, можно заметить, что метод LSD обладает большей чувствительностью к разнице между средними значениями выборок. Различия заметны в области $\sigma/10\leq\mu\leq\sigma/2$ , где мощность критерия Фишера может быть ниже более, чем на 0.12.

Наконец, исследуем поведение методов при $\mu=0.$

Доли выборок, для которых при $\mu=0$ были неверно обнаружены различия между средними.

Доля выборок, на которых критерий Фишера обнаружил несуществующие различия между средними, не зависит от $\sigma$ и колеблется около уровня значимости 0.05, что свидетельствует о корректности метода. Рассматриваемые независимо, доли выборок, на которых метод LSD нашёл различия между средними каких-либо пар выборок $X_1, X_2$ , $X_2, X_3$ , $X_1, X_3$ , также не зависят от $\sigma$ и примерно равны 0.05. Однако совместная вероятность неверного обнаружения хотя бы одного различия между парами выборок достаточно высока – около 0.12, что вызвано эффектом множественной проверки гипотез (независимо проверяются гипотезы о равенстве средних трёх пар выборок). При этом для выборок, на которых критерий Фишера показал достигаемый уровень значимости ниже 0.05, средняя доля ложно обнаруженных методом LSD различий между выборками также равна примерно 0.05.

Таким образом, данные этого модельного эксперимента показывают, что, несмотря на то, что мощность метода LSD выше, чем критерия Фишера, использовать метод LSD необходимо только в том случае, если критерий Фишера показал наличие каких-либо различий между средними выборок, поскольку в случае независимого использования LSD вероятность случайно обнаружить несуществующие различия превышает номинальный уровень значимости (и будет тем выше, чем больше рассматривается выборок).

Задания

Дисперсионный анализ

Исследовать чувствительность однофакторного дисперсионного анализа и соответствующей процедуры для попарного сравнения средних.
$x_i^{n_i}, \;\; x_i \sim N(\mu_i, \sigma_i), \;\; i=1,\ldots,m.$

Матвеева: критерий Фишера и процедура Тьюки-Крамера; сравнить результаты применения процедур Тьюки-Крамера и LSD.

$m=3, \;\; \mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_2=\sigma_3 = 0.01\,:\,0.01\,:\,1,\;\; n_1=n_2=n_3=20.$

Игнатьев: критерий Фишера и процедура Тьюки-Крамера.

$m=3, \;\; \mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_2=\sigma_3 = 1,\;\; n_1=n_3=20, \;\; n_2=10\,:\,5\,:\,100.$

Некрасов: критерий Фишера и процедура Тьюки-Крамера.

$m=3, \;\; \mu_1 = -1, \;\; \mu_2 = 0, \;\; \mu_3 = 1,$
$\sigma_1=\sigma_3 = 1,\;\; \sigma_2 = 0.02\,:\,0.02\,:\,2, \;\; n_1=n_3=20, \;\; n_2=10\,:\,5\,:\,100.$

Фигурнов: критерий Фишера и сравнение средних с использованием поправки Бонферрони; сравнить результаты применения поправки Бонферрони и метода LSD.

$m=3, \;\; \mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_2=\sigma_3 = 0.01\,:\,0.01\,:\,1,\;\; n_1=n_2=n_3=20.$

Сабурова: критерий Фишера и сравнение средних с использованием поправки Бонферрони.

$m=3, \;\; \mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_2=\sigma_3 = 1, \;\; n_1=n_3=20, \;\; n_2=10\,:\,5\,:\,100.$

Артюхин: критерий Краскела-Уоллиса и метод LSD; сравнить результаты применения критериев Краскелла-Уоллиса и Фишера.

$m=3, \;\; \mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_3 = 1,\;\; \sigma_2 = 0.02\,:\,0.02\,:\,2, \;\; n_1=n_2=n_3=20.$

Бобрик: критерий Краскела-Уоллиса и метод LSD; сравнить результаты применения критериев Краскелла-Уоллиса и Фишера.

$m=3, \;\; \mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_2=\sigma_3 = 1,\;\; n_1=n_3=20, \;\; n_2=10\,:\,5\,:\,100.$

Зимовнов: критерий Джонкхиера и метод LSD; сравнить результаты применения критериев Джонкхиера и Краскелла-Уоллиса.

$m=3, \;\; \mu_2 = 0, \;\; -\mu_1=\mu_3 = \mu = 0\,:\,0.01\,:\,1,$
$\sigma_1=\sigma_2=\sigma_3 = 0.01\,:\,0.01\,:\,1,\;\; n_1=n_2=n_3=20.$

Шанин: критерий Фишера и процедура Тьюки-Крамера.

$m=2\,:\,1\,:\,30, \;\; \mu_1=0, \;\; \mu_{i} = \mu_{i-1} + \mu, \; i=2,\ldots,m, \;\; \mu = 0\,:\,0.01\,:\,1,$
$\sigma_i=1, \; n_i=20, \; i=1,\ldots,m.$

Полежаев: критерий Краскела-Уоллиса и метод LSD; сравнить результаты применения критериев Краскелла-Уоллиса и Фишера.

$m=2\,:\,1\,:\,30, \;\; \mu_1=0, \;\; \mu_{i} = \mu_{i-1} + 1, \; i=2,\ldots,m,$
$\sigma_i=0.05\,:\,0.05\,:\,5, \; n_i=20, \; i=1,\ldots,m.$

Панов: критерий Джонкхиера и метод LSD; сравнить результаты применения критериев Джонкхиера и Краскелла-Уоллиса.

$m=2\,:\,1\,:\,30, \;\; \mu_1=0, \;\; \mu_{i} = \mu_{i-1} + \mu, \; i=2,\ldots,m, \;\; \mu = 0\,:\,0.01\,:\,1,$
$\sigma_i=1, \; n_i=20, \; i=1,\ldots,m.$

Множественная проверка гипотез

Сравнить мощность и корректность процедур множественной проверки гипотез, контролирующих указанную меру числа ошибок второго рода.
$x_i^{n}, \;\; x_i \sim N(\mu_i, 1), \;\; n=50, \;\; i=1,\ldots,m;$
$H_i\,:\;\mu_i=0, \;\; H'_i\,:\;\mu_i\neq 0; \;\;$ для проверки гипотезы используется критерий Стьюдента.
Если указано, что $\mu_i$ берутся из некоторого распределения, генерировать их необходимо только один раз, вне цикла по усредняемым итерациям.

FWER

Гаврилюк: методы Холма и Шидака,

$m = 20\,:\,10\,:\,500, \;\; m_0 = 5\,:\,5\,:\,m-5, \;\; FWER\leq\alpha=0.05,$

$\mu_i =0, \; i=1,\ldots,m_0; \;\; \mu_i \sim N(0.5, 0.01), \; i=m_0+1,\ldots,m.$

Елшин: методы Холма и Шидака,

$m = 10\,:\,5\,:\,100, \;\; m_0 = 10, \;\; FWER\leq\alpha=10^{-10:0.5:-1},$

$\mu_i =0, \; i=1,\ldots,m_0; \;\; \mu_i \sim N(1, 0.1), \; i=m_0+1,\ldots,m.$

Плященко: метод Холма и поправка Бонферрони,

$m = 100, \;\; m_0 = 5\,:\,5\,:\,100, \;\; FWER\leq\alpha=10^{-10:0.5:-1},$

$\mu_i = 0, \; i=1,\ldots,m_0; \;\; \mu_i \sim N(1, 0.1), \; i=m_0+1,\ldots,m.$

Ермушева: метод Холма и поправка Бонферрони,

$m = 100, \;\; m_0 = 5\,:\,5\,:\,m-5, \;\; FWER\leq\alpha=0.05,$

$\mu_i = 0, \; i=1,\ldots,m_0; \;\; \mu_{m_0+1}=\ldots=\mu_{m} = 0\,:\,0.1\,:\,2.$

Марченко: метод Шидака и поправка Бонферрони,

$m = 10\,:\,5\,:\,100, \;\; m_0 = 10, \;\; FWER\leq\alpha=0.05,$

$\mu_i = 0, \; i=1,\ldots,m_0; \;\; \mu_{m_0+1}=\ldots=\mu_{m} = 0\,:\,0.1\,:\,2.$

FDR

Кириллов: методы Бенджамини-Хохберга и Бенджамини-Иекутиели,

$m = 20\,:\,10\,:\,500, \;\; m_0 = 5\,:\,5\,:\,m-5, \;\; FDR\leq q=0.05,$

$\mu_i =0, \; i=1,\ldots,m_0; \;\; \mu_i \sim N(0.5, 0.01), \; i=m_0+1,\ldots,m.$

Меркулова: методы Бенджамини-Хохберга и Бенджамини-Иекутиели,

$m = 10\,:\,5\,:\,100, \;\; m_0 = 10, \;\; FDR\leq q=10^{-10:0.5:-1},$

$\mu_i \sim N(1, 0.1), \; i=1,\ldots,m_0; \;\; \mu_i = 0, \; i=m_0+1,\ldots,m.$

Соколов: метод Бенджамини-Хохберга в чистом виде и с модификацией Стори для оценки $m_0$ ,

$m = 20\,:\,10\,:\,500, \;\; m_0 = 5\,:\,5\,:\,m-5, \;\; FDR\leq q=0.05,$

$\mu_i =0, \; i=1,\ldots,m_0; \;\; \mu_i \sim N(0.5, 0.01), \; i=m_0+1,\ldots,m.$

Цупков: метод Бенджамини-Хохберга в чистом виде и с модификацией Стори для оценки $m_0$ ,

$m = 10\,:\,5\,:\,100, \;\; m_0 = 10, \;\; FDR\leq q=10^{-10:0.5:-1},$

$\mu_i =0, \; i=1,\ldots,m_0; \;\; \mu_i \sim N(1, 0.1), \; i=m_0+1,\ldots,m.$

Новиков: метод Бенджамини-Хохберга в чистом виде и метод Бенджамини-Иекутиели с модификацией Стори для оценки $m_0$ ,

$m = 100, \;\; m_0 = 5\,:\,5\,:\,m-5, \;\; FDR\leq q=0.05,$

$\mu_i = 0, \; i=1,\ldots,m_0, \;\; \mu_{m_0+1}=\ldots=\mu_{m} = 0\,:\,0.1\,:\,2.$

Александров: метод Бенджамини-Хохберга в чистом виде и с предварительной процедурой множественной проверки с контролем FDR на уровне $q'=q/\left(q+1\right)$ для оценки $m_0$ ,

$m = 200, \;\; m_0 = 5\,:\,5\,:\,m-5, \;\; FDR\leq q=0.05,$

$\mu_i = 0, \; i=1,\ldots,m_0, \;\; \mu_{m_0+1}=\ldots=\mu_{m} = 0\,:\,0.1\,:\,2.$

Задание 3. Анализ реальных данных

Ниже приведены описания анализируемых данных и постановки задач. Сами данные каждый студент может получить по электронной почте после сдачи второго задания. При проведении анализа можно пользоваться любыми доступными программными средствами. Необходимо предоставить подробный письменный отчёт по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, промежуточные результаты вычислений, графики. Особое внимание необходимо обращать на полноту применения методов: например, если для решения задачи была выбрана регрессия, необходимо, чтобы решение содержало все этапы регрессионного анализа: анализ значимости признаков и их отбор, анализ адекватности модели, анализ остатков и т. д. Помимо выводов, касающихся математических особенностей решения, необходимо включить в отчёт заключения, сформулированные в терминах предметной области, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Отчёт каждого студента рецензируется одногруппником, чья фамилия стоит следующей в алфавитном списке. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает один балл, если рецензируемая им работа была принята с первого раза, при условии, что его собственная работа также сдана.

Задание принимается до 23:59 9.12.

Задания

Клетки опухолей груди

Гистохимия пунктата злокачественной опухоли.

357 испытуемым с доброкачественными и 212 со злокачественными опухолями груди была сделана тонкоигольная аспирационная пункция с гистологическим исследованием пунктата. По полученным изображениям определялись следующие признаки опухолевых клеток: радиус, однородность текстуры, периметр, площадь, гладкость, компактность, степень вогнутости, доля вогнутых участков контура, симметричность, фрактальная размерность. Для каждого изображения были рассчитаны среднее значение каждого из этих признаков, стандартное отклонение и среднее по трём клеткам с максимальным значением признака.

Кириллов: оценить вероятность того, что опухоль злокачественная, по набору рассчитанных по изображению признаков. Построить функции, дающие точечную оценку и границы 95% доверительного интервала.

Смертность от сердечно-сосудистых заболеваний

Имеются данные по средней дневной смертности от сердечно-сосудистых заболеваний в округе Лос-Анджелес в 1970-1979 годах. Собраны данные по пятисот восьми (идущим подряд) неделям, за каждую из этих недель известна также средняя температура воздуха и мера его загрязнённости.

Матвеева: построить функцию, предсказывающую смертность от сердечно-сосудистых заболеваний по температуре и загрязнённости воздуха, оценить значимость каждого фактора.

Фигурнов: предсказать среднюю дневную смертность от сердечно-сосудистых заболеваний на следующие 100 недель, оценить точность прогноза, построить доверительный интервал.

Ценообразование бриллиантов

Имеются данные о цене и потребительских качествах 308 бриллиантов, продававшихся в Сингапуре в 2000 году. Известны: вес бриллианта в каратах, цвет (закодирован буквами латинского алфавита: наиболее чистый цвет — буквой D, менее чистые — буквами E, F, G и т.д., чем ближе к концу алфавита, тем "грязнее"), группа чистоты (отсутствие дефектов, профессиональная оценка, выдаваемая специалистами при исследовании бриллианта в лупу десятикратного увеличения; бриллианты без трещин и включений получают оценку IF ("internally flawless"), далее в порядке убывания чистоты следуют группы VVS1 и VVS2 ("very very slightly imperfect"), VS1 и VS2 ("very slightly imperfect")), название организации, выдавшей сертификат по группе чистоты (GIA — Gemmological Institute of America, IGI — International Gemmological Institute, HRD — Hoge Raad Voor Diamant), стоимость бриллианта в сингапурских долларах.

Цупков: построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных.

Плященко: существует общепринятая система классификации бриллиантов на мелкие — до 0.29 карата, средние — от 0.30 до 0.99 карата и крупные — свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?

Солнечная активность

В центре исследования солнечной активности Цюрихской обсерватории собраны данные о среднем числе солнечных пятен за каждый месяц с января 1749 года.

Соколов: предсказать среднее число солнечных пятен на каждый месяц до конца 2020 года.

Генетически модифицированные мыши с синдромом Дауна

Эмбрионы мышей с внедрённой копией участка 21-й хромосомы человека (слева) и без (справа).

Синдром Дауна — геномная патология, характеризующаяся наличием дополнительной копии генетического материала по 21-й хромосоме. В целях исследования болезни Дауна была создана популяция мышей с внедрённой копией одного из участков 21-й хромосомы человека. Первому поколению мышей внедрялся один из четырёх участков, затем они скрещивались с немодифицированными мышами, и внедрённый учасок мог передаваться потомкам. Все они оказались слепыми, поэтому невозможно было провести прямую проверку уровня их интеллекта. Для 500 особей известны: наименование внедрённого участка хромосомы (A=141G6; B=152F7; C=230E8; D=285E6), номер линии мышей (мыши, произошедшие от одной и той же трансгенной особи, относятся к одной линии), пол особи, вес, возраст, в котором он был измерен, номер клетки, в которой жила особь, а также индикатор содержания в её ДНК человеческого материала.

Гаврилюк: люди, страдающие болезнью Дауна, более склонны к ожирению; справедливо ли это для генетически модифицированных мышей? Исследовать различия с учётом всех остальных факторов.

Посещаемость сервиса "Яндекс.Открытки"

Измерена месячная аудитория сервиса "Яндекс.Открытки" с мая 2008 по сентябрь 2012 г.

Елшин: предсказать месячную аудиторию на период с октября 2012 по сентябрь 2013 г.

Краш-тест с манекенами

Имеются результаты 352 краш-тестов, при которых происходило лобовое столкновение автомобилей с бетонной стеной на скорости около 60 км/ч. Измерены показатели повреждения манекенов: критерий тяжести повреждений головы, замедление грудной клетки, нагрузка на левое и правое бедро.

Зимовнов: исследовать зависимость показателей повреждения от типа кузова, вида средств защиты, места манекена, веса автомобиля.

Линька metacarcinus magister

У 472 самок metacarcinus magister измерена ширина панциря до и после линьки. Часть особей проживала в лаборатории, часть — в естественной среде обитания; для последних известен также год вылова.

Полежаев: построить модель изменения размеров панциря с учётом всех факторов.

Александров: исследовать различия между изменениями размеров панциря особей, линька которых проходила в лабораторных условиях и в естественных; для последних оценить влияние года вылова.

Линейные размеры тысячефранковых банкнот

Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.

Имеются данные измерений двухсот швейцарских тысячефранковых банкнот, бывших в обращении в первой половине XX века. Сто из банкнот были настоящими, а сто - поддельными. Измерены следующие величины: $X_1$ — длина банкноты, $X_2$ —ширина банкноты с левой стороны, $X_3$ —ширина банкноты с правой стороны, $X_4$ —расстояние от нижнего края до рамки рисунка, $X_5$ — расстояние от нижнего края до рамки рисунка, $X_6$ — длина диагонали рисунка.

Панов: построить функцию, оценивающую по данным измерений вероятность того, что имеющаяся банкнота фальшивая, и 95% доверительный интервал для этой вероятности.

Сабурова: построить функции, оценивающие вероятность того, что имеющаяся банкнота фальшивая, по признакам $X_1-X_3$ и по признакам $X_4-X_6$ . Сравнить эффективность выявления фальшивых купюр по двум группам признаков, сделать выводы.

Индекс реальных инвестиций в основной капитал

Сотрудниками ГУ-ВШЭ по данным Федеральной службы государственной статистики рассчитан индекс реальных инвестиций в основной капитал, приведённый относительно января 1994 года. Имеются данные на каждый месяц с января 1994 по сентябрь 2012 года.

Бобрик: построить прогноз для значения индекса на 2013 год и доверительный интервал для него.

Литература

Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.

Ссылки

Источник — «http://recognition.su/wiki/index.php?title=%D0%A1%D1%82%D0%B0%D1%82%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D1%85_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29/2012»

Категория: Учебные курсы

@@ Строка 306: / Строка 306: @@
 ::Цупков: построить модель ценообразования бриллиантов, учитывая все особенности имеющихся данных.
 ::Плященко: существует общепринятая система классификации бриллиантов на мелкие&nbsp;— до 0.29 карата, средние&nbsp;— от 0.30 до 0.99 карата и крупные&nbsp;— свыше 1 карата. Достаточно ли для предсказания цены знать о весе бриллианта только к какому классу он относится, или предсказания с использованием знаний о точном весе значимо лучше?
+=== Солнечная активность===
+В центре исследования солнечной активности Цюрихской обсерватории собраны данные о среднем числе солнечных пятен за каждый месяц с января 1749 года.
+::Соколов: предсказать среднее число солнечных пятен на каждый месяц до конца 2020 года.
 === Генетически модифицированные мыши с синдромом Дауна ===
 [[Изображение:Fig03-10.jpg‎|200px|thumb|Эмбрионы мышей с внедрённой копией участка 21-й хромосомы человека (слева) и без (справа).]]
@@ Строка 322: / Строка 325: @@
 ::Александров: исследовать различия между изменениями размеров панциря особей, линька которых проходила в лабораторных условиях и в естественных; для последних оценить влияние года вылова.
 === Линейные размеры тысячефранковых банкнот ===
-[[Изображение:CHF1000 2 back horizontal.jpg|300px|thumb|Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.]]
+[[Изображение:CHF1000 2 back horizontal.jpg|200px|thumb|Банкнота в 1000 швейцарских франков серии, действовавшей в период с 1911 по 1958. Красным обозначены измеренные величины.]]
 Имеются данные измерений двухсот швейцарских тысячефранковых банкнот, бывших в обращении в первой половине XX века. Сто из банкнот были настоящими, а сто - поддельными. Измерены следующие величины:  <tex>X_1</tex>&nbsp;— длина банкноты, <tex>X_2</tex>&nbsp;—ширина банкноты с левой стороны, <tex>X_3</tex>&nbsp;—ширина банкноты с правой стороны, <tex>X_4</tex>&nbsp;—расстояние от нижнего края до рамки рисунка, <tex>X_5</tex>&nbsp;— расстояние от нижнего края до рамки рисунка, <tex>X_6</tex>&nbsp;— длина диагонали рисунка.
 ::Панов: построить функцию, оценивающую по данным измерений вероятность того, что имеющаяся банкнота фальшивая, и 95% доверительный интервал для этой вероятности.
 ::Сабурова: построить функции, оценивающие вероятность того, что имеющаяся банкнота фальшивая, по признакам <tex>X_1-X_3</tex> и по признакам <tex>X_4-X_6</tex>. Сравнить эффективность выявления фальшивых купюр по двум группам признаков, сделать выводы.
-=== Солнечная активность===
-В центре исследования солнечной активности Цюрихской обсерватории собраны данные о среднем числе солнечных пятен за каждый месяц с января 1749 года.
-::Соколов: предсказать среднее число солнечных пятен на каждый месяц до конца 2020 года.
 === Индекс реальных инвестиций в основной капитал ===
 Сотрудниками ГУ-ВШЭ по данным Федеральной службы государственной статистики рассчитан индекс реальных инвестиций в основной капитал, приведённый относительно января 1994 года. Имеются данные на каждый месяц с января 1994 по сентябрь 2012 года.

Статистический анализ данных (курс лекций, К.В.Воронцов)/2012

Материал из MachineLearning.

Версия 12:24, 12 ноября 2012

Содержание

Оценки

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Пример задания

Задания

Анализ поведения схожих критериев

Анализ устойчивости критериев к нарушению предположений

Задание 2. Исследование свойств многомерного статистического метода на модельных данных

Пример

Задания

Дисперсионный анализ

Множественная проверка гипотез

FWER

FDR

Задание 3. Анализ реальных данных

Задания

Клетки опухолей груди

Смертность от сердечно-сосудистых заболеваний

Ценообразование бриллиантов

Солнечная активность

Генетически модифицированные мыши с синдромом Дауна

Посещаемость сервиса "Яндекс.Открытки"

Краш-тест с манекенами

Линька metacarcinus magister

Линейные размеры тысячефранковых банкнот

Индекс реальных инвестиций в основной капитал

Литература

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты