Статистический анализ данных (курс лекций, К.В.Воронцов)/2016, ФУПМ

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

Оценки

Студент Группа №1 (1.3) №2 (1.3) №3 (2.8) Рецензирование №3 (0.6) №4 (2.8) Рецензирование №4 (0.6) Дополнительно (7) Сумма за семестр (10) Оценка
Аленькин Олег 273 1.2 1.2 2.8 0.6 1 6.8
Бетлей Артем 275 1.2  ?0.6 2.7 3.9
Биктайров Роман 277а
Бочкарёв Артем 274 1.3 1.3 0  ?0.6 3 5.6
Войцех Игорь 275 1.1 2.1 1.9 1 6.1
Гилязев Руслан 275
Гончаров Алексей 274 1.3 1.3 2.8 2.8 3 11.2
Двинских Дарина 274 1.3 2.7 0 1 5
Дойничко Анастасия 276 1.3 0 2.1 0 1 4.4
Досаев Роман 172 0.8 0.8
Емеленко Александр 275
Емельянов Ярослав 273 1.2 1.3 35.5
Ефимов Юрий 274 1.1 1.2 2 3 7.3
Жариков Илья 274 1.3 1.3 2.8 0.6 2.8 0.6 3 12.4
Задаянчук Андрей 274 1.2 1.3 2.8 0.6 2 7.9
Златов Александр 274 1.3 2.7 0.6 1 5.6
Исаченко Роман 274 1.3 1.2 2.8 0 2.8 3 11.1
Керимов Василий 276 1.2  ?0.6 2 3.2
Королев Николай 277 1.3 1.3 2.6
Крошнин Алексей 277 1.3 2.6 5 8.9
Мищенко Константин 276 0 55
Мусинов Игорь 273 1.3 1.3
Назаров Владимир 274 44
Нейчев Радослав 274 1.3  ?0.6 2.8 37.1
Нижевич Андрей 275 0 1.3 2.8 1.9 1 7
Новиков Герман 277 1.3 2.7 26
Нурдинов Булат 276
Переберина Анастасия 276 1.3 1.3 2.8 0.6 2.8 0.6 1 10.4
Подкопаев Александр 274 1.3 2.8 6 10.1
Пятников Виталий 275
Решетова Дарья 274 1.3 2.1 0 2.7 1 7.1
Родионов Виктор 071 0.9 1.3 0 2.8 3 8
Свириденко Надежда 277 0.2 1.1 1.3
Силин Игорь 277 1.3 1.3 2.8 0.6 6 12
Скорняков Кирилл 275 1.1 5 6.1
Смирнов Евгений 274 1.3 1.3 2.7 0.6 1 6.9
Соломатин Иван 274 1.3 1.2  ?0.6 2.6 1 6.1
Стогний Полина 273 1.3 1.3 2.8 2.8 3 11.2
Чащин Артём 276 1.2 1.3 0 2.5
Черных Владимир 274 1.3 1.2 2.8 2.8 2 10.1
Шайдулин Руслан 276
Шишковец Светлана 274 1.3 1.3 2.8 0.6 2.8 1 9.8
  • Задание считается сданным на момент получения письма с отчётом при условии отсутствия необходимости внесения дополнений и исправлений.
  • Штраф за просрочку заданий начисляется из расчёта 0.1 балла за сутки.
  • Для получения зачёта необходимо сдать как минимум два задания: хотя бы одно из первых двух и хотя бы одно из последних двух.
  • Каждое задание выдаётся только по заявке. Если задание выдано, но не решалось, начисляется штраф в размере его стоимости.
  • Балл за рецензирование можно получить только при условии сдачи соответствующего задания.
  • Источники дополнительных баллов:
  • Итоговая оценка по курсу —  сумма баллов за семестр, округлённая по стандартным правилам.

Задание 1. Исследование свойств одномерных статистических критериев на модельных данных

Необходимо провести исследование одного или нескольких классических критериев проверки статистических гипотез. Интерес представляет поведение достигаемого уровня значимости (p-value) как функции размера выборок и параметров распределения. В соответствии с индивидуальными параметрами задания необходимо указанным способом сгенерировать одну или несколько выборок из заданного распределения, выполнить проверку гипотезы при помощи соответствующего критерия, а затем многократно повторить эту процедуру для различных значений параметров. По результатам расчётов необходимо построить требуемые в задании графики, среди которых могут быть следующие:

  1. график зависимости достигаемого уровня значимости от значений параметров при однократном проведении эксперимента;
  2. график зависимости достигаемого уровня значимости одного или двух критериев от значений параметров, усреднённого по большому количеству повторений эксперимента (например, по 1000 повторений);
  3. график с эмпирическими оценками мощности одного или двух критериев для разных значений параметров.

В качестве оценки мощности принимается доля отвержений нулевой гипотезы среди всех проверок. То есть, если эксперимент повторялся k раз для каждого набора значений параметров, и в m из k случаев гипотеза была отвергнута на некотором фиксированном уровне значимости \alpha (примем \alpha=0.05), оценкой мощности будет отношение m/k.

Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с описанием алгоритма, построенными графиками и выводами (объяснение полученных результатов моделирования, границы применимости критерия и т. д.).

Постановки задач.

Пример решения.

Задание принимается до 23:59 27.03.

Задания 2-4. Работа с реальными данными

Требуется подобрать и применить наилучший статистический метод, позволяющий ответить на вопрос прикладной задачи; обосновать выбор метода, его применимость и оптимальность. Помимо выводов, касающихся математических особенностей решения, необходимо в терминах предметной области сформулировать выводы, которые могли бы быть понятны гипотетическому заказчику-нематематику.

Необходимо сдать: Rmd и сгенерированный по нему html/pdf-файл с подробным отчётом по проведённому исследованию, содержащий визуализацию исходных данных, описания и выводы каждого этапа анализа — используемые методы, обоснование их применимости, графики.

По заданиям 3 и 4 отчёт каждого студента рецензируется назначенным одногруппником. Задачей рецензента является проверка корректности выбора метода решения, полноты его применения и понятности изложения. Рецензент получает баллы, если:

  • его собственная работа засчитана;
  • либо в рецензируемой работе устранены все недостатки и она принимается с первого раза, либо указан полный список недостатков работы, устранить которые не удалось.

Задание 2. Проверка гипотез

Постановки задач.

Задание принимается до 23:59 17.04.

Задание 3. Регрессия

Постановки задач.

Запись на рецензирование ведётся до 23:59 18.04, финальные отчёты принимаются до 23:59 1.05.

Задание 4. Прогнозирование

Запись на рецензирование ведётся до 23:59 1.05, финальные отчёты принимаются до 23:59 15.05.

Ссылки