Статистический анализ данных (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
м |
м |
||
(80 промежуточных версий не показаны.) | |||
Строка 6: | Строка 6: | ||
Каждый метод описывается по единой схеме: | Каждый метод описывается по единой схеме: | ||
* постановка задачи; | * постановка задачи; | ||
- | * примеры прикладных задач из области экономики, социологии, производства, медицины; | + | * примеры прикладных задач из области биологии, экономики, социологии, производства, медицины; |
* базовые предположения и границы применимости; | * базовые предположения и границы применимости; | ||
- | * описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её | + | * описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её нулевое распределение); |
* достоинства, недостатки, ограничения, «подводные камни»; | * достоинства, недостатки, ограничения, «подводные камни»; | ||
* сравнение с другими методами. | * сравнение с другими методами. | ||
- | Курс читается студентам | + | Курс читается студентам 4 курса кафедры [[Математические методы прогнозирования (кафедра ВМиК МГУ)|математических методов прогнозирования ВМиК МГУ]] с 2007 года и студентам 4 курса [[Факультет управления и прикладной математики МФТИ|факультета управления и прикладной математики МФТИ]] с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики<!---, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу [[Машинное обучение (курс лекций, К.В.Воронцов)|«Математические методы распознавания образов»]]), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП)--->. |
== Программа курса == | == Программа курса == | ||
- | |||
=== Введение === | === Введение === | ||
Обзор необходимых сведений из теории вероятностей и математической статистики. | Обзор необходимых сведений из теории вероятностей и математической статистики. | ||
- | * Понятия [[Простая выборка|простой выборки]] и [[статистика (функция выборки)|статистики]]. Примеры статистик: [[момент]]ы, [[асимметрия]] и [[эксцесс]], [[вариационный ряд]] и | + | * Понятия [[Простая выборка|простой выборки]] и [[статистика (функция выборки)|статистики]]. Примеры статистик: [[момент]]ы, [[асимметрия]] и [[эксцесс]], [[вариационный ряд]] и порядковые статистики, [[эмпирическое распределение]]. |
* Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[оптимальность]], [[робастность]]. | * Статистические [[точечная оценка|точечные оценки]] и их свойства: [[несмещённость]], [[состоятельность]], [[оптимальность]], [[робастность]]. | ||
- | * [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|уровня доверия]] | + | * [[Интервальная оценка|Интервальные оценки]], понятия [[Доверительный интервал|доверительного интервала]] и [[Коэффициент доверия|уровня доверия]]. Доверительные интервалы для среднего и медианы. |
- | * Часто используемые распределения: нормальное, хи-квадрат, Фишера, Стьюдента, Бернулли, биномиальное, | + | * Часто используемые распределения: нормальное, хи-квадрат, Фишера, Стьюдента, Бернулли, биномиальное, Пуассона. |
* [[Проверка статистических гипотез]], основные понятия: [[уровень значимости]], [[достигаемый уровень значимости]] (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. | * [[Проверка статистических гипотез]], основные понятия: [[уровень значимости]], [[достигаемый уровень значимости]] (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы. | ||
- | * Свойства достигаемых уровней значимости. | + | * Свойства достигаемых уровней значимости. Статистическая и практическая значимость. |
- | * Свойства критериев: [[несмещённость]], [[состоятельность]], [[мощность критерия| | + | * Свойства критериев: [[несмещённость]], [[состоятельность]], [[мощность критерия|мощность]]. |
- | [[Media: | + | [[Media:psad_intro.pdf|Материалы занятия]] |
=== Параметрическая проверка гипотез === | === Параметрическая проверка гипотез === | ||
[Kanji, Кобзарь] | [Kanji, Кобзарь] | ||
- | * Критерии нормальности: [[критерий хи-квадрат]] (Пирсона), [[ | + | * Критерии нормальности: [[критерий хи-квадрат]] (Пирсона), [[критерий Шапиро-Уилка]], критерии, основанные на различиях между эмпирической и теоретической функциями распределения, [[критерий Колмогорова-Смирнова]] (Лиллиефорса). Упрощённая проверка нормальности по асимметрии и эксцессу: критерий Харке-Бера. <!---Исторический пример: проверка закона Менделя А.Н.Колмогоровым [Тюрин, 306]. Эмпирические подтверждения ненормальности реальных измерений [Орлов, стр. 71–77]. ---> |
- | * [[Нормальные параметрические критерии]] для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]] | + | * [[Нормальные параметрические критерии]] для проверки гипотез: [[гипотезы о положении]], [[гипотезы о рассеивании]]. |
- | * | + | * Гипотезы о средних: t- и z-критерии [[критерий Стьдента|Стьюдента]] для одной и двух выборок, связанные выборки<!---, [[гипотеза сдвига]], [[метод множественных сравнений Шеффе]], [[метод LSD]]. Пример: задача формирования ценовых коридоров. ---> |
- | * | + | * Гипотезы о дисперсиях: критерии хи-квадрат и [[критерий Фишера|Фишера]]<!---, [[критерий Кокрена]], [[критерий Бартлета]]--->. |
- | * Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи | + | * Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок). |
- | * Доверительный интервал для параметра распределения Бернулли: Вальда, Уилсона. | + | * Доверительный интервал для параметра распределения Бернулли: Вальда, Уилсона. Доверительные интервалы Уилсона для разности параметров двух выборок. |
- | [[Media: | + | [[Media:psad_ht_parametric.pdf|Материалы занятия]] |
=== Непараметрическая проверка гипотез === | === Непараметрическая проверка гипотез === | ||
- | [ | + | [Bonnini, Wilcox] |
- | + | * [[Критерии знаков]]: одновыборочный, для связанных выборок. | |
- | + | ||
- | * [[Критерии знаков]]: одновыборочный, для | + | |
* [[Вариационный ряд]], ранги и связки. | * [[Вариационный ряд]], ранги и связки. | ||
- | * [[Ранговые критерии]]: [[критерий Уилкоксона-Манна-Уитни]], [[критерий Уилкоксона двухвыборочный]], [[критерий Уилкоксона для | + | * [[Ранговые критерии]]: [[критерий Уилкоксона-Манна-Уитни]], [[критерий Уилкоксона двухвыборочный]], [[критерий Уилкоксона для связанных выборок]], [[критерий Зигеля-Тьюки]]. |
- | * Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для | + | * Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании. |
- | <!---* Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки). | + | * Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона). |
- | * Множественные сравнения на основе рангов Фридмана. ---> | + | <!--- |
+ | * [[Функция сдвига]] и доверительная лента для неё. | ||
+ | * Элементы [[теория измерений|теории измерений]]: номинальные, порядковые и количественные переменные; инварианты. Разновидности [[Обобщённое среднее|средних]]: по Коши, по Колмогорову, мода, медиана. Среднее в порядковой шкале [Орлов, гл. 3]. Пример: маркетинговое исследование привлекательности продуктов (образовательных услуг); важность постановки вопросов при формировании анкет [Орлов, 229]. | ||
+ | * Доверительные интервалы для медианы (Уилкоксона-Мозеса) и сдвига (Уилкоксона-Тьюки). | ||
+ | * Множественные сравнения на основе рангов Фридмана. | ||
+ | , [[WM-критерий]]---> | ||
- | [[Media: | + | [[Media:psad_ht_nonparametric.pdf|Материалы занятия]] |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
=== Множественная проверка гипотез === | === Множественная проверка гипотез === | ||
- | [Bretz] | + | [Bretz, Dickhaus] |
* [[Множественная проверка гипотез]]. Примеры задач. Меры числа ошибок первого рода. | * [[Множественная проверка гипотез]]. Примеры задач. Меры числа ошибок первого рода. | ||
* [[FWER]], поправка Бонферрони. | * [[FWER]], поправка Бонферрони. | ||
* Нисходящие процедуры множественной проверки: общий вид, метод Холма. | * Нисходящие процедуры множественной проверки: общий вид, метод Холма. | ||
- | * Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality. | + | * Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS. |
* Оценка числа верных нулевых гипотез и её применение. | * Оценка числа верных нулевых гипотез и её применение. | ||
- | * [[FDR]], методы Бенджамини. | + | * [[FDR]], восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели. |
+ | |||
+ | [[Media:psad_mht.pdf|Материалы занятия]] | ||
+ | |||
+ | === Дисперсионный анализ (ANOVA) === | ||
+ | [Tabachnick, Лагутин, Кобзарь] | ||
+ | * Однофакторная модель. Независимые выборки: критерии Фишера, [[критерий Краскела-Уоллиса|Краскела-Уоллиса]], [[критерий Джонкхиера|Джонкхиера]]. Связанные выборки: критерии Фишера, [[критерий Фридмана|Фридмана]] и [[критерий Пейджа|Пейджа]]. Предположение сферичности. | ||
+ | * Модель со случайным эффектом, разделение дисперсии. | ||
+ | * Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии [[критерий Неменьи|Неменьи]] и [[критерий Даннета|Даннета]]. | ||
+ | * Проверка гипотезы о равенстве дисперсий: критерии [[критерий Бартлета|Бартлета]] и [[критерий Флайнера-Киллиана|Флайнера-Киллиана]]. | ||
+ | <!---* Общий случай модели с постоянными факторами, теорема Кокрена. ---> | ||
+ | * Двухфакторная модель. Взаимодействие факторов, его интерпретация. [[Двухфакторный нормальный анализ]]. Иерархический дизайн. | ||
+ | <!---* [[Ковариационный анализ]] (постановка задачи).---> | ||
- | [[Media: | + | [[Media:Psad_anova.pdf|Материалы занятия]] |
=== Анализ зависимостей === | === Анализ зависимостей === | ||
- | [ | + | [Agresti, Лагутин]. |
* [[Коэффициент корреляции Пирсона|Корреляция Пирсона]]. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий. | * [[Коэффициент корреляции Пирсона|Корреляция Пирсона]]. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий. | ||
* [[Ранговая корреляция]]: [[коэффициент корреляции Спирмена]], [[коэффициент корреляции Кенделла]], их значимость. Связь коэффициентов корреляции. | * [[Ранговая корреляция]]: [[коэффициент корреляции Спирмена]], [[коэффициент корреляции Кенделла]], их значимость. Связь коэффициентов корреляции. | ||
* [[Частная корреляция]], значимость коэффициента частной корреляции (критерий Стьюдента). | * [[Частная корреляция]], значимость коэффициента частной корреляции (критерий Стьюдента). | ||
* [[Множественная корреляция]], значимость коэффициента множественной корреляции (критерий Фишера). | * [[Множественная корреляция]], значимость коэффициента множественной корреляции (критерий Фишера). | ||
- | * [[Таблица сопряженности]] | + | * Анализ канонических корреляций. Значимость коэффициентов. Вспомогательные статистики и их интерпретация. |
+ | * [[Таблица сопряженности]] <tex>K_1\times K_2</tex>. Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициент V Крамера, коэффициент <tex>\gamma</tex> для порядковых величин. | ||
+ | * [[Таблица сопряженности]] <tex>2\times 2</tex>. Проверка гипотезы независимости бинарных величин с помощью [[Точный тест Фишера|точного критерия Фишера]]. [[Корреляция Мэтьюса]]. | ||
* [[Парадокс хи-квадрат]]. | * [[Парадокс хи-квадрат]]. | ||
- | <!---* [[Конкордация Кенделла]] | + | <!---* [[Конкордация Кенделла]]. ---> |
- | + | ||
- | [[Media: | + | [[Media:Psad_corr.pdf|Материалы занятия]] |
=== Линейный регрессионный анализ === | === Линейный регрессионный анализ === | ||
- | [ | + | [Wooldridge] |
* [[Многомерная линейная регрессия]]. Примеры прикладных задач. [[Метод наименьших квадратов]]. | * [[Многомерная линейная регрессия]]. Примеры прикладных задач. [[Метод наименьших квадратов]]. | ||
* <!---МНК-решение и его запись через [[сингулярное разложение]].---> Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. [[Остаточная сумма квадратов]] (RSS). [[Коэффициент детерминации]] | * <!---МНК-решение и его запись через [[сингулярное разложение]].---> Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. [[Остаточная сумма квадратов]] (RSS). [[Коэффициент детерминации]] | ||
Строка 101: | Строка 101: | ||
* Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика<!---, доверительная лента для прогнозируемого значения отклика при всех значениях признака--->. | * Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика<!---, доверительная лента для прогнозируемого значения отклика при всех значениях признака--->. | ||
* Анализ структуры линейной регрессионной модели. [[Значимость коэффициентов линейной регрессии]]: проверка равенства коэффициентов нулю и константе, [[вложенные модели линейной регрессии]], [[критерий Фишера]], запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. [[Пошаговая регрессия]]. Эксперимент Фридмана. | * Анализ структуры линейной регрессионной модели. [[Значимость коэффициентов линейной регрессии]]: проверка равенства коэффициентов нулю и константе, [[вложенные модели линейной регрессии]], [[критерий Фишера]], запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. [[Пошаговая регрессия]]. Эксперимент Фридмана. | ||
- | * Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона. | + | * Сравнение невложенных моделей: приведённый коэффициент детерминации, [[критерий Давидсона-Маккиннона]]. |
- | * [[Анализ регрессионных остатков]]: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности ( | + | * [[Анализ регрессионных остатков]]: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности ([[критерий Бройша-Пагана]])<!--- или некоррелированности остатков с признаками, их квадратами и попарными интеракциями (критерии Уайта и Вулдриджа), некоррелированности (критерии [[критерий Вальда-Вольфовица|Вальда-Вольфовица]] и [[статистика Дарбина-Уотсона|Дарбина-Уотсона]])--->, нормальности. |
- | * Обработка | + | * Обработка выбросов, [[расстояние Кука]]. |
* Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода. | * Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода. | ||
- | * Проверка общей линейной гипотезы. | + | * Устойчивая оценка дисперсии Уайта, её модификации. |
- | + | <!---* Проверка общей линейной гипотезы. ---> | |
- | + | ||
- | + | [[Media:Psad_linreg.pdf|Материалы занятия]]<!---, [[Media:S8.pdf|часть 2]], [[Media:S9.pdf|часть 3]], [[Media:reg_example.pdf|пример решения задачи]].---> | |
- | === | + | === Обобщения линейной регрессии === |
- | [Hosmer] | + | [Olsson, Hosmer, Cameron] |
- | * Постановка задачи [[Логистическая_регрессия|логистической регрессии]] | + | * Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия. |
- | * | + | * Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия. |
- | + | * Меры качества обобщённых линейных моделей: аномальность, информационные критерии. | |
+ | * Постановка задачи [[Логистическая_регрессия|логистической регрессии]]. Логит, интерпретация коэффициентов логистической регрессии. | ||
+ | * Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы. | ||
* Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога. | * Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога. | ||
+ | * Регрессия счётного признака. Пуассоновская модель. | ||
+ | * Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов. | ||
- | [[Media: | + | [[Media:Psad_otherreg.pdf|Материалы занятия]] |
<!--- | <!--- | ||
+ | [Hastie] | ||
+ | * Проблема [[Мультиколлинеарность|мультиколлинеарности]]. Методы понижения размерности: [[ридж-регрессия]], [[лассо Тибширани]], [[эластичная сеть]]. Выбор параметра регуляризации. | ||
+ | |||
=== Непараметрическая регрессия === | === Непараметрическая регрессия === | ||
* [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Разложение ошибки на [[Вариация и смещение|вариацию и смещение]]. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, [[Алгоритм LOWESS]]. | * [[Непараметрическая регрессия]]: [[ядерное сглаживание]], формула Надарая-Ватсона. Разложение ошибки на [[Вариация и смещение|вариацию и смещение]]. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, [[Алгоритм LOWESS]]. | ||
Строка 125: | Строка 131: | ||
* Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов. | * Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов. | ||
* Регуляризация коэффициентов регрессии, медленно изменяющихся во времени. | * Регуляризация коэффициентов регрессии, медленно изменяющихся во времени. | ||
+ | |||
+ | [Дрейпер] | ||
+ | * Нелинейная регрессия. Построение совместной доверительной области для параметров модели. Приближённая проверка адекватности модели по чистой ошибке. | ||
=== Анализ рисков. Пробит- и логит-анализ === | === Анализ рисков. Пробит- и логит-анализ === | ||
Строка 132: | Строка 141: | ||
=== Анализ временных рядов === | === Анализ временных рядов === | ||
- | [ | + | [Hyndman] |
- | * [[Временной ряд]]. Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]] | + | * [[Временной ряд]]. Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]]. Календарные эффекты. |
* Анализ остатков. [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций ([[критерий Льюнга-Бокса]]). Проверка гипотезы стационарности ([[критерий KPSS]]). | * Анализ остатков. [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций ([[критерий Льюнга-Бокса]]). Проверка гипотезы стационарности ([[критерий KPSS]]). | ||
* Модели AR, MA, ARMA. [[Частичная автокорреляция]]. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA. | * Модели AR, MA, ARMA. [[Частичная автокорреляция]]. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA. | ||
- | |||
* Сезонные эффекты и модели их учёта: SARMA, SARIMA. | * Сезонные эффекты и модели их учёта: SARMA, SARIMA. | ||
* Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели. | * Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели. | ||
- | * | + | * Прогнозирование методами экспоненциального сглаживания. Простое экспоненциальное сглаживание Брауна, методы Хольта и Хольта-Уинтерса. Таксономия моделей ETS. |
- | + | ||
* Меры качества прогнозов, примеры оценок. Информационные критерии. [[U-коэффициент Тейла]]. | * Меры качества прогнозов, примеры оценок. Информационные критерии. [[U-коэффициент Тейла]]. | ||
* Сравнение качества двух прогнозов. Непараметрические критерии, [[критерий Диболда-Мариано]], его модификация для маленьких выборок. | * Сравнение качества двух прогнозов. Непараметрические критерии, [[критерий Диболда-Мариано]], его модификация для маленьких выборок. | ||
- | * Сравнение качества нескольких прогнозов. [[Reality check Уайта]], модификация Романо-Вольфа. | + | <!--* Сравнение качества нескольких прогнозов. [[Reality check Уайта]], модификация Романо-Вольфа.--> |
+ | * Обнаружение структурных изменений. [[Критерий Чоу]]. | ||
* [[Причинность по Грейнджеру]]. [[Критерий Грейнджера]] (для двух рядов, для множества рядов). | * [[Причинность по Грейнджеру]]. [[Критерий Грейнджера]] (для двух рядов, для множества рядов). | ||
- | * [[Адаптивная селекция моделей прогнозирования]] | + | * Адаптивная [[Адаптивная селекция моделей прогнозирования|селекция]] и [[Адаптивная композиция моделей прогнозирования|композиция]] моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка. |
- | + | * Прогнозирование иерархических совокупностей рядов. | |
- | + | * Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии. | |
- | + | ||
- | + | ||
- | + | ||
- | * | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | Материалы занятий: [[Media:Psad_ts_arima.pdf|часть 1]], [[Media:Psad_ts_ets.pdf|часть 2]]. | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
=== Последовательный анализ === | === Последовательный анализ === | ||
Строка 180: | Строка 166: | ||
* Непараметрические последовательные доверительные интервалы для среднего и медианы. | * Непараметрические последовательные доверительные интервалы для среднего и медианы. | ||
- | [[Media: | + | [[Media:Psad_seq.pdf|Материалы занятия]] |
+ | |||
+ | === Анализ причинно-следственных связей === | ||
+ | [Pearl] | ||
+ | * Неразрешимость парадокса Симпсона в рамках классической статистики. | ||
+ | * Причинные графы, цепочки, вилки, коллайдеры. D-разделимость. | ||
+ | * Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки (adjustment formula). | ||
+ | * Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери. | ||
+ | * Propensity score, обратное вероятностное взвешивание. | ||
+ | * Графы в линейных моделях. Связь со структурными уравнениями. | ||
+ | |||
<!--- | <!--- | ||
+ | === Анализ панельных данных === | ||
+ | [Batalgi] | ||
+ | * Примеры эконометрических задач: анализ стран, фирм, домашних хозяйств, телезрителей. | ||
+ | * Объединённая регрессионная модель панельных данных. | ||
+ | * Модели с переменным свободным членом: одно- и двухкомпонентная ошибка. Фиксированные и случайные эффекты. | ||
+ | * Модели с переменными угловыми коэффициентами. Полная статическая модель, проверка возможности её упрощения. | ||
+ | ---><!--- * [[Модель панельных данных с фиксированными эффектами]]. | ||
+ | * [[Модель панельных данных со случайными эффектами]]. | ||
+ | * [[Модель панельных данных с временны́ми эффектами]]. | ||
+ | * [[Модель несвязанных регрессий]]. | ||
+ | * Проблема выбора модели: F-тест Фишера, [[критерий множителей Лагранжа]], [[критерий Хаусмана]]. | ||
+ | * [[Ротационная панель]].---><!--- | ||
+ | |||
+ | [[Media:Psad_panel.pdf|Материалы занятия]] | ||
+ | |||
+ | === Анализ выживаемости === | ||
+ | * [[Анализ выживаемости]]. [[Функция выживаемости]] и [[функция интенсивности рисков]]. [[Процедура Каплана-Мейера]]. Доверительный интервал выживаемости. | ||
+ | * Сравнение двух функций выживаемости: [[логранговый критерий]], [[критерий Гехана]]. | ||
=== Выборочный анализ === | === Выборочный анализ === | ||
Строка 204: | Строка 218: | ||
* [[Интегральный индикатор]]. Примеры прикладных задач. Линейные и ранговые шкалы. Методы построения интегрального индикатора «без учителя» [Strijov, 2003]. Устойчивые интегральные индикаторы [Стрижов, 2007]. | * [[Интегральный индикатор]]. Примеры прикладных задач. Линейные и ранговые шкалы. Методы построения интегрального индикатора «без учителя» [Strijov, 2003]. Устойчивые интегральные индикаторы [Стрижов, 2007]. | ||
* [[Экспертные оценки]] [Литвак, Лапач, 353]. [[Матрица парных сравнений]]. [[Экспертно-статистический метод]] [Айвазян, том 2]. [[Согласование экспертных оценок]] [Стрижов, 2006]. | * [[Экспертные оценки]] [Литвак, Лапач, 353]. [[Матрица парных сравнений]]. [[Экспертно-статистический метод]] [Айвазян, том 2]. [[Согласование экспертных оценок]] [Стрижов, 2006]. | ||
- | |||
- | |||
---> | ---> | ||
== Литература == | == Литература == | ||
- | # '' | + | # ''Вальд, А.'' Последовательный анализ. — М.: Физматлит, 1960. |
- | # ''Лагутин М.Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. | + | # ''Лагутин, М.Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. |
- | # '' | + | # ''Кобзарь, А.И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. |
- | # '' | + | # ''Agresti, A.'' Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013. |
+ | # ''Bonnini, S., Corain, L., Marozzi, M., Salmaso S.'' Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014. | ||
+ | # ''Bretz, F., Hothorn, T., Westfall, P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010. | ||
+ | # ''Cameron, A.A., Trivedi, P.K.'' Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013. | ||
+ | # ''Dickhaus, T.'' Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014. | ||
+ | # ''Good, P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005. | ||
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}} | # {{Публикация:Hastie 2001 The Elements of Statistical Learning}} | ||
- | # '' | + | # ''Hosmer, D.W., Lemeshow S., Sturdivant, R.X.'' Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013. |
- | + | # ''Hyndman, R.J., Athanasopoulos G.'' Forecasting: principles and practice. — OTexts, 2015. https://www.otexts.org/book/fpp | |
- | + | # ''Kanji, G.K.'' 100 statistical tests. — London: SAGE Publications, 2006. | |
- | # '' | + | # ''Mukhopadhyay, N., de Silva, B. M.'' Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009. |
- | + | # ''Olsson, U.'' Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004. | |
- | # '' | + | # ''Pearl J., Glymour M., Jewell N.P.'' Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016. |
- | # '' | + | # ''Tabachnick, B.G., Fidell, L.S.'' Using Multivariate Statistics. — Boston: Pearson Education, 2012. |
- | # '' | + | # ''Wooldridge, J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013. |
- | # '' | + | |
- | # '' | + | |
- | + | ||
- | # '' | + | |
<!--- | <!--- | ||
+ | # ''Baltagi, B.H.'' Econometric analysis of panel data. — Chichester: John Wiley & Sons, 2005. | ||
+ | # ''Wilcox, R.R.'' Introduction to Robust Estimation and Hypothesis Testing. — Academic Press, 2012. | ||
+ | # ''Лапач С.Н. , Чубенко А.В., Бабич П.Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. | ||
+ | # ''Лукашин, Ю.П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003. | ||
+ | # ''Магнус, Я.Р., Катышев, П.К., Пересецкий, А.А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005. | ||
+ | # ''Дрейпер, Н.Р., Смит Г.'' Прикладной регрессионный анализ. — М.: Издательский дом "Вильямс", 2007. | ||
+ | # ''Kirchgassner, G., Wolters, J., Hassler, U.'' Introduction to modern time series analysis. — Heidelberg: Springer, 2013. | ||
+ | # ''Shumway, R.H, Stoffer, D.S.'' Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011. | ||
+ | # ''Hyndman, R.J., Koehler, A.B., Ord, J.K., Snyder, R.D.'' Forecasting with Exponential Smoothing: The State Space Approach. — Berlin: Springer, 2008. | ||
# ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003. | # ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003. | ||
# ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001. | # ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001. | ||
# ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001. | # ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001. | ||
# ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987. | # ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987. | ||
- | #''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55. | + | # ''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55. |
- | #''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76. | + | # ''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76. |
- | #''Литвак Б. Г.'' Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с. | + | # ''Литвак Б. Г.'' Экспертная информация: Методы получения и анализа. – М.: Радио и связь, 1982. – 184 с. |
- | #''Стрижов В. В.'' [http://strijov.com/papers/strijov06precise.pdf Уточнение экспертных оценок с помощью измеряемых данных]. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64. | + | # ''Стрижов В. В.'' [http://strijov.com/papers/strijov06precise.pdf Уточнение экспертных оценок с помощью измеряемых данных]. // Заводская лаборатория. Диагностика материалов. 2006 (7). С.59-64. |
# ''Тюрин Ю. Н., Макаров А. А.'' Анализ данных на компьютере. — М.: Инфра-М, 2003. | # ''Тюрин Ю. Н., Макаров А. А.'' Анализ данных на компьютере. — М.: Инфра-М, 2003. | ||
- | |||
- | == | + | == Подстраницы == |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
+ | ---> | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Текущая версия
Курс знакомит студентов с основными задачами и методами прикладной статистики.
Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.
Каждый метод описывается по единой схеме:
- постановка задачи;
- примеры прикладных задач из области биологии, экономики, социологии, производства, медицины;
- базовые предположения и границы применимости;
- описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её нулевое распределение);
- достоинства, недостатки, ограничения, «подводные камни»;
- сравнение с другими методами.
Курс читается студентам 4 курса кафедры математических методов прогнозирования ВМиК МГУ с 2007 года и студентам 4 курса факультета управления и прикладной математики МФТИ с 2011 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики.
Программа курса
Введение
Обзор необходимых сведений из теории вероятностей и математической статистики.
- Понятия простой выборки и статистики. Примеры статистик: моменты, асимметрия и эксцесс, вариационный ряд и порядковые статистики, эмпирическое распределение.
- Статистические точечные оценки и их свойства: несмещённость, состоятельность, оптимальность, робастность.
- Интервальные оценки, понятия доверительного интервала и уровня доверия. Доверительные интервалы для среднего и медианы.
- Часто используемые распределения: нормальное, хи-квадрат, Фишера, Стьюдента, Бернулли, биномиальное, Пуассона.
- Проверка статистических гипотез, основные понятия: уровень значимости, достигаемый уровень значимости (p-value), ошибки I и II рода. Односторонние и двусторонние альтернативы.
- Свойства достигаемых уровней значимости. Статистическая и практическая значимость.
- Свойства критериев: несмещённость, состоятельность, мощность.
Параметрическая проверка гипотез
[Kanji, Кобзарь]
- Критерии нормальности: критерий хи-квадрат (Пирсона), критерий Шапиро-Уилка, критерии, основанные на различиях между эмпирической и теоретической функциями распределения, критерий Колмогорова-Смирнова (Лиллиефорса). Упрощённая проверка нормальности по асимметрии и эксцессу: критерий Харке-Бера.
- Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании.
- Гипотезы о средних: t- и z-критерии Стьюдента для одной и двух выборок, связанные выборки
- Гипотезы о дисперсиях: критерии хи-квадрат и Фишера.
- Гипотезы о значениях параметра распределения Бернулли: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок (случаи связанных и независимых выборок).
- Доверительный интервал для параметра распределения Бернулли: Вальда, Уилсона. Доверительные интервалы Уилсона для разности параметров двух выборок.
Непараметрическая проверка гипотез
[Bonnini, Wilcox]
- Критерии знаков: одновыборочный, для связанных выборок.
- Вариационный ряд, ранги и связки.
- Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связанных выборок, критерий Зигеля-Тьюки.
- Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связанных выборок, для независимых выборок), проверка гипотезы о рассеивании.
- Двухвыборочные критерии согласия: Колмогорова-Смирнова, Крамера-фон Мизеса (Андерсона).
Множественная проверка гипотез
[Bretz, Dickhaus]
- Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
- FWER, поправка Бонферрони.
- Нисходящие процедуры множественной проверки: общий вид, метод Холма.
- Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality, PRDS.
- Оценка числа верных нулевых гипотез и её применение.
- FDR, восходящие процедуры, методы Бенджамини-Хохберга и Бенджамини-Иекутиели.
Дисперсионный анализ (ANOVA)
[Tabachnick, Лагутин, Кобзарь]
- Однофакторная модель. Независимые выборки: критерии Фишера, Краскела-Уоллиса, Джонкхиера. Связанные выборки: критерии Фишера, Фридмана и Пейджа. Предположение сферичности.
- Модель со случайным эффектом, разделение дисперсии.
- Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерии Неменьи и Даннета.
- Проверка гипотезы о равенстве дисперсий: критерии Бартлета и Флайнера-Киллиана.
- Двухфакторная модель. Взаимодействие факторов, его интерпретация. Двухфакторный нормальный анализ. Иерархический дизайн.
Анализ зависимостей
[Agresti, Лагутин].
- Корреляция Пирсона. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий.
- Ранговая корреляция: коэффициент корреляции Спирмена, коэффициент корреляции Кенделла, их значимость. Связь коэффициентов корреляции.
- Частная корреляция, значимость коэффициента частной корреляции (критерий Стьюдента).
- Множественная корреляция, значимость коэффициента множественной корреляции (критерий Фишера).
- Анализ канонических корреляций. Значимость коэффициентов. Вспомогательные статистики и их интерпретация.
- Таблица сопряженности . Проверка гипотезы независимости категориальных величин с помощью критериев хи-квадрат и G-квадрат. Коэффициент V Крамера, коэффициент для порядковых величин.
- Таблица сопряженности . Проверка гипотезы независимости бинарных величин с помощью точного критерия Фишера. Корреляция Мэтьюса.
- Парадокс хи-квадрат.
Линейный регрессионный анализ
[Wooldridge]
- Многомерная линейная регрессия. Примеры прикладных задач. Метод наименьших квадратов.
- Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. Остаточная сумма квадратов (RSS). Коэффициент детерминации
- Предположения Гаусса-Маркова. Статистические свойства МНК-оценок в отсутствие предположения нормальности.
- Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность.
- Кодирование нечисловых признаков, фиктивные переменные. Dummy- и deviation-кодирование.
- Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика.
- Анализ структуры линейной регрессионной модели. Значимость коэффициентов линейной регрессии: проверка равенства коэффициентов нулю и константе, вложенные модели линейной регрессии, критерий Фишера, запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. Пошаговая регрессия. Эксперимент Фридмана.
- Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона.
- Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерий Бройша-Пагана), нормальности.
- Обработка выбросов, расстояние Кука.
- Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
- Устойчивая оценка дисперсии Уайта, её модификации.
Обобщения линейной регрессии
[Olsson, Hosmer, Cameron]
- Обобщённые линейные модели. Связующая функция. Оценка параметров методом максимального правдоподобия.
- Доверительные интервалы и оценка значимости коэффициентов, критерии Вальда и отношения правдоподобия.
- Меры качества обобщённых линейных моделей: аномальность, информационные критерии.
- Постановка задачи логистической регрессии. Логит, интерпретация коэффициентов логистической регрессии.
- Проверка линейности логита: сглаженные диаграммы рассеяния, дробные полиномы.
- Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
- Регрессия счётного признака. Пуассоновская модель.
- Предположение о равенстве матожидания и дисперсии и его проверка. Отрицательная биномиальная модель. Устойчивая оценка дисперсии коэффициентов.
Анализ временных рядов
[Hyndman]
- Временной ряд. Основные компоненты эконометрических временных рядов: тренд, сезонность. Календарные эффекты.
- Анализ остатков. Автокорреляционная функция. Коррелограмма и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций (критерий Льюнга-Бокса). Проверка гипотезы стационарности (критерий KPSS).
- Модели AR, MA, ARMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA.
- Сезонные эффекты и модели их учёта: SARMA, SARIMA.
- Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
- Прогнозирование методами экспоненциального сглаживания. Простое экспоненциальное сглаживание Брауна, методы Хольта и Хольта-Уинтерса. Таксономия моделей ETS.
- Меры качества прогнозов, примеры оценок. Информационные критерии. U-коэффициент Тейла.
- Сравнение качества двух прогнозов. Непараметрические критерии, критерий Диболда-Мариано, его модификация для маленьких выборок.
- Обнаружение структурных изменений. Критерий Чоу.
- Причинность по Грейнджеру. Критерий Грейнджера (для двух рядов, для множества рядов).
- Адаптивная селекция и композиция моделей прогнозирования. «Forecast combination puzzle». Агрегирующий алгоритм Вовка.
- Прогнозирование иерархических совокупностей рядов.
- Сложные сезонности в моделях экспоненциального сглаживания (TBATS) и авторегрессии.
Материалы занятий: часть 1, часть 2.
Последовательный анализ
[Вальд, Mukhopadhyay]
- Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
- Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
- Последовательные доверительные интервалы для среднего нормальной совокупности с неизвестной дисперсией (двухэтапная, последовательная процедуры). Процедуры для разности средних двух нормальных совокупностей, случаи равных и неравных дисперсий.
- Непараметрические последовательные доверительные интервалы для среднего и медианы.
Анализ причинно-следственных связей
[Pearl]
- Неразрешимость парадокса Симпсона в рамках классической статистики.
- Причинные графы, цепочки, вилки, коллайдеры. D-разделимость.
- Интервенции. Оценка эффекта по обзервационным данным. Хирургия графа и формула корректировки (adjustment formula).
- Правило причинного эффекта. Варианты для отсутствия родителей: правило задней двери, правило передней двери.
- Propensity score, обратное вероятностное взвешивание.
- Графы в линейных моделях. Связь со структурными уравнениями.
Литература
- Вальд, А. Последовательный анализ. — М.: Физматлит, 1960.
- Лагутин, М.Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
- Кобзарь, А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Agresti, A. Categorical Data Analysis. — Hoboken: John Wiley & Sons, 2013.
- Bonnini, S., Corain, L., Marozzi, M., Salmaso S. Nonparametric Hypothesis Testing: Rank and Permutation Methods with Applications in R. — Hoboken: John Wiley & Sons, 2014.
- Bretz, F., Hothorn, T., Westfall, P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
- Cameron, A.A., Trivedi, P.K. Regression Analysis of Count Data. — Cambridge: Cambridge University Press, 2013.
- Dickhaus, T. Simultaneous Statistical Inference With Applications in the Life Sciences. — Heidelberg: Springer, 2014.
- Good, P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
- Hosmer, D.W., Lemeshow S., Sturdivant, R.X. Applied Logistic Regression. — Hoboken: John Wiley & Sons, 2013.
- Hyndman, R.J., Athanasopoulos G. Forecasting: principles and practice. — OTexts, 2015. https://www.otexts.org/book/fpp
- Kanji, G.K. 100 statistical tests. — London: SAGE Publications, 2006.
- Mukhopadhyay, N., de Silva, B. M. Sequential methods and their applications. — Boca Raton: Chapman and Hall/CRC, 2009.
- Olsson, U. Generalized Linear Models: An Applied Approach. — Lund: Studentlitteratur, 2004.
- Pearl J., Glymour M., Jewell N.P. Causal Inference in Statistics: A Primer. — Chichester: John Wiley & Sons, 2016.
- Tabachnick, B.G., Fidell, L.S. Using Multivariate Statistics. — Boston: Pearson Education, 2012.
- Wooldridge, J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2013.