Статистический анализ данных (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
м (→Непараметрическая проверка гипотез) |
м |
||
Строка 132: | Строка 132: | ||
=== Анализ временных рядов === | === Анализ временных рядов === | ||
- | [Shumway] | + | [Shumway, Hyndman, Лукашин, Kirchgassner ] |
* [[Временной ряд]]. Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], календарные эффекты. | * [[Временной ряд]]. Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], календарные эффекты. | ||
* Анализ остатков. [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций ([[критерий Льюнга-Бокса]]). Проверка гипотезы стационарности ([[критерий KPSS]]). | * Анализ остатков. [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций ([[критерий Льюнга-Бокса]]). Проверка гипотезы стационарности ([[критерий KPSS]]). | ||
Строка 139: | Строка 139: | ||
* Сезонные эффекты и модели их учёта: SARMA, SARIMA. | * Сезонные эффекты и модели их учёта: SARMA, SARIMA. | ||
* Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели. | * Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели. | ||
- | [[Media:S11.pdf| | + | * Адаптивные алгоритмы краткосрочного прогнозирования. Модели тренда, сезонность. Запись с помощью пространства состояний. Оценка параметров модели. |
- | + | * Обнаружение структурных изменений. [[Критерий Чоу]]. | |
+ | * Меры качества прогнозов, примеры оценок. Информационные критерии. [[U-коэффициент Тейла]]. | ||
+ | * Сравнение качества двух прогнозов. Непараметрические критерии, [[критерий Диболда-Мариано]], его модификация для маленьких выборок. | ||
+ | * Сравнение качества нескольких прогнозов. [[Reality check Уайта]], модификация Романо-Вольфа. | ||
+ | * [[Причинность по Грейнджеру]]. [[Критерий Грейнджера]] (для двух рядов, для множества рядов). | ||
+ | * [[Адаптивная селекция моделей прогнозирования]]. | ||
+ | * [[Адаптивная композиция моделей прогнозирования]]. | ||
+ | Материалы занятий: [[Media:S11.pdf|часть 1]], [[Media:S13.pdf|часть 3]]. | ||
+ | <!--- | ||
=== [[Адаптивные методы прогнозирования временных рядов|Адаптивные методы прогнозирования]] === | === [[Адаптивные методы прогнозирования временных рядов|Адаптивные методы прогнозирования]] === | ||
- | |||
* [[Экспоненциальное сглаживание|Модель Брауна]] — экспоненциальное сглаживание. | * [[Экспоненциальное сглаживание|Модель Брауна]] — экспоненциальное сглаживание. | ||
* [[Модель Хольта]] — линейный тренд без сезонности. | * [[Модель Хольта]] — линейный тренд без сезонности. | ||
Строка 149: | Строка 156: | ||
* Анализ адекватности адаптивных моделей, [[следящий контрольный сигнал]]. | * Анализ адекватности адаптивных моделей, [[следящий контрольный сигнал]]. | ||
* [[Адаптация параметров адаптации]]. [[Модель Тригга-Лича]]. | * [[Адаптация параметров адаптации]]. [[Модель Тригга-Лича]]. | ||
- | + | ---> | |
- | + | ||
- | + | ||
=== Последовательный анализ Вальда === | === Последовательный анализ Вальда === | ||
Строка 204: | Строка 209: | ||
== Литература == | == Литература == | ||
- | # ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. | + | # ''Лапач С.Н. , Чубенко А.В., Бабич П.Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002. |
- | # ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. | + | # ''Лагутин М.Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003. |
- | # ''Лукашин Ю. П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003 | + | # ''Лукашин Ю.П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003. |
- | + | # ''Кобзарь А.И.'' Прикладная математическая статистика. — М.: Физматлит, 2006. | |
- | # ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006 | + | |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}} | # {{Публикация:Hastie 2001 The Elements of Statistical Learning}} | ||
- | # ''Kanji G. K.'' 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006. | + | # ''Kanji G.K.'' 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006. |
# ''Good P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005. | # ''Good P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005. | ||
# ''Bretz F., Hothorn T., Westfall P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010. | # ''Bretz F., Hothorn T., Westfall P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010. | ||
Строка 220: | Строка 220: | ||
# ''Wooldridge J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009. | # ''Wooldridge J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009. | ||
# ''Hosmer D. W., Lemeshow S.'' Applied Logistic Regression. — New York: John Wiley & Sons, 2000. | # ''Hosmer D. W., Lemeshow S.'' Applied Logistic Regression. — New York: John Wiley & Sons, 2000. | ||
- | |||
# ''Shumway R.H, Stoffer D.S.'' Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011. | # ''Shumway R.H, Stoffer D.S.'' Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011. | ||
+ | # ''Hyndman R.J., Koehler A.B., Ord J.K., Snyder R.D.'' Forecasting with Exponential Smoothing: The State Space Approach. — Berlin: Springer, 2008. | ||
+ | # ''Kirchgassner G., Wolters J., Hassler U.'' Introduction to modern time series analysis. — Heidelberg: Springer, 2013. | ||
+ | # ''Вальд А.'' Последовательный анализ. - М.: Физматлит, 1960. | ||
<!--- | <!--- | ||
+ | # ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005. | ||
+ | # ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003. | ||
+ | # ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001. | ||
+ | # ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001. | ||
+ | # ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987. | ||
#''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55. | #''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55. | ||
#''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76. | #''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76. |
Версия 13:50, 7 декабря 2013
Курс знакомит студентов с основными задачами и методами прикладной статистики.
Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.
Каждый метод описывается по единой схеме:
- постановка задачи;
- примеры прикладных задач из области экономики, социологии, производства, медицины;
- базовые предположения и границы применимости;
- описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
- достоинства, недостатки, ограничения, «подводные камни»;
- сравнение с другими методами.
Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).
Программа курса
Введение
Обзор необходимых сведений из теории вероятностей и математической статистики.
- Понятия простой выборки и статистики. Примеры статистик: моменты, асимметрия и эксцесс, вариационный ряд и порядковые статистики, эмпирическое распределение.
- Свойства критериев: несмещённость, состоятельность, равномерная мощность.
- Статистические точечные оценки и их свойства: несмещённость, состоятельность, оптимальность, робастность.
- Интервальные оценки, понятия доверительного интервала и коэффициента доверия.
- Часто используемые распределения: нормальное, Фишера, Стьюдента, хи-квадрат, Бернулли, биномиальное, гипергеометрическое.
- Проверка статистических гипотез, основные понятия: уровень значимости, пи-величина (p-value), критическая область, критическая функция, ошибки I и II рода. Односторонние и двусторонние критические области.
Параметрическая проверка гипотез
[Kanji]
- Критерии нормальности: критерий хи-квадрат (Пирсона), критерий Колмогорова-Смирнова, Критерий Шапиро-Уилка, критерий омега-квадрат Смирнова-Крамера-фон Мизеса. Упрощённые проверки нормальности по асимметрии и эксцессу.
- Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании [Лапач, §3.2]. Примеры прикладных задач.
- Систематизация критериев.
- Гипотеза о равенстве средних: критерий Стьюдента для одной и двух выборок, Z-критерий для одной и двух выборок, связанные выборки
- Гипотеза о равенстве дисперсий: критерий Фишера.
- Гипотезы о значениях параметра биномиального распределения: сравнение значения параметра с заданным, сравнение параметров распределений двух выборок.
- Доверительный интервал для параметра биномиального распределения: Вальда, Уилсона.
Непараметрическая проверка гипотез
[Kanji, Good]
- Непараметрические ранговые критерии для проверки гипотез: критерий Уилкоксона-Манна-Уитни, гипотезы о положении, гипотезы о рассеивании.
- Критерии знаков: одновыборочный, для связных выборок.
- Вариационный ряд, ранги и связки.
- Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связных выборок, критерий Зигеля-Тьюки, WM-критерий.
- Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связных выборок, для независимых выборок), проверка гипотезы о рассеивании.
Дисперсионный анализ (ANOVA)
[Лапач, 193].
- Однофакторная модель: критерии Фишера, Краскела-Уоллиса, Джонкхиера.
- Модель со случайным эффектом, разделение дисперсии.
- Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD, критерий Неменьи.
- Проверка гипотезы о равенстве дисперсий: критерии Бартлета и квадратов рангов.
- Двухфакторная модель. Взаимодействие факторов, его интерпретация. Иерархический дизайн.
- Двухфакторный нормальный анализ.
- Двухфакторная непараметрическая модель: критерий Фридмана, критерий Пейджа.
Множественная проверка гипотез
[Bretz]
- Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
- FWER, поправка Бонферрони.
- Нисходящие процедуры множественной проверки: общий вид, метод Холма.
- Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality.
- Оценка числа верных нулевых гипотез и её применение.
- FDR, методы Бенджамини.
Анализ зависимостей
[Лапач, 174, 204, 316, Лагутин, Т2:174].
- Корреляция Пирсона. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий.
- Ранговая корреляция: коэффициент корреляции Спирмена, коэффициент корреляции Кенделла, их значимость. Связь коэффициентов корреляции.
- Частная корреляция, значимость коэффициента частной корреляции (критерий Стьюдента).
- Множественная корреляция, значимость коэффициента множественной корреляции (критерий Фишера).
- Таблица сопряженности 2×2. Проверка гипотезы независимости бинарных величин: критерий хи-квадрат, точный критерий Фишера, критерий Мак-Нимара. Коэффициент корреляции Мэтьюса.
- Парадокс хи-квадрат.
Линейный регрессионный анализ
[Дрейпер, Wooldridge]
- Многомерная линейная регрессия. Примеры прикладных задач. Метод наименьших квадратов.
- Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. Остаточная сумма квадратов (RSS). Коэффициент детерминации
- Предположения Гаусса-Маркова. Статистические свойства МНК-оценок в отсутствие предположения нормальности.
- Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность.
- Кодирование нечисловых признаков, фиктивные переменные. Dummy- и deviation-кодирование.
- Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика.
- Анализ структуры линейной регрессионной модели. Значимость коэффициентов линейной регрессии: проверка равенства коэффициентов нулю и константе, вложенные модели линейной регрессии, критерий Фишера, запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. Пошаговая регрессия. Эксперимент Фридмана.
- Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона.
- Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерии Бройша-Пагана), нормальности.
- Обработка пропусков и выбросов. Расстояние Кука.
- Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
- Проверка общей линейной гипотезы.
- Нелинейная регрессия. Построение совместной доверительной области для параметров модели. Приближённая проверка адекватности модели по чистой ошибке.
- Проблема мультиколлинеарности. Методы понижения размерности: ридж-регрессия, лассо Тибширани, эластичная сеть. Выбор параметра регуляризации.
Материалы занятий: часть 1, часть 2, часть 3, пример решения задачи.
Логистическая регрессия
[Hosmer]
- Постановка задачи логистической регрессии, повторяемый эксперимент с фиксированными уровнями фактора, неповторяемый эксперимент со случайными уровнями фактора. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии (бинарный, количественный признак).
- Оценка параметров модели методом максимального правдоподобия. Возможные причины отсутствия сходимости.
- Анализ модели логистической регрессии: оценка значимости коэффициентов (критерий Вальда),построение доверительных интервалов, остатки Пирсона, проверка линейности логита по признаку, признаки мультиколлинеарности.
- Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
Анализ временных рядов
[Shumway, Hyndman, Лукашин, Kirchgassner ]
- Временной ряд. Основные компоненты эконометрических временных рядов: тренд, сезонность, календарные эффекты.
- Анализ остатков. Автокорреляционная функция. Коррелограмма и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций (критерий Льюнга-Бокса). Проверка гипотезы стационарности (критерий KPSS).
- Модели AR, MA, ARMA. Частичная автокорреляция. Подбор параметров модели по коррелограммам. Переход к ряду разностей, модель ARIMA.
- Информационные критерии сравнения моделей.
- Сезонные эффекты и модели их учёта: SARMA, SARIMA.
- Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
- Адаптивные алгоритмы краткосрочного прогнозирования. Модели тренда, сезонность. Запись с помощью пространства состояний. Оценка параметров модели.
- Обнаружение структурных изменений. Критерий Чоу.
- Меры качества прогнозов, примеры оценок. Информационные критерии. U-коэффициент Тейла.
- Сравнение качества двух прогнозов. Непараметрические критерии, критерий Диболда-Мариано, его модификация для маленьких выборок.
- Сравнение качества нескольких прогнозов. Reality check Уайта, модификация Романо-Вольфа.
- Причинность по Грейнджеру. Критерий Грейнджера (для двух рядов, для множества рядов).
- Адаптивная селекция моделей прогнозирования.
- Адаптивная композиция моделей прогнозирования.
Материалы занятий: часть 1, часть 3.
Последовательный анализ Вальда
[Вальд]
- Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
- Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
Анализ выживаемости
- Анализ выживаемости. Функция выживаемости и функция интенсивности рисков. Процедура Каплана-Мейера. Доверительный интервал выживаемости.
- Сравнение двух функций выживаемости: логранговый критерий, критерий Гехана.
Литература
- Лапач С.Н. , Чубенко А.В., Бабич П.Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
- Лагутин М.Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
- Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
- Кобзарь А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
- Kanji G.K. 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
- Good P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Bretz F., Hothorn T., Westfall P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
- Дрейпер Н. Р., Смит Г. Прикладной регрессионный анализ. — М.: Издательский дом "Вильямс", 2007.
- Wooldridge J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009.
- Hosmer D. W., Lemeshow S. Applied Logistic Regression. — New York: John Wiley & Sons, 2000.
- Shumway R.H, Stoffer D.S. Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011.
- Hyndman R.J., Koehler A.B., Ord J.K., Snyder R.D. Forecasting with Exponential Smoothing: The State Space Approach. — Berlin: Springer, 2008.
- Kirchgassner G., Wolters J., Hassler U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
- Вальд А. Последовательный анализ. - М.: Физматлит, 1960.
Ссылки
- Википедия: Проверка статистических гипотез
- Википедия: Статистический критерий
- Статистический Портал StatSoft
- Электронный статистический словарь StatSoft