Статистический анализ данных (курс лекций, К.В.Воронцов)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Непараметрическая проверка гипотез)
м
Строка 132: Строка 132:
=== Анализ временных рядов ===
=== Анализ временных рядов ===
-
[Shumway]
+
[Shumway, Hyndman, Лукашин, Kirchgassner ]
* [[Временной ряд]]. Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], календарные эффекты.
* [[Временной ряд]]. Основные компоненты эконометрических временных рядов: [[тренд]], [[сезонность]], календарные эффекты.
* Анализ остатков. [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций ([[критерий Льюнга-Бокса]]). Проверка гипотезы стационарности ([[критерий KPSS]]).
* Анализ остатков. [[Автокорреляционная функция]]. [[Коррелограмма]] и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции и группы автокорреляций ([[критерий Льюнга-Бокса]]). Проверка гипотезы стационарности ([[критерий KPSS]]).
Строка 139: Строка 139:
* Сезонные эффекты и модели их учёта: SARMA, SARIMA.
* Сезонные эффекты и модели их учёта: SARMA, SARIMA.
* Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
* Учёт дополнительных признаков, модель regARIMA. Схема настройки параметров модели.
-
[[Media:S11.pdf‎‎|Материалы семинара по теме]]
+
* Адаптивные алгоритмы краткосрочного прогнозирования. Модели тренда, сезонность. Запись с помощью пространства состояний. Оценка параметров модели.
-
 
+
* Обнаружение структурных изменений. [[Критерий Чоу]].
 +
* Меры качества прогнозов, примеры оценок. Информационные критерии. [[U-коэффициент Тейла]].
 +
* Сравнение качества двух прогнозов. Непараметрические критерии, [[критерий Диболда-Мариано]], его модификация для маленьких выборок.
 +
* Сравнение качества нескольких прогнозов. [[Reality check Уайта]], модификация Романо-Вольфа.
 +
* [[Причинность по Грейнджеру]]. [[Критерий Грейнджера]] (для двух рядов, для множества рядов).
 +
* [[Адаптивная селекция моделей прогнозирования]].
 +
* [[Адаптивная композиция моделей прогнозирования]].
 +
Материалы занятий: [[Media:S11.pdf‎‎|часть 1]], [[Media:S13.pdf‎‎|часть 3]].
 +
<!---
=== [[Адаптивные методы прогнозирования временных рядов|Адаптивные методы прогнозирования]] ===
=== [[Адаптивные методы прогнозирования временных рядов|Адаптивные методы прогнозирования]] ===
-
[Лукашин]
 
* [[Экспоненциальное сглаживание|Модель Брауна]] — экспоненциальное сглаживание.
* [[Экспоненциальное сглаживание|Модель Брауна]] — экспоненциальное сглаживание.
* [[Модель Хольта]] — линейный тренд без сезонности.
* [[Модель Хольта]] — линейный тренд без сезонности.
Строка 149: Строка 156:
* Анализ адекватности адаптивных моделей, [[следящий контрольный сигнал]].
* Анализ адекватности адаптивных моделей, [[следящий контрольный сигнал]].
* [[Адаптация параметров адаптации]]. [[Модель Тригга-Лича]].
* [[Адаптация параметров адаптации]]. [[Модель Тригга-Лича]].
-
* Обнаружение структурных изменений. [[Критерий Чоу]].
+
--->
-
* [[Адаптивная селекция моделей прогнозирования]].
+
-
* [[Адаптивная композиция моделей прогнозирования]].
+
=== Последовательный анализ Вальда ===
=== Последовательный анализ Вальда ===
Строка 204: Строка 209:
== Литература ==
== Литература ==
-
# ''Лапач С. Н. , Чубенко А. В., Бабич П. Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
+
# ''Лапач С.Н. , Чубенко А.В., Бабич П.Н.'' Статистика в науке и бизнесе. — Киев: Морион, 2002.
-
# ''Лагутин М. Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
+
# ''Лагутин М.Б.'' Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
-
# ''Лукашин Ю. П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
+
# ''Лукашин Ю.П.'' Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
-
# ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
+
# ''Кобзарь А.И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
-
# ''Кобзарь А. И.'' Прикладная математическая статистика. — М.: Физматлит, 2006.
+
-
# ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003.
+
-
# ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
+
-
# ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
+
-
# ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
+
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
# {{Публикация:Hastie 2001 The Elements of Statistical Learning}}
-
# ''Kanji G. K.'' 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
+
# ''Kanji G.K.'' 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
# ''Good P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
# ''Good P.'' Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
# ''Bretz F., Hothorn T., Westfall P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
# ''Bretz F., Hothorn T., Westfall P.'' Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
Строка 220: Строка 220:
# ''Wooldridge J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009.
# ''Wooldridge J.'' Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009.
# ''Hosmer D. W., Lemeshow S.'' Applied Logistic Regression. — New York: John Wiley & Sons, 2000.
# ''Hosmer D. W., Lemeshow S.'' Applied Logistic Regression. — New York: John Wiley & Sons, 2000.
-
# ''Вальд А.'' Последовательный анализ. - М.: Физматлит, 1960.
 
# ''Shumway R.H, Stoffer D.S.'' Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011.
# ''Shumway R.H, Stoffer D.S.'' Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011.
 +
# ''Hyndman R.J., Koehler A.B., Ord J.K., Snyder R.D.'' Forecasting with Exponential Smoothing: The State Space Approach. — Berlin: Springer, 2008.
 +
# ''Kirchgassner G., Wolters J., Hassler U.'' Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
 +
# ''Вальд А.'' Последовательный анализ. - М.: Физматлит, 1960.
<!---
<!---
 +
# ''Магнус Я. Р., Катышев П. К., Пересецкий А. А.'' Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
 +
# ''Орлов А. И.'' Эконометрика. — М.: Экзамен, 2003.
 +
# ''Айвазян С. А., Мхитарян В. С.'' Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
 +
# ''Айвазян С. А.'' Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
 +
# ''Вучков И., Бояджиева А., Солаков Е.'' Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
#''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
#''Strijov, V., Shakin, V.'' [http://strijov.com/papers/10-v_strijov.pdf Index construction: the expert-statistical method]. // Environmental research, engineering and management 2003. No.4 (26), P.51-55.
#''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.
#''Стрижов В. В., Казакова Т. В.'' [http://strijov.com/papers/stable_idx4zavlab_after_recenz.pdf Устойчивые интегральные индикаторы с выбором опорного множества описаний]. // Заводская лаборатория. Диагностика материалов. 2007 (7). C. 72-76.

Версия 13:50, 7 декабря 2013

Содержание

Курс знакомит студентов с основными задачами и методами прикладной статистики.

Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.

Каждый метод описывается по единой схеме:

  • постановка задачи;
  • примеры прикладных задач из области экономики, социологии, производства, медицины;
  • базовые предположения и границы применимости;
  • описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
  • достоинства, недостатки, ограничения, «подводные камни»;
  • сравнение с другими методами.

Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).

Программа курса

Введение

Обзор необходимых сведений из теории вероятностей и математической статистики.

Материалы занятия

Параметрическая проверка гипотез

[Kanji]

Материалы занятия

Непараметрическая проверка гипотез

[Kanji, Good]

Материалы занятия

Дисперсионный анализ (ANOVA)

[Лапач, 193].

Материалы занятия

Множественная проверка гипотез

[Bretz]

  • Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
  • FWER, поправка Бонферрони.
  • Нисходящие процедуры множественной проверки: общий вид, метод Холма.
  • Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, subset pivotality.
  • Оценка числа верных нулевых гипотез и её применение.
  • FDR, методы Бенджамини.

Материалы занятия

Анализ зависимостей

[Лапач, 174, 204, 316, Лагутин, Т2:174].

Материалы занятия

Линейный регрессионный анализ

[Дрейпер, Wooldridge]

  • Многомерная линейная регрессия. Примеры прикладных задач. Метод наименьших квадратов.
  • Несимметричность решения задачи одномерной регрессии относительно признака и отклика, связь с коэффициентом корреляции. Остаточная сумма квадратов (RSS). Коэффициент детерминации
  • Предположения Гаусса-Маркова. Статистические свойства МНК-оценок в отсутствие предположения нормальности.
  • Факторы, влияющие на дисперсию оценок коэффициентов модели. Мультиколлинеарность.
  • Кодирование нечисловых признаков, фиктивные переменные. Dummy- и deviation-кодирование.
  • Статистические свойства МНК-оценок при добавлении предположения нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозируемого значения отклика.
  • Анализ структуры линейной регрессионной модели. Значимость коэффициентов линейной регрессии: проверка равенства коэффициентов нулю и константе, вложенные модели линейной регрессии, критерий Фишера, запись критерия Фишера через коэффициент детерминации. Связь между критериями Фишера и Стьюдента. Пошаговая регрессия. Эксперимент Фридмана.
  • Сравнение невложенных моделей: приведённый коэффициент детерминации, критерий Давидсона-Маккиннона.
  • Анализ регрессионных остатков: визуальный анализ, проверка гипотез несмещённости, гомоскедастичности (критерии Бройша-Пагана), нормальности.
  • Обработка пропусков и выбросов. Расстояние Кука.
  • Метод Бокса-Кокса для преобразования отклика. Доверительный интервал для параметра метода.
  • Проверка общей линейной гипотезы.
  • Нелинейная регрессия. Построение совместной доверительной области для параметров модели. Приближённая проверка адекватности модели по чистой ошибке.
  • Проблема мультиколлинеарности. Методы понижения размерности: ридж-регрессия, лассо Тибширани, эластичная сеть. Выбор параметра регуляризации.

Материалы занятий: часть 1, часть 2, часть 3, пример решения задачи.

Логистическая регрессия

[Hosmer]

  • Постановка задачи логистической регрессии, повторяемый эксперимент с фиксированными уровнями фактора, неповторяемый эксперимент со случайными уровнями фактора. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии (бинарный, количественный признак).
  • Оценка параметров модели методом максимального правдоподобия. Возможные причины отсутствия сходимости.
  • Анализ модели логистической регрессии: оценка значимости коэффициентов (критерий Вальда),построение доверительных интервалов, остатки Пирсона, проверка линейности логита по признаку, признаки мультиколлинеарности.
  • Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.

Материалы занятия

Анализ временных рядов

[Shumway, Hyndman, Лукашин, Kirchgassner ]

Материалы занятий: часть 1, часть 3.

Последовательный анализ Вальда

[Вальд]

  • Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
  • Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.

Конспект лекции

Анализ выживаемости

Литература

  1. Лапач С.Н. , Чубенко А.В., Бабич П.Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
  2. Лагутин М.Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
  3. Лукашин Ю.П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
  4. Кобзарь А.И. Прикладная математическая статистика. — М.: Физматлит, 2006.
  5. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)
  6. Kanji G.K. 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
  7. Good P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
  8. Bretz F., Hothorn T., Westfall P. Multiple Comparisons Using R. — Boca Raton: Chapman and Hall/CRC, 2010.
  9. Дрейпер Н. Р., Смит Г. Прикладной регрессионный анализ. — М.: Издательский дом "Вильямс", 2007.
  10. Wooldridge J. Introductory Econometrics: A Modern Approach. — Mason: South-Western Cengage Learning, 2009.
  11. Hosmer D. W., Lemeshow S. Applied Logistic Regression. — New York: John Wiley & Sons, 2000.
  12. Shumway R.H, Stoffer D.S. Time Series Analysis and Its Applications with R Examples. — New York: Springer, 2011.
  13. Hyndman R.J., Koehler A.B., Ord J.K., Snyder R.D. Forecasting with Exponential Smoothing: The State Space Approach. — Berlin: Springer, 2008.
  14. Kirchgassner G., Wolters J., Hassler U. Introduction to modern time series analysis. — Heidelberg: Springer, 2013.
  15. Вальд А. Последовательный анализ. - М.: Физматлит, 1960.

Ссылки


Подстраницы

Личные инструменты