Статистический анализ данных (курс лекций, К.В.Воронцов)
Материал из MachineLearning.
м |
м (→Программа курса) |
||
Строка 69: | Строка 69: | ||
[[Media:S4.pdf|Материалы занятия]] | [[Media:S4.pdf|Материалы занятия]] | ||
- | === | + | === Корреляционный анализ === |
- | [Лапач, 204, 316, Лагутин, Т2:174]. | + | [Лапач, 174, 204, 316, Лагутин, Т2:174]. |
+ | * [[Коэффициент корреляции Пирсона|Корреляция Пирсона]]. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий. | ||
+ | * [[Ранговая корреляция]]: [[коэффициент корреляции Спирмена]], [[коэффициент корреляции Кенделла]], их значимость. Связь коэффициентов корреляции. | ||
+ | * [[Частная корреляция]], значимость коэффициента частной корреляции (критерий Стьюдента). | ||
+ | * [[Множественная корреляция]], значимость коэффициента множественной корреляции (критерий Фишера). | ||
+ | * [[Конкордация Кенделла]]. | ||
+ | * [[Таблица сопряженности]] K×L. Проверка гипотезы независимости категориальных величин: критерий хи-квадрат, G-критерий. Коэффициент V Крамера. | ||
+ | * [[Таблица сопряженности]] 2×2. Проверка гипотезы независимости бинарных величин: критерий хи-квадрат, [[Точный тест Фишера|точный критерий Фишера]]. Коэффициент корреляции Мэтьюса. | ||
+ | * [[Парадокс хи-квадрат]]. | ||
+ | |||
+ | [[Media:S5.pdf|Материалы занятия]] | ||
+ | <!--- | ||
* [[Критерий хи-квадрат|Критерий согласия Пирсона]]: простая гипотеза, сложная гипотеза. | * [[Критерий хи-квадрат|Критерий согласия Пирсона]]: простая гипотеза, сложная гипотеза. | ||
- | + | * Понятие [[закономерность|закономерности]] в алгоритмах классификации, статистические и логические закономерности. Примеры: посещаемость сайтов пользователями Интернет, анализ результатов голосования, маркетинговые исследования. ---> | |
- | + | ||
- | + | ||
- | * Понятие [[закономерность|закономерности]] в алгоритмах классификации, статистические и логические закономерности. Примеры: посещаемость сайтов пользователями Интернет, анализ результатов голосования, маркетинговые исследования. | + | |
- | [[Media: | + | === Множественная проверка гипотез === |
+ | * [[Множественная проверка гипотез]]. Примеры задач. Меры числа ошибок первого рода. | ||
+ | * [[FWER]], поправка Бонферрони. | ||
+ | * Нисходящие процедуры множественной проверки: общий вид, метод Холма. | ||
+ | * Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, положительная регрессионная зависимость, subset pivotality. | ||
+ | * [[FDR]], методы Бенджамини, двухэтапные модификации. | ||
+ | |||
+ | [[Media:Sem_MHT.pdf|Материалы семинара по теме]] | ||
=== Последовательный анализ Вальда === | === Последовательный анализ Вальда === | ||
Строка 85: | Строка 100: | ||
[[Media:Lec5.pdf|Конспект лекции]] | [[Media:Lec5.pdf|Конспект лекции]] | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
=== Линейный регрессионный анализ === | === Линейный регрессионный анализ === | ||
Строка 175: | Строка 180: | ||
* [[Выборочный контроль качества]] [Лапач, 351]. Одноступенчатый и двухступенчатый [[план контроля]]. Оперативная характеристика плана контроля. Парадоксы выборочного контроля. | * [[Выборочный контроль качества]] [Лапач, 351]. Одноступенчатый и двухступенчатый [[план контроля]]. Оперативная характеристика плана контроля. Парадоксы выборочного контроля. | ||
---> | ---> | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
<!--- | <!--- | ||
* Метод доверительных интервалов Неймана. | * Метод доверительных интервалов Неймана. |
Версия 19:25, 11 марта 2013
Курс знакомит студентов с основными задачами и методами прикладной статистики.
Цели курса — связать теорию и практику, научить студентов «видеть» статистические задачи в различных предметных областях и правильно применять методы прикладной статистики, показать на практических примерах возможности и ограничения статистических методов. Курс имеет скорее методологическую, чем математическую направленность и не содержит доказательств теорем.
Каждый метод описывается по единой схеме:
- постановка задачи;
- примеры прикладных задач из области экономики, социологии, производства, медицины;
- базовые предположения и границы применимости;
- описание метода (для методов проверки статистических гипотез: нулевая гипотеза и альтернативы, статистика, её функция распределения с эскизом графика, критическая область);
- достоинства, недостатки, ограничения, «подводные камни»;
- сравнение с другими методами.
Курс читается студентам 5 курса кафедры Математические методы прогнозирования ВМиК МГУ, начиная с 2007 года. Предполагается, что студенты уже прослушали курсы теории вероятностей и математической статистики, знакомы с элементами дискриминантного, факторного и кластерного анализа (по кафедральному курсу «Математические методы распознавания образов»), регрессионного анализа и анализа временных рядов (по кафедральному курсу ММП).
Программа курса
Введение
Обзор необходимых сведений из теории вероятностей и математической статистики.
- Понятия простой выборки и статистики. Примеры статистик: моменты, асимметрия и эксцесс, вариационный ряд и порядковые статистики, эмпирическое распределение.
- Свойства критериев: несмещённость, состоятельность, равномерная мощность.
- Статистические точечные оценки и их свойства: несмещённость, состоятельность, оптимальность, робастность.
- Интервальные оценки, понятия доверительного интервала и коэффициента доверия.
- Часто используемые распределения: нормальное, Фишера, Стьюдента, хи-квадрат, Бернулли, биномиальное, гипергеометрическое.
- Проверка статистических гипотез, основные понятия: уровень значимости, пи-величина (p-value), критическая область, критическая функция, ошибки I и II рода. Односторонние и двусторонние критические области.
Параметрическая проверка гипотез
[Kanji]
- Критерии нормальности: критерий хи-квадрат (Пирсона), критерий Колмогорова-Смирнова, Критерий Шапиро-Уилка, критерий омега-квадрат Смирнова-Крамера-фон Мизеса. Упрощённые проверки нормальности по асимметрии и эксцессу.
- Нормальные параметрические критерии для проверки гипотез: гипотезы о положении, гипотезы о рассеивании [Лапач, §3.2]. Примеры прикладных задач.
- Систематизация критериев.
- Гипотеза о равенстве средних: критерий Стьюдента для одной и двух выборок, Z-критерий для одной и двух выборок, связанные выборки
- Гипотеза о равенстве дисперсий: критерий Фишера.
- Гипотезы о значениях параметра биномиального распределения: сравнение значения параметра с заданным, сравнение двух значений параметра.
- Доверительный интервал для параметра биномиального распределения: Вальда, Уилсона.
Непараметрическая проверка гипотез
[Kanji, Good]
- Непараметрические ранговые критерии для проверки гипотез: Критерий Уилкоксона-Манна-Уитни, гипотезы о положении, гипотезы о рассеивании.
- Критерии знаков: одновыборочный, для связных выборок.
- Вариационный ряд, ранги и связки.
- Ранговые критерии: критерий Уилкоксона-Манна-Уитни, критерий Уилкоксона двухвыборочный, критерий Уилкоксона для связных выборок, критерий Зигеля-Тьюки, WM-критерий.
- Перестановочные критерии. Проверка гипотез о положении (одновыборочный, для связных выборок, для независимых выборок), проверка гипотезы о рассеивании.
Дисперсионный анализ (ANOVA)
[Лапач, 193].
- Однофакторная модель: критерии Фишера, Краскела-Уоллиса, Джонкхиера.
- Модель со случайным эффектом, разделение дисперсии.
- Модель с фиксированным эффектом, уточнение различий: методы LSD и HSD.
- Проверка гипотезы о равенстве дисперсий: критерии Бартлета и квадратов рангов.
- Двухфакторная модель. Взаимодействие факторов, его интерпретация. Иерархический дизайн.
- Двухфакторный нормальный анализ.
- Двухфакторная непараметрическая модель: критерий Фридмана, критерий Пейджа.
Корреляционный анализ
[Лапач, 174, 204, 316, Лагутин, Т2:174].
- Корреляция Пирсона. Значимость коэффициента корреляции: критерий Стьюдента, перестановочный критерий.
- Ранговая корреляция: коэффициент корреляции Спирмена, коэффициент корреляции Кенделла, их значимость. Связь коэффициентов корреляции.
- Частная корреляция, значимость коэффициента частной корреляции (критерий Стьюдента).
- Множественная корреляция, значимость коэффициента множественной корреляции (критерий Фишера).
- Конкордация Кенделла.
- Таблица сопряженности K×L. Проверка гипотезы независимости категориальных величин: критерий хи-квадрат, G-критерий. Коэффициент V Крамера.
- Таблица сопряженности 2×2. Проверка гипотезы независимости бинарных величин: критерий хи-квадрат, точный критерий Фишера. Коэффициент корреляции Мэтьюса.
- Парадокс хи-квадрат.
Множественная проверка гипотез
- Множественная проверка гипотез. Примеры задач. Меры числа ошибок первого рода.
- FWER, поправка Бонферрони.
- Нисходящие процедуры множественной проверки: общий вид, метод Холма.
- Процедуры множественной проверки гипотез при наличии дополнительной информации о признаках: независимость, положительная регрессионная зависимость, subset pivotality.
- FDR, методы Бенджамини, двухэтапные модификации.
Последовательный анализ Вальда
[Вальд]
- Применение в задачах проверки гипотез о значениях параметра биномиального распределения: сравнение значения с заданным, сравнение двух значений.
- Применение в задачах проверки гипотез о значениях параметров нормального распределения: сравнение значения среднего с заданными (симметричный и несимметричный варианты), сравнение значения дисперсии с заданным.
Линейный регрессионный анализ
[Дрейпер]
- Многомерная линейная регрессия. Примеры прикладных задач. Метод наименьших квадратов.
- МНК-решение и его запись через сингулярное разложение. Остаточная сумма квадратов (RSS).
- Основные предположения многомерной линейной регрессии. Статистические свойства МНК-оценок без предположения нормальности.
- Статистические свойства МНК-оценок при предположении нормальности. Доверительные интервалы для дисперсии шума, коэффициентов регрессии, прогнозного значения отклика.
Анализ регрессионных моделей
- Анализ структуры линейной регрессионной модели. Значимость коэффициентов линейной регрессии (проверка равенства коэффициентов нулю), вложенные модели линейной регрессии, критерий Фишера. Шаговая регрессия.
- Проверка адекватности модели. Выборочный коэффициент детерминации. Дисперсия остатков.
- Проблема мультиколлинеарности. Методы понижения размерности: ридж-регрессия, лассо Тибширани. Выбор параметра регуляризации.
Анализ регрессионных остатков
- Анализ регрессионных остатков: визуальный анализ.
- Непараметрические тесты: критерий Уилкоксона-Манна-Уитни, критерий Зигеля-Тьюки, критерий знаков, критерий серий, критерий экстремумов.
- Проверка нормальности остатков: Критерий Шапиро-Уилка, критерий Колмогорова-Смирнова, критерий омега-квадрат фон Мизеса, критерий хи-квадрат Пирсона, критерии асимметрии и эксцесса.
- Тест на корреляцию остатков, статистика Дарбина-Уотсона.
Материалы семинаров по темам: часть 1, часть 2.
Непараметрическая регрессия
- Непараметрическая регрессия: ядерное сглаживание, формула Надарая-Ватсона. Разложение ошибки на вариацию и смещение. Выбор ядра и ширины окна. Окна переменной ширины. Доверительный интервал прогнозного значения отклика. Проблема выбросов, Алгоритм LOWESS.
- Совмещение многомерной линейной регрессии и одномерного сглаживания: метод настройки с возвращениями (backfitting).
- Примеры прикладных задач: анализ стиля управления инвестиционным портфелем, анализ деятельности паевых инвестиционных фондов.
- Регуляризация коэффициентов регрессии, медленно изменяющихся во времени.
Логистическая регрессия
[Hosmer]
- Постановка задачи логистической регрессии. Логит, его интерпретация. Интерпретация коэффициентов логистической регрессии.
- Анализ модели логистической регрессии: оценка значимости коэффициентов, проверка адекватности модели, анализ остатков, признаки мультиколлинеарности.
- Классификация на основе логистической регрессии: чувствительность, специфичность, выбор порога.
Материалы семинара по логистической регрессии
Анализ временных рядов
[Лукашин]
- Временной ряд. Примеры: прогнозирование объёмов грузоперевозок, объёмов продаж, спроса и цен на электроэнергию.
- Основные компоненты эконометрических временных рядов: тренд, сезонность, календарные эффекты. Аддитивная модель временного ряда. Постановка линейной регрессионной задачи и МНК. Регуляризация сезонного профиля на временных рядах с малым числом периодов.
- Статистические тесты для проверки гипотезы тренда: критерий Аббе-Линника, критерий Кокса-Стюарта, критерий Фостера-Стюарта.
- Автокорреляционная функция. Коррелограмма и её интерпретация. Проверка гипотезы о равенстве нулю автокорреляции.
Адаптивные методы прогнозирования
[Лукашин]
- Модель Брауна — экспоненциальное сглаживание.
- Модель Хольта — линейный тренд без сезонности.
- Модель Хольта-Уинтерса — мультипликативный тренд и сезонность.
- Модель Тейла-Вейджа — аддитивный тренд и сезонность.
- Анализ адекватности адаптивных моделей, скользящий контрольный сигнал.
- Адаптация параметров адаптации. Модель Тригга-Лича.
- Обнаружение структурных изменений. Критерий Чоу.
- Адаптивная селекция моделей прогнозирования.
- Адаптивная композиция моделей прогнозирования.
Анализ выживаемости
- Анализ выживаемости. Функция выживаемости и функция интенсивности рисков. Процедура Каплана-Мейера. Доверительный интервал выживаемости.
- Сравнение двух функций выживаемости: логранговый критерий, критерий Гехана.
Анализ панельных данных
[Магнус]
- Примеры эконометрических задач: анализ стран, фирм, домашних хозяйств, телезрителей.
- Объединённая модель панельных данных.
- Модель панельных данных с фиксированными эффектами.
- Модель панельных данных со случайными эффектами.
- Модель панельных данных с временны́ми эффектами.
- Модель несвязанных регрессий.
- Проблема выбора модели: F-тест Фишера, критерий множителей Лагранжа, критерий Хаусмана.
- Ротационная панель.
Литература
- Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. — Киев: Морион, 2002.
- Лагутин М. Б. Наглядная математическая статистика. В двух томах. — М.: П-центр, 2003.
- Лукашин Ю. П. Адаптивные методы краткосрочного прогнозирования временных рядов. — М.: Финансы и статистика, 2003.
- Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: Учеб. — 7-е изд., испр. — М.: Дело, 2005.
- Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006.
- Орлов А. И. Эконометрика. — М.: Экзамен, 2003.
- Айвазян С. А., Мхитарян В. С. Прикладная статистика. Том 1. Теория вероятностей и прикладная статистика. — М.: Юнити, 2001.
- Айвазян С. А. Прикладная статистика. Том 2. Основы эконометрики. — М.: Юнити, 2001.
- Вучков И., Бояджиева А., Солаков Е. Прикладной линейный регрессионный анализ. — М.: Финансы и статистика, 1987.
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
- Kanji G. K. 100 statistical tests. — London: Thousand Oaks: New Dehli: SAGE Publications, 2006.
- Good P. Permutation, Parametric and Bootstrap Tests of Hypotheses: A Practical Guide to Resampling Methods for Testing Hypotheses. — New York: Springer, 2005.
- Дрейпер Н. Р., Смит Г. Прикладной регрессионный анализ. М.: Издательский дом "Вильямс", 2007.
- Hosmer D. W., Lemeshow S. Applied Logistic Regression. - New York: John Wiley & Sons, 2000.
- Вальд А. Последовательный анализ. - М.: Физматлит, 1960.
Ссылки
- Википедия: Проверка статистических гипотез
- Википедия: Статистический критерий
- Статистический Портал StatSoft
- Электронный статистический словарь StatSoft