Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)

Версия 20:49, 11 августа 2011

Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.

Предполагается, что слушатели владеют материалом курса «Численные методы обучения по прецедентам»

Страница редактируется для группы 674 вплоть до 7 сентября 2011. --Strijov 15:25, 21 июня 2011 (MSD)

Содержание

1 Введение
2 Линейные и существенно-нелинейные модели
3 Линейные методы
4 Обобщенно-линейные модели
5 Методы сэмплирования
6 Критерии качества моделей
7 Требования к моделям
8 Порождение моделей
9 Методы выбора признаков
10 Сравнение моделей
11 Сравнение моделей
12 Мультимоделирование и смеси экспертов
13 Анализ ковариационных матриц
14 Практика
15 Экзамен
16 История
17 Литература

Введение

Задача регрессионного анализа, терминология
Что такое регрессионная модель
Примеры постановки задач регрессионного анализа
Подстановки в линейных моделях
Авторегрессионные модели
Моделирование геометрических измерений
Моделирование в финансовой математике
Экспертно-статистические методы

Линейные и существенно-нелинейные модели

Линейная регрессия
Метод наименьших квадратов
Нелинейная регрессия
Основные модели нелинейной регрессии
Матрица Якоби и Гессе
Метод Ньютона
Алгоритм Левенберга-Марквардта
Ранговая регрессия

Линейные методы

Метод главных компонент
Максимальное правдоподобие МГК
Байсесовский МГК
МГК для нелинейных моделей
Сингулярное разложение
Простой итерационный алгоритм сингулярного разложения
Пространства, порождаемые сингулярными векторами
Матричные нормы и обусловленность
Анализ сингулярных структур

Обобщенно-линейные модели

Гипотеза порождения данных
Логистическая регрессия
Метод Ньютона-Рафсона
Первый уровень Байесовского вывода
Регуляризация
Оценка гиперпараметров для произвольной гипотезы порождения данных

Методы сэмплирования

Интегрирование Монте-Карло
Методы преобразования равномерного распределения
Сэмплирование с отклонением
Сэмплирование по значимости
Гиббсовское сэмплирование
Сэмплирование Метрополиса-Хастингса
Использование результатов

Критерии качества моделей

Отсутствие гипотезы порождения данных
Искусственные критерии качества моделей
МГУА
Скоринг и логистическая регрессия.
Многокритериальный выбор моделей
Постановка задач многокритериальной оптимизации.
Сведение многокритериальной оптимизации к однокритериальной (Weber)
Парето-оптимальный фронт
Алгоритмы многокритериальной оптимизации

Требования к моделям

Анализ регрессионных остатков
Фактор инфляции дисперсии
Сложность моделей
Устойчивость моделей
Метод Белсли для линейных моделей
Метод Белсли и анализ ковариационных матриц для нелинейных моделей

Порождение моделей

Методы порождения моделей
Структурная сложность
Структурное расстояние
Порождение моделей МГУА
Порождение нейронных сетей и RBF
Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом

Методы выбора признаков

Переборные алгоритмы
Шаговая регрессия
Алгоритмы с регуляризацией
Алгоритмы направленного добавления FOS, Stagewise, LARS
Оптимальное прореживание
Оптимизация правдоподобия

Сравнение моделей

Второй уровень Байесовского вывода
Фактор Оккама
Принцип минимальной длины описания
Аппроксимация Лапласа
Оценка гиперпараметров
Выбор базиса аппроксимации Лапласа

Сравнение моделей

Графические модели
Байесовские сети
Расстояние Кулльбака-Лейблера
Вероятностная сходимость
Расстояние между моделями

Мультимоделирование и смеси экспертов

Байесовское усреднение моделей
Смеси распределений
Смеси линейных моделей
Смеси обобщенно-линейных моделей
Смеси экспертов
Иерархические модели
Инварианты в пространстве параметров моделей

Анализ ковариационных матриц

Гауссовские процессы
Байесовская регрессия - пространство данных и пространство параметров
Оценка гиперпараметров
Мультиколлинеарность и случайные признаки

Практика

Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».

Подробнее: Группа 674, осень 2011

Экзамен

До начала экзамена нужно выполнить все практические задания. Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), неотрицательная оценка за экзамен дает 1 балл, а отрезок [84, 100] линейно отображается в отрезок [6,10].

Практика

29 сентября и 6 октября
27 октября и 3 ноября
24 ноября и 1 декабря

Теория

15 декабря 2011 группа 674: список задач будет опубликован по окончании экзамена

История

Предшествующие программы и практические задания

Начиная с осени 2010 старая практика переносится в раздел

Численные методы обучения по прецедентам

Литература

Источник — «http://recognition.su/wiki/index.php?title=%D0%9F%D1%80%D0%B8%D0%BA%D0%BB%D0%B0%D0%B4%D0%BD%D0%BE%D0%B9_%D1%80%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D0%BE%D0%BD%D0%BD%D1%8B%D0%B9_%D0%B0%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_B.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29»

Категория: Учебные курсы

@@ Строка 16: / Строка 16: @@
 * Экспертно-статистические методы
-== Линейные модели ==
+== Линейные и существенно-нелинейные модели ==
 * Линейная регрессия
 * Метод наименьших квадратов
@@ Строка 27: / Строка 27: @@
 == Линейные методы ==
+* Метод главных компонент
+* Максимальное правдоподобие МГК
+* Байсесовский МГК
+* МГК для нелинейных моделей
 * Сингулярное разложение
 * Простой итерационный алгоритм сингулярного разложения
 * Пространства, порождаемые сингулярными векторами
 * Матричные нормы и обусловленность
-* Метод главных компонент
 * Анализ сингулярных структур
-== Обобщенные линейные модели ==
+== Обобщенно-линейные модели ==
 * Гипотеза порождения данных
 * Логистическая регрессия
@@ Строка 40: / Строка 43: @@
 * Первый уровень Байесовского вывода
 * Регуляризация
+* Оценка гиперпараметров для произвольной гипотезы порождения данных
+== Методы сэмплирования ==
+* Интегрирование Монте-Карло
+* Методы преобразования равномерного распределения
+* Сэмплирование с отклонением
+* Сэмплирование по значимости
+* Гиббсовское сэмплирование
+* Сэмплирование Метрополиса-Хастингса
+* Использование результатов
 == Критерии качества моделей ==
-* Отсутвие гипотезы порождения данных
+* Отсутствие гипотезы порождения данных
 * Искусственные критерии качества моделей
 * МГУА
@@ Строка 48: / Строка 61: @@
 * Многокритериальный выбор моделей
 * Постановка задач многокритериальной оптимизации.
-* Сведение многокритериальной опптимизации к однокритериальной (найти метод Вилли)
+* Сведение многокритериальной оптимизации к однокритериальной (Weber)
 * Парето-оптимальный фронт
 * Алгоритмы многокритериальной оптимизации
 == Требования к моделям ==
-* Анализ регрессионных оостатков
+* Анализ регрессионных остатков
 * Фактор инфляции дисперсии
-* Метод Белсли
 * Сложность моделей
 * Устойчивость моделей
+* Метод Белсли для линейных моделей
+* Метод Белсли и анализ ковариационных матриц для нелинейных моделей
 == Порождение моделей ==
@@ Строка 65: / Строка 79: @@
 * Порождение моделей МГУА
 * Порождение нейронных сетей и RBF
-* Порождение всех допустимых моделей данного класса по возрастающей сложности (алгоритм последовательного порождения всевозможных моделей)
+* Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
-* Порождение моделей, принадлежащих заданному индуктивно-порождаемому набору (классу моделей) случайным образом
+* Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
 == Методы выбора признаков ==
@@ Строка 86: / Строка 100: @@
 == Сравнение моделей ==
 * Графические модели
+* Байесовские сети
 * Расстояние Кулльбака-Лейблера
 * Вероятностная сходимость
-* Расстояние между моделями.
+* Расстояние между моделями
-== Смесь экспертов  ==
+== Мультимоделирование и смеси экспертов  ==
+* Байесовское усреднение моделей
+* Смеси распределений
+* Смеси линейных моделей
+* Смеси обобщенно-линейных моделей
+* Смеси экспертов
+* Иерархические модели
+* Инварианты в пространстве параметров моделей
-== Методы сэмплирования ==
+== Анализ ковариационных матриц ==
+* Гауссовские процессы
+* Байесовская регрессия - пространство данных и пространство параметров
+* Оценка гиперпараметров
+* Мультиколлинеарность и случайные признаки
+== Практика ==
+Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию.
+Практика и доклад выполняются в формате [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|«Численные методы»]].
+* Подробнее: [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 674, осень 2011 | Группа 674, осень 2011]]
 == Экзамен ==
-Экзамен состоит из двух частей: доклад о выполнении практики и письменная работа по теории. Доклад выполняется в формате [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|"Численные методы"]]. Письменная работа состоит из 50 вопросов/задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.
+До начала экзамена нужно выполнить все практические задания.
+Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов.
+Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), неотрицательная оценка за экзамен дает 1 балл, а отрезок [84, 100] линейно отображается в отрезок [6,10].
 '''Практика'''
-* 7 декабря 2011, группа 674: список тем
+* 29 сентября и 6 октября
+* 27 октября и 3 ноября
+* 24 ноября и 1 декабря
 '''Теория'''
-* 14 декабря 2011 группа 674: список задач
+* 15 декабря 2011 группа 674: список задач будет опубликован по окончании экзамена
 == История ==
@@ Строка 109: / Строка 143: @@
 * [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 274, осень 2007 | Группа 274, осень 2007]]
 * [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006 | Группа 174, осень 2006]]
+Начиная с осени 2010 старая практика переносится в раздел
-Начиная с осени 2010 практика по этому курсу переносится в раздел
 * [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]]
-== Основная литература ==
+== Литература ==
-== Дополнительная литература ==
 [[Категория:Учебные курсы]]

Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

Материал из MachineLearning.

Версия 20:49, 11 августа 2011

Содержание

Введение

Линейные и существенно-нелинейные модели

Линейные методы

Обобщенно-линейные модели

Методы сэмплирования

Критерии качества моделей

Требования к моделям

Порождение моделей

Методы выбора признаков

Сравнение моделей

Сравнение моделей

Мультимоделирование и смеси экспертов

Анализ ковариационных матриц

Практика

Экзамен

История

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты