Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)
Материал из MachineLearning.
м (опечатка) |
|||
Строка 16: | Строка 16: | ||
* Экспертно-статистические методы | * Экспертно-статистические методы | ||
- | == Линейные модели == | + | == Линейные и существенно-нелинейные модели == |
* Линейная регрессия | * Линейная регрессия | ||
* Метод наименьших квадратов | * Метод наименьших квадратов | ||
Строка 27: | Строка 27: | ||
== Линейные методы == | == Линейные методы == | ||
+ | * Метод главных компонент | ||
+ | * Максимальное правдоподобие МГК | ||
+ | * Байсесовский МГК | ||
+ | * МГК для нелинейных моделей | ||
* Сингулярное разложение | * Сингулярное разложение | ||
* Простой итерационный алгоритм сингулярного разложения | * Простой итерационный алгоритм сингулярного разложения | ||
* Пространства, порождаемые сингулярными векторами | * Пространства, порождаемые сингулярными векторами | ||
* Матричные нормы и обусловленность | * Матричные нормы и обусловленность | ||
- | |||
* Анализ сингулярных структур | * Анализ сингулярных структур | ||
- | == | + | == Обобщенно-линейные модели == |
* Гипотеза порождения данных | * Гипотеза порождения данных | ||
* Логистическая регрессия | * Логистическая регрессия | ||
Строка 40: | Строка 43: | ||
* Первый уровень Байесовского вывода | * Первый уровень Байесовского вывода | ||
* Регуляризация | * Регуляризация | ||
+ | * Оценка гиперпараметров для произвольной гипотезы порождения данных | ||
+ | |||
+ | == Методы сэмплирования == | ||
+ | * Интегрирование Монте-Карло | ||
+ | * Методы преобразования равномерного распределения | ||
+ | * Сэмплирование с отклонением | ||
+ | * Сэмплирование по значимости | ||
+ | * Гиббсовское сэмплирование | ||
+ | * Сэмплирование Метрополиса-Хастингса | ||
+ | * Использование результатов | ||
== Критерии качества моделей == | == Критерии качества моделей == | ||
- | * | + | * Отсутствие гипотезы порождения данных |
* Искусственные критерии качества моделей | * Искусственные критерии качества моделей | ||
* МГУА | * МГУА | ||
Строка 48: | Строка 61: | ||
* Многокритериальный выбор моделей | * Многокритериальный выбор моделей | ||
* Постановка задач многокритериальной оптимизации. | * Постановка задач многокритериальной оптимизации. | ||
- | * Сведение многокритериальной | + | * Сведение многокритериальной оптимизации к однокритериальной (Weber) |
* Парето-оптимальный фронт | * Парето-оптимальный фронт | ||
* Алгоритмы многокритериальной оптимизации | * Алгоритмы многокритериальной оптимизации | ||
== Требования к моделям == | == Требования к моделям == | ||
- | * Анализ регрессионных | + | * Анализ регрессионных остатков |
* Фактор инфляции дисперсии | * Фактор инфляции дисперсии | ||
- | |||
* Сложность моделей | * Сложность моделей | ||
* Устойчивость моделей | * Устойчивость моделей | ||
+ | * Метод Белсли для линейных моделей | ||
+ | * Метод Белсли и анализ ковариационных матриц для нелинейных моделей | ||
== Порождение моделей == | == Порождение моделей == | ||
Строка 65: | Строка 79: | ||
* Порождение моделей МГУА | * Порождение моделей МГУА | ||
* Порождение нейронных сетей и RBF | * Порождение нейронных сетей и RBF | ||
- | * | + | * Последовательное порождение всех допустимых моделей данного класса возрастающей сложности |
- | * Порождение моделей, принадлежащих заданному индуктивно-порождаемому | + | * Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом |
== Методы выбора признаков == | == Методы выбора признаков == | ||
Строка 86: | Строка 100: | ||
== Сравнение моделей == | == Сравнение моделей == | ||
* Графические модели | * Графические модели | ||
+ | * Байесовские сети | ||
* Расстояние Кулльбака-Лейблера | * Расстояние Кулльбака-Лейблера | ||
* Вероятностная сходимость | * Вероятностная сходимость | ||
- | * Расстояние между моделями | + | * Расстояние между моделями |
- | == | + | == Мультимоделирование и смеси экспертов == |
+ | * Байесовское усреднение моделей | ||
+ | * Смеси распределений | ||
+ | * Смеси линейных моделей | ||
+ | * Смеси обобщенно-линейных моделей | ||
+ | * Смеси экспертов | ||
+ | * Иерархические модели | ||
+ | * Инварианты в пространстве параметров моделей | ||
- | == | + | == Анализ ковариационных матриц == |
+ | * Гауссовские процессы | ||
+ | * Байесовская регрессия - пространство данных и пространство параметров | ||
+ | * Оценка гиперпараметров | ||
+ | * Мультиколлинеарность и случайные признаки | ||
+ | == Практика == | ||
+ | Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. | ||
+ | Практика и доклад выполняются в формате [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|«Численные методы»]]. | ||
+ | * Подробнее: [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 674, осень 2011 | Группа 674, осень 2011]] | ||
== Экзамен == | == Экзамен == | ||
- | Экзамен | + | До начала экзамена нужно выполнить все практические задания. |
+ | Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. | ||
+ | Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), неотрицательная оценка за экзамен дает 1 балл, а отрезок [84, 100] линейно отображается в отрезок [6,10]. | ||
'''Практика''' | '''Практика''' | ||
- | * | + | * 29 сентября и 6 октября |
+ | * 27 октября и 3 ноября | ||
+ | * 24 ноября и 1 декабря | ||
'''Теория''' | '''Теория''' | ||
- | * | + | * 15 декабря 2011 группа 674: список задач будет опубликован по окончании экзамена |
== История == | == История == | ||
Строка 109: | Строка 143: | ||
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 274, осень 2007 | Группа 274, осень 2007]] | * [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 274, осень 2007 | Группа 274, осень 2007]] | ||
* [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006 | Группа 174, осень 2006]] | * [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006 | Группа 174, осень 2006]] | ||
- | + | Начиная с осени 2010 старая практика переносится в раздел | |
- | Начиная с осени 2010 практика | + | |
* [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]] | * [[Численные методы обучения по прецедентам (практика, В.В. Стрижов)|Численные методы обучения по прецедентам]] | ||
- | == | + | == Литература == |
- | + | ||
- | + | ||
[[Категория:Учебные курсы]] | [[Категория:Учебные курсы]] |
Версия 20:49, 11 августа 2011
Курс лекций «Прикладной регрессионный анализ» посвящен проблеме порождения и выбора регрессионных моделей и иллюстрирован практическими задачами. Он состоит из 12 лекций и рассчитан на слушателей, владеющих основами линейной алгебры и математической статистики.
Предполагается, что слушатели владеют материалом курса «Численные методы обучения по прецедентам»
Страница редактируется для группы 674 вплоть до 7 сентября 2011. --Strijov 15:25, 21 июня 2011 (MSD) |
Введение
- Задача регрессионного анализа, терминология
- Что такое регрессионная модель
- Примеры постановки задач регрессионного анализа
- Подстановки в линейных моделях
- Авторегрессионные модели
- Моделирование геометрических измерений
- Моделирование в финансовой математике
- Экспертно-статистические методы
Линейные и существенно-нелинейные модели
- Линейная регрессия
- Метод наименьших квадратов
- Нелинейная регрессия
- Основные модели нелинейной регрессии
- Матрица Якоби и Гессе
- Метод Ньютона
- Алгоритм Левенберга-Марквардта
- Ранговая регрессия
Линейные методы
- Метод главных компонент
- Максимальное правдоподобие МГК
- Байсесовский МГК
- МГК для нелинейных моделей
- Сингулярное разложение
- Простой итерационный алгоритм сингулярного разложения
- Пространства, порождаемые сингулярными векторами
- Матричные нормы и обусловленность
- Анализ сингулярных структур
Обобщенно-линейные модели
- Гипотеза порождения данных
- Логистическая регрессия
- Метод Ньютона-Рафсона
- Первый уровень Байесовского вывода
- Регуляризация
- Оценка гиперпараметров для произвольной гипотезы порождения данных
Методы сэмплирования
- Интегрирование Монте-Карло
- Методы преобразования равномерного распределения
- Сэмплирование с отклонением
- Сэмплирование по значимости
- Гиббсовское сэмплирование
- Сэмплирование Метрополиса-Хастингса
- Использование результатов
Критерии качества моделей
- Отсутствие гипотезы порождения данных
- Искусственные критерии качества моделей
- МГУА
- Скоринг и логистическая регрессия.
- Многокритериальный выбор моделей
- Постановка задач многокритериальной оптимизации.
- Сведение многокритериальной оптимизации к однокритериальной (Weber)
- Парето-оптимальный фронт
- Алгоритмы многокритериальной оптимизации
Требования к моделям
- Анализ регрессионных остатков
- Фактор инфляции дисперсии
- Сложность моделей
- Устойчивость моделей
- Метод Белсли для линейных моделей
- Метод Белсли и анализ ковариационных матриц для нелинейных моделей
Порождение моделей
- Методы порождения моделей
- Структурная сложность
- Структурное расстояние
- Порождение моделей МГУА
- Порождение нейронных сетей и RBF
- Последовательное порождение всех допустимых моделей данного класса возрастающей сложности
- Порождение моделей, принадлежащих заданному индуктивно-порождаемому классу моделей, случайным образом
Методы выбора признаков
- Переборные алгоритмы
- Шаговая регрессия
- Алгоритмы с регуляризацией
- Алгоритмы направленного добавления FOS, Stagewise, LARS
- Оптимальное прореживание
- Оптимизация правдоподобия
Сравнение моделей
- Второй уровень Байесовского вывода
- Фактор Оккама
- Принцип минимальной длины описания
- Аппроксимация Лапласа
- Оценка гиперпараметров
- Выбор базиса аппроксимации Лапласа
Сравнение моделей
- Графические модели
- Байесовские сети
- Расстояние Кулльбака-Лейблера
- Вероятностная сходимость
- Расстояние между моделями
Мультимоделирование и смеси экспертов
- Байесовское усреднение моделей
- Смеси распределений
- Смеси линейных моделей
- Смеси обобщенно-линейных моделей
- Смеси экспертов
- Иерархические модели
- Инварианты в пространстве параметров моделей
Анализ ковариационных матриц
- Гауссовские процессы
- Байесовская регрессия - пространство данных и пространство параметров
- Оценка гиперпараметров
- Мультиколлинеарность и случайные признаки
Практика
Практика состоит из трех задач-эссе с отчетом, включающим постановку задачи, описание алгоритма и вычислительный эксперимент-иллюстрацию. Практика и доклад выполняются в формате «Численные методы».
- Подробнее: Группа 674, осень 2011
Экзамен
До начала экзамена нужно выполнить все практические задания. Экзамен - письменная работа состоит из 50 вопросов или задач, за которые дается суммарная оценка в 100 баллов. Продолжительность работы — 1 час. Для получения положительной оценки за экзамен требуется набрать не менее 84 баллов. Общая оценка складывается из оценки за практику — 3 балла (з.е. в ведомости), неотрицательная оценка за экзамен дает 1 балл, а отрезок [84, 100] линейно отображается в отрезок [6,10].
Практика
- 29 сентября и 6 октября
- 27 октября и 3 ноября
- 24 ноября и 1 декабря
Теория
- 15 декабря 2011 группа 674: список задач будет опубликован по окончании экзамена
История
Предшествующие программы и практические задания
Начиная с осени 2010 старая практика переносится в раздел