Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 174, осень 2006
Материал из MachineLearning.
|
Практика
На каждую неделю назначаются задания. Выполненные задания нужно отправлять по адресу, указанному внизу этой страницы. Структура отправляемых файлов должна быть следующей (см. пример maximov.zip).
- Создается папка "[LastName]", в которой будут находиться все файлы.
- Стартовые файлы находятся в этой папке и имеют начало "run_".
- Файлы "*.m", которые относятся к данному заданию, находятся в папке "code".
- Файлы "*.m" c библиотечными моделями находятся в папке "func".
- Файлы со входными данными, находятся в папке "data".
- Файлы с графиками и отчеты находятся в папке "report".
- Корневая папка архивируется в "[LastName].zip" и отправляется по нижеуказанному адресу.
Скачать пример: maximov.zip
Лекция 1
Темы. План лекций, организация практических работ. Терминология: приближение функций, аппроксимация, интерполяция, регрессия. Обозначения. Постановка задач регрессии. Что такое модель регрессии. Метод наименьших квадратов. Приемы работы с Matlab.
Задание. Восстановление регрессии
Методом наименьших квадратов найти для регрессионной модели квадратичного полинома параметры, приближающие выборку 'quaddata.csv'. Нарисовать график функции и данные. Данные находится в файле 'maximov.zip'.
Полезные материалы. Обзор приемов работы с Matlab: [1] (вставлен пример с многомерной матрицей, улучшение кода этого примера приветствуется).
Пример созданной функции: to01.m (поместить в папку 'code').
Метод наименьших квадратов run_mnk.m и данные к примеру mnk.csv.
Иллюстрация к методу наименьших квадратов <a href="/teaching/mnk.gif"> mnk.gif</a>.</p>
Ссылки на решения
- Автор И.О. [C:\Mathnb\MLAlgorithms\MIPT2006-2010OldProj\Romanov2006Basic\problem1.m]
Лекция 2
Темы. Сингулярное разложение. Свойства сингулярного разложения. Примеры применения: поведение системы в экстремальных условиях, сегментация Фишера, кластеризация с ограничением размерности пространства. Метод главных компонент. Подстановки в линейных моделях.
Задание. Подбор нелинейных подстановок для решения задачи линейной регрессии. Требуется "угадать", какие подстановки требуется сделать, чтобы найди регрессионную модель для данных [http://www.strijov.com/teaching/problem2.csv">problem2.csv</a> (также как и раньше, первый столбец — свободная переменная, а второй — зависимая). Для решения задачи необходимо нелинейные параметры подобрать вручную, а линейные — методом наименьших квадратов. Нарисовать график полученной модели и данных на графике с указанием найденной функции в заголовке. Для обращения матрицы следует использовать сингулярное разложение. Написанный к этому заданию код сохранить в файле run_problem2.m.
Полезные материалы. Примеры трех функций подстановки:
Совет: в связи с тем, что производительность алгоритмов по поиску моделей существенно зависит от наполнения моделей, не следует вставлять проверки "data match" в эти функции. Проверки на соответствие размеров векторов лучше вставлять в вызывающие модули, а размеры тщательно документировать.
Лекция 3
Темы. Библиотечные модели. Метод главных компонент (окончание). Пространства, порождаемые сингулярными векторами. Матричные нормы и обусловленность. Некорректно поставленные задачи. Регуляризация для МНК, SVD, PCA. Шкалы оценок и Расслоение Парето. Пример: интегральные индикаторы и экспертные оценки. Отыскание параметра регуляризации и согласование оценок — линейное и квадратичное.
Задание. Дана (7x2)-матрица, файл problem3.csv. Требуется найти ее первую главную компоненту и нарисовать проекции векторов-строк матрицы на первую главную компоненту. Пример рисунка: problem3.png.
Полезные материалы
- Некоторые приемы работы с графикой: run_problem3.m
- Метод главных компонент run_plot1PC
- Проекции векторов на главные компоненты pca.gif
Лекция 4
Темы. История и особенности МГУА. Принцип МГУА. Внешние и внутренние критерии. Разделение выборки на две части. Принятые обозначения. Критерий регулярности, критерий минимального смещения, критерий предсказательной способности. Комбинированные критерии линейная комбинация. Оптимальность в пространстве внешних критериев и Парето-оптимальный фронт. Базовая модель МГУА. Подстановки в базовой модели.
Задание. Дана выборка, файл problem4.csv. Первые 10 точек являются обучающими, остальные контрольными. Требуется вычислить внешний критерий (критерий регулярности) для линейной модели.
Полезные материалы. Заготовка функции критерия регулярности: met_regularity.m.
Лекция 5
Темы. Базовая модель МГУА: модель Колмогорова-Габора. Последовательность шагов и критерии остановки алгоритма. Многорядный алгоритм: линейная комбинация заданного числа нелинейных подстановок. Комбинаторный алгоритм. Матрица вхождения мономов в базовую модель. Генетический алгоритм: последовательность шагов. Представление. Селекция: алгоритм рулетки. Скрещивание. Мутация. Параметры алгоритма. Сравнение алгоритмов глобальной и локальной оптимизации. Метаоптимизация оптимизация параметров оптимизирующего алгоритма. Регрессия в метаоптимизации.
Задание. Дана выборка, файл [problem5.csv. Первые 30 точек являются обучающими, остальные контрольными. Первый и второй столбец свободные переменные, последний зависимая. Требуется написать комбинаторный алгоритм и с помощью критерия регулярности отыскать оптимальную полиномиальную модель. Совет: для отладки можно использовать файл problem4.csv.
Полезные материалы. Очень полезные счетчики: cntabover.m и cntabappend.m. Функция показа трехмерных моделей surfplot.m.
Лекция 6
Темы. Постановка задачи для многомерной регрессионной модели и множества подстановок безпараметрических гладких нелинейных функций одного аргумента. Подстановки для мономов в базовой модели. Теорема Колмогорова о представлении непрерывных функций нескольких переменных в виде суперпозиции непрерывных функций одного переменного. О том, как эксперты строят модели сильные и слабые стороны (линейная регрессия, полиномиальные модели, нейронные сети, МГУА, МГУА с подстановками, произвольная суперпозиция). Интерпретируемость моделей. Четыре способа порождения моделей. Гипотеза порождения данных. Функция распределения и плотность распределения. Наивный метод оценки параметров распределения.
Задание.
Для данных problem6a.csv и модели y=w построить пару графиков. Первый график данные и приближающая эти данные модель. Второй график зависимость целевой функции p1=-log(sumsqr(y1-f(w,x))) от единственного параметра w модели. Пример: plt_problem6a.png.
Для данных problem6b.csv, модели y=sin(16*x+w), где w единственный параметр, и целевой функции p=-log(sumsqr(y1-f(w,x))) построить пару графиков. Пример: plt_problem6b.png.
Даны три выборки problem6c.csv (первый столбец свободная переменная, второй, третий, четвертый три реализации зависимой переменной). Модели y=w. Даны три целевые функции
- p1=-log(sumsqr(y1-f(w,x))),
- p2=-log(sum(abs(y1-f(w,x)))),
- p3=-log(max(abs(y1-f(w,x)))).
Требуется построить соответствующие графики. Пример: plt_problem6c.png.
Полезные материалы. О том, как рисовать несколько графиков в одном окне, часть кода txt_subplotexample.m. Комментарий: через переменную y1 обозначены значения, которые принимает модель на элементах выборки свободных переменных.
Лекция 7
Темы. Два отображения в задачах регрессии: f : X → Y и f : X x W → Y. Представление элементов одной выборки как независимых случайных величин с заданной плотностью распределения. Совместная плотность распределения. Определение функции наибольшего правдоподобия. Фиксация одного из двух аргументов функции правдоподобия. Пример вычисления для 1) дискретного и 2) непрерывного множества значений оцениваемых параметров. Вычисление оценок параметров одномерного Гауссова распределения. Примеры построения целевой функции в пространстве параметров. Примеры обнаружения инвариантов с использованием целевой функции. Примеры вычисления устойчивости моделей с помощью интеграла целевой функции для заданной области в пространстве параметров. Гипотеза аддитивного Гауссова шума с нулевым средним. Гиперпараметры. Гипотеза о штрафе больших весов в линейных моделях. Константа Липшица и гипотеза о шуме. Ошибка в пространстве данных и ошибка в пространстве весов.
Задание.Задана регрессионная модель y = - 3.14 x^3 + 2.71 x. Данные, по которым была построена эта модель , находятся в файле problem7.csv. Требуется оценить дисперсию аддитивного Гауссова шума с нулевым средним, пользуясь введенным определением гиперпараметра и функционалом распределения (memento).
Полезные материалы. Подсказка: можно оценить ее методом перебора значений в заданном интервале, но есть и другие варианты. Функция плотности met_pDwb.m и самый простой пример.
Лекция 8
Темы. Первый уровень Байесовского вывода. Функция распределения в пространстве параметров. Правдоподобие моделей. Байесовский критерий сравнения моделей. Пример сравнения моделей с параметрами, принимающими значения в конечном множестве. Механизм двухуровневого Байесовского вывода, схема проведения вычислительного эксперимента. Достоверность. Множитель Оккама, определение. Сравнение моделей. Изменение апостериорного распределения параметров после получения данных. Пример сравнения трех моделей с различным априорным и апостериорным распределением параметров.
Задание. Дана нелиненная регрессионная модель y =sin(w_1 sin(x))+w_2x. Данные, по которым была построена эта модель находятся в файле problem8.csv. Требуется оценить параметры w_1,w_2, график problem8.png.
Полезные материалы. Читай doc nlinfit. Очень полезный инструмент.
Лекция 9
Темы. Постановка задачи с точки зрения эксперта в предметной области. Схема работы аналитика при поиске модели. Ограничения, накладываемые при моделировании. Модель как произвольная суперпозиция. Пример автоматического построения модели давления в камере сгорания дизельного двигателя. Роль гиперпараметров при оценке информативности свободных переменных. Функция распределения случайной переменной в пространстве данных, функция распределения параметров в пространстве параметров. Связь гиперпараметров и дисперсий в обоих пространствах. Выбор наиболее информативных элементов модели.
Задание. Дана нелиненная регрессионная модель y = sin(w1x1+w2) cos(w3x2+w4). Данные, по которым была построена эта модель находятся в файле problem9.csv. Требуется оценить параметры w1,…, w4, график problem9.png. Нарисовать исходные данные и полученную модель.
Дана нелиненная регрессионная модель двух свободных переменных y = sin(w_1 x_1+w_2) cos(w_3 x_2+w_4). Данные, по которым была построена эта модель находятся в файле problem9.csv. Требуется оценить параметры w_1,...,w_4, графикproblem9.png.
Полезные материалы. Функция построения графика зависимости зависимой переменной от двух свободных, surfplot.m. Совет. Если параметры начального приближения выбраны недостаночно точно, результаты оптимизации будут некорректными. Также см. статью о выводе гиперпараметров, strijov06poisk_jct.pdf.
Лекция 10
'Темы. Аппроксимация совместного распределения параметров и гиперпараметров модели. Аппроксимация функции ошибки S(w) рядом Тейлора. Вычисление нормирующей константы Z_S апостериорного распределения p(w|D,alpha,beta). Аппроксимация Лапласа: пример для одной переменной. Вывод гиперпараметров, плотность распределения p(D|alpha,beta) в первом и втором уровне Байесовского вывода. Генетический алгоритм порождения и выбора регрессионных моделей.
Задание. Больше заданий в семестре не предполагается.
Лекция 11
Темы.
Постановка задачи однокритериальной оптимизации. Алгоритмы локальной и глобальной оптимизации. Мультистарт локальной оптимизации. Алгоритм Нельдера-Мида. Алгоритм моделируемого отжига и задача коммивояжера. Тестовые задачи однокритериальной оптимизации. Постановка задачи многокритериальной оптимизации. Пространство аргументов и целевое пространство. Парето-оптимальный фронт. Проблема постановки задачи оптимизации один критерий или много критериев? Задачи регуляризации и многокритериальная оптимизация: регуляризация в двухуровневом Байесовском выводе, в методе наименьших квадратов, регуляризация ковариационной матрицы; выбор модели пространстве внешних критериев МГУА. Тестовые задачи многокритериальной оптимизации. Отображение пространства аргументов в целевое пространство: использование стохастических алгоритмов или алгоритмов полного перебора.
Лекция 12
Темы. Методы многокритериальной оптимизации. Линейная комбинация целевых функций. Целевое программирование (goal programming). Стремление к цели (goal attainment) целевое программирование со скалярным параметром. Лексикографическое упорядочивание оптимизация целевых функций по отдельности. Особые точки ПОФ утопия, антиутопия, надир. Направленный поиск (direct-based search). Архитектура системы многокритериальной оптимизации. Работа оптимизационного алгоритма с модулями системы.
Лекция 13
Темы. Регрессия и классификация. Использование методов регрессии при решении задач классификации. Сравнение непараметрических и параметрических методов. Адекватность полученных результатов и гипотеза перемешивания. Основные математические объекты, обсуждаемые в рамках курса «Прикладная регрессия и оптимизация», их взаимосвязь. Архитектура системы поиска оптимальных регрессионных моделей.
Экзамен
19 декабря 2006 г., аудитория 355
Теория. Требуется ответить на основной вопрос, указанный в билете (номер билета есть номер лекции) и на два дополнительных вопроса.
Практика. Принести с собой USB flash memory со всеми заданиями. Задания должны быть выполнены в ранее указанном формате.
Благодарности
Хочу отметить Андрея Ивахненко, Дмитрия Житлухина и Галину Иофину за вопросы, которые они задавали в ходе лекций, за то, что разобрались в теме и за ответственность при выполнении практических заданий.