|
|
(1 промежуточная версия не показана) |
Строка 1: |
Строка 1: |
- | {{TOCright}}
| + | #REDIRECT [[Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)/Группа 374, осень 2008]] |
- | '''Московский физико-технический институт, Факультет управления и прикладной математики'''
| + | |
- | | + | |
- | Курс читается студентам 6-го курса кафедры "Интеллектуальные системы", специализация: "Интеллектуальный анализ данных", группа 374-а.
| + | |
- | | + | |
- | {{tip|
| + | |
- | Статья предназначена прежде всего для студентов группы 374-а, она будет наполняться в течение этого семестра.
| + | |
- | }}
| + | |
- | | + | |
- | == Аннотация ==
| + | |
- | Курс лекций включает теоретические и прикладные аспекты
| + | |
- | создания моделей нелинейной регрессии и алгоритмов оптимизации
| + | |
- | качества этих моделей. Рассматриваются современные алгоритмы
| + | |
- | индуктивного порождения регрессионных моделей. Приводятся примеры использования алгоритмов при решении
| + | |
- | прикладных задач в финансовой математике, экологии и медицине.
| + | |
- | | + | |
- | == Организационная часть ==
| + | |
- | Семестровый курс содержит 32 часа лекций и 32 часа практических занятий.
| + | |
- | В ходе лекций будут объявляться темы практических заданий.
| + | |
- | После выбора темы обсуждаются требования к работе.
| + | |
- | До начала экзамена нужно сдать все задания по практике.
| + | |
- | Экзамен состоит из теоретических вопросов и задач.
| + | |
- | | + | |
- | == Дополнительный материал ==
| + | |
- | * [http://strijov.com/teaching/article3.php Курс лекций 2006, план лекций и примеры]
| + | |
- | * [http://strijov.com/teaching/index.php Курс лекций 2007, примеры задач практикума и материалы для самоподготовки]
| + | |
- | * [http://strijov.com/sources/examples.php Примеры решения задач регрессионного анализа]
| + | |
- | | + | |
- | == Задачи для самостоятельного решения ==
| + | |
- | '''Задачи вынесены из курса лекций, так как решались ранее в курсах линейной алгебры или математической статистики
| + | |
- | '''
| + | |
- | # Вывести нормальное уравнение МНК через квадратичную оптимизацию.
| + | |
- | # Вывести нормальное уравнение через проекцию на пространство столбцов матрицы.
| + | |
- | # Показать что матрица, проектирующая вектор на свое пространство столбцов симметрична и идемпотентна.
| + | |
- | # Показать что если матрица удовлетворяет условиям задачи 3, то она проектирует вектор на свое пространство столбцов (доп.).
| + | |
- | # Показать что матрица <tex>A^TA</tex> симметрична и положительно определена.
| + | |
- | # Сколько мономов полинома Колмогорова-Габора от <tex>m</tex> переменных имеют степень не превосходящую <tex>R</tex> (с повторами переменных в мономах и без повторов)?
| + | |
- | # Показать, что оценки интегральных индикаторов и весов показателей, полученные альфа-согласованием являются согласованными.
| + | |
- | # Вывести оценку весов показателей гамма-согласования как минимум суммы квадратов расстояний между выставленной и вычисленной оценками в пространствах оценок интегральных индикаторов и весов показателей.
| + | |
- | # Показать, что сингулярные числа матрицы <tex>A</tex> — это длины осей эллипсоида, заданного множеством <tex>\{A\mathbf{x}: \|\mathbf{x}\|=1\}</tex>.
| + | |
- | # Показать, что первое сингулярное число матрицы — это ее Евклидова норма.
| + | |
- | # Показать, что число обусловленности матрицы <tex>A^TA</tex> есть квадрат числа обусловленности матрицы <tex>A</tex>. Заметка: число обусловленности матрицы — <tex>\kappa(A)=\|A\| \|A^{-1}\|</tex> есть отношение первого сингулярного числа к последнему, <tex>\kappa(A)=\lambda_1/\lambda_n</tex>.
| + | |
- | # Записать алгоритм итеративого нахождения сингулярного разложения.
| + | |
- | | + | |
- | '''Задачи на понимание методов регрессионного анализа'''
| + | |
- | # Дана выборка - множество <tex>\{(u_i,v_i)\}, i=1,\ldots,M</tex> измерений координат окружности <tex>(O,r)</tex>, где <tex>O=(u_O, v_O)</tex>, выполненных с некоторой случайной аддитивной ошибкой. Требуется методом наименьших квадратов найти центр и радиус этой окружности.
| + | |
- | # (продолжение) Применим ли метод решения этой задачи для сферы?
| + | |
- | # (продолжение) Есть измерения координат границ плоских и объемных физических тел (несложной формы), сделанные с ошибкой. Предложите примеры моделирования форм этих тел с помощью методов наименьших квадратов.
| + | |
- | # Даны два вектора <tex>\mathbf{u}, \mathbf{v}</tex> в пространстве <tex>\mathbb{R}^N</tex>. Требуется приблизить вектор <tex>\mathbf{v}</tex> вектором <tex>\mathbf{u}</tex>, так что <tex>\|\mathbf{u}-f(\mathbf{w},\mathbf{v})\|^2\to\min</tex>. Поставить и решить задачу линейной регрессии (пусть модель будет квадратичным полиномом, <tex>\mathbf{w}</tex> - вектор параметров).
| + | |
- | | + | |
- | == Рекомендуемые примеры ==
| + | |
- | # [[Matlab|Часто используемые конструкции языка m]] | + | |
- | # [http://strijov.com/sources/report_example.php Советы по оформлению отчетов]
| + | |
- | # [http://strijov.com/sources/demo_least_squares_fit.php Метод наименьших квадратов]
| + | |
- | # [http://strijov.com/files/mvr61.zip MVR Composer, порождение нелинейных регрессионых моделей]
| + | |
- | | + | |
- | == Задания для практических занятий ==
| + | |
- | | + | |
- | '''Общие требования'''
| + | |
- | # Поставить задачу и описать алгоритм в математической нотации. Результат — файл tex или doc, 1-2 страницы.
| + | |
- | # Написать алгоритм, протестировать, документировать код ([[Документирование функций Matlab|см. пример]]). Алгоритм запускается из файла отчета. Совет: при создании алгоритма желательно использовать существующие функции и код, написанный ранее. Результат — набор документированных функций.
| + | |
- | # Выполнить вычислительный эксперимент (исходные данные и условия оговариваются отдельно), сделать отчет ([[Медиа:Report_example_ru.pdf|см. пример]]). Результат — файл pdf.
| + | |
- | # Сдать задание с таким расчетом, чтобы получить рецензию и успеть исправить недочеты до экзамена (конец декабря). Результат — положительная рецензия и допуск к экзамену.
| + | |
- | | + | |
- | === Задание 1 ===
| + | |
- | Прогнозирование временного ряда. Дан многомерный временной ряд, в котором один остчет времени соответствует одному часу. Известно, что ряд имеет три периода: 24, 7*24, 365*24. Требуется построить алгоритм прогноза на 24 отсчета вперед.
| + | |
- | Прогноз выполняется с помощью линейной регрессии. Дополнительно используется библиотека нелинейных безпараметрических преобразований свободных переменных. Свободные переменные (признаки) выбираются с помощью многорядного МГУА. При выполнении вычислительного эксперимента необходимо выбрать несколько лучших моделей и сравнить прогнозы, сделанные с их помощью. Для этого вычисляется ошибка на прогнозе и строится график. (Исходные данные и список библиотечных функций по запросу).
| + | |
- | | + | |
- | ''Выполняет Михаил Шавловский''
| + | |
- | | + | |
- | === Задание 2 ===
| + | |
- | [[Конструктивное построение множества суперпозиций]]
| + | |
- | | + | |
- | ''Выполняет Юрий Максимов''
| + | |
- | | + | |
- | === Задание 3 ===
| + | |
- | Выбор признаков при построении скоринговых карт кредитного займа. Дана выборка — набор векторов описаний клиентов. Признаки (элементы вектора описаний) могут быть в линейных или ранговых шкалах. Указана принадлежность каждого клиента к классу — «вернул» или «не вернул» кредит. Требуется найти набор признаков, который доставляет максимум критерию качества классификации. Поиск выполняется с помощью генетического оптимизационного алгоритма. Параметры алгоритма заданы. Качество классификации — сумма квадратов невязок — определяется на тестовой выборке с усреднением по заданному числу разбиений. Отношение числа элементов обучающей выборки к тестовой задано. (Исходные данные по запросу).
| + | |
- | | + | |
- | ''Выполняет Алексей Куракин''
| + | |
- | | + | |
- | === Задание 4 ===
| + | |
- | Даны три выборки, в которых одна свободная и одна зависимая переменная.
| + | |
- | # Известно, что зависимость переменных во всех трех выборках описывается с помощью некоторой многомерной линейной регрессионной модели.
| + | |
- | # Известно, что модель содержит некоторые мономы не более 3-й степени от свободной переменной, ее тангенса, экспоненты и синуса (т.е. имеется <tex>2^{14}</tex> моделей-претендентов).
| + | |
- | # Известно, что зависимая переменная есть случайная величина с матожиданием <tex>E(y|x)</tex>, ее распределение принадлежит экспоненциальному семейству, в частности одному из трех:
| + | |
- | #* гамма-распределению с обратной функцией связи,
| + | |
- | #* нормальному распределению и тривиальной функцией связи,
| + | |
- | #* нормальному распределению с функцией <tex>\sqrt(y)=X\mathbf{w}</tex>.
| + | |
- | Требуется указать модель, которая описывает зависимости выборок, найти ее параметры, и указать распределение зависимой переменной каждой выборки. (Исходные данные по запросу).
| + | |
- | | + | |
- | ''Выполняет Расул Тутунов''
| + | |
- | | + | |
- | == План лекций ==
| + | |
- | | + | |
- | === Лекция 1. Введение ===
| + | |
- | Организация курса, организация практических занятий, план лекций,
| + | |
- | обзор литературы по предмету, обзор программного обеспечения, введение в программирование задач регрессионного анализа.
| + | |
- | | + | |
- | === Лекция 2. Линейная регрессия ===
| + | |
- | Введение в регрессионный анализ, постановка задачи, терминология, регрессионная модель, линейные модели,
| + | |
- | метод наименьших квадратов, два вывода нормального уравнения,
| + | |
- | подстановки и нахождение параметров линейной регрессионной модели,
| + | |
- | пример построения линейной регрессии: линейная, квадратичная и нелинейная функции, пример: биржевые опционы и улыбка волатильности,
| + | |
- | построение многомерной регрессионной модели.
| + | |
- | | + | |
- | === Лекция 3. МГУА ===
| + | |
- | Метод группового учета аргументов. Постановка задачи с использованием порождающих функций (безпараметрических нелинейных подстановок). Базовая модель. Алгоритм МГУА. Комбинаторный алгоритм. Многослойный алгоритм. Внутренние и внешние критерии
| + | |
- | | + | |
- | === Лекция 4. Интегральные индикаторы ===
| + | |
- | Предположение об аддтивной случайной составляющей свободной переменной. Построение интегральных индикаторов. Требования к исходым данным. Подготовка данных. Парето-расслоение. Экспертно-статистический метод. Метод главных компонент. Альфа и гамма — согласование экспертных оценок. Согласование оценок, выставленных в ранговых шкалах.
| + | |
- | | + | |
- | === Лекция 5. Сингулярное разложение ===
| + | |
- | Сингулярное разложение при решении задач линейной регрессии. Определение и свойства сингулярного разложения. Сингулярное разложение и обращение матриц. Определение псевдообратной матрицы. Два способа регуляризации при обращении матриц. Сингулярное разложение и собственные векторы матрицы <tex>A^TA</tex>. Простой итеративный способ нахождения сингулярного разложения. Задача о поведении биосистемы в экстремальных условиях.
| + | |
- | | + | |
- | === Лекция 6. Метод главных компонент ===
| + | |
- | Метод главных компонент. Многомерная случайная величина. Оптимизационная задача нахождения проекций на линейную оболочку множества векторов. Матрица вращения главных компонент. Связь метода главных компонент и сингулярного разложения. Организация вычислительных экспериментов, связанных с индуктивным порождением регрессионных моделей.
| + | |
- | | + | |
- | === Лекция 7. Прогнозирование ===
| + | |
- | Линейные методы прогнозирования. Система управления с обратной связью. Задача о макроэкономическом моделировании. Системы одновременных линейных уравнений и векторная авторегрессия. Решение уравнения векторной авторегрессии для решения задачи управления. Задача о прогнозе потребления электроэнергии. Алгоритм линейного прогноза.
| + | |
- | | + | |
- | === Лекция 8. Логистическая регрессия ===
| + | |
- | Конструктивное порождение множества суперпозиций. Логистическая регрессия. Нахождение параметров модели и восстановление зависимости. Задача о классификации заемщиков банковских кредитов. (Обсуждение предобработки временных рядов по задаче предыдущей лекции.)
| + | |
- | | + | |
- | === Лекция 9. Обобщенные линейные модели ===
| + | |
- | Постановка задачи. Экспоненциальное семейство распределений. Функции связи для дискретных и непрерывных зависимых переменных. Пространство параметров, функция правдоподобия и формула Байеса.
| + | |
- | | + | |
- | === Лекция 10. Нелинейная регрессия ===
| + | |
- | Оптимизация параметров нелинейных моделей. Алгоритм Левенберга-Марквардта. Часто используемые регрессионные модели. Оптимальное прореживание нейронных сетей (использование метода множителей Лагранжа).
| + | |
- | | + | |
- | === Лекция 11. Связанный Байесовский вывод ===
| + | |
- | Достоверность и сравнение моделей на первом уровне вывода. Пример сравнения моделей. Схема порождения и выбора моделей. Второй уровень — вывод параметров модели. Связь первого и второго уровня. Пример сравнения трех моделей различной сложности.
| + | |
- | | + | |
- | == Литература ==
| + | |
- | * [http://strijov.com/teaching/index.php Cписок литературы находится здесь.]
| + | |
- | | + | |
- | [[Категория:Регрессионный анализ]]
| + | |
- | [[Категория:Учебные курсы]]
| + | |