MIPT ML 2016 Spring
Материал из MachineLearning.
(→Арсений Ашуха / Вторник 09:00 - 10:25) |
(→Алексей Романенко / Вторник 16:55 - 18:20 / Вторник 18:30 - 20:00) |
Версия 13:06, 2 мая 2016
В курсе рассматриваются основные задачи обучения по прецедентам: классификация, кластеризация, регрессия. Изучаются методы их решения, как классические, так и новые, созданные за последние 10–15 лет. Упор делается на глубокое понимание математических основ, взаимосвязей, достоинств и ограничений рассматриваемых методов. Отдельные теоремы приводятся с доказательствами. Данный курс расширяет и углубляет набор тем, рекомендованный международным стандартом ACM/IEEE Computing Curricula 2001 по дисциплине «Машинное обучение и нейронные сети» (machine learning and neural networks) в разделе «Интеллектуальные системы» (intelligent systems).Семинарская часть курса ставит перед сабой задачи: научить студента видеть задачи машинного обучения в реальной жизни, применять изученные матоды для решения задач машинного обучения, при необходимости реализовать необходимый метод.
Лекторы: Анастасия Зухба, проф. Константин Воронцов.
Семинаристы: Алексей Романенко, Борис Коваленко, Ашуха Арсений, Малых Валентин, Никита Волков
Все вопросы по курсу можно задать через систему piazza.
Анонимные отзывы по курсу можно отправить тут
Содержание |
Расписание Лекций
Дата | № занятия | Занятие | Материалы |
---|---|---|---|
12 февраля 2016 | 1 | Задачи обучения по прецедентам. Supervised, unsupervised и semi-supervised обучение. Понятия переобучения и обобщающей способности. Скользящий контроль (cross-validation). | Лекция1 |
17 февраля 2016 | 2 | Метрические алгоритмы классификации. Обобщённый метрический классификатор, понятие отступа. Метод ближайших соседей (kNN) и его обобщения. Подбор числа k по критерию скользящего контроля. Отбор эталонных объектов. алгоритм СТОЛП. | Лекция 2 |
24 февраля 2016 | 3 | Построение метрик и отбор признаков. Стандартные метрики. Оценивание качества метрики. Проклятие размерности. Жадный алгоритм отбора признаков. | Лекция 3 |
2 марта 2016 | 4 | Логические закономерности. Статистический критерий информативности Ic(',Xl): смысл и способы вычисления. Энтропийный критерий информативности, информационный выигрыш IGainc(',Xl). Многоклассовые варианты критериев. Индекс Gini. Задача перебора конъюнкций. “Градиентный” алгоритм синтеза конъюнкций и его частные случаи: жадный алгоритм, стохастический локальный поиск, стабилизация, редукция. | Лекция 4-5 |
9 марта 2016 | 5 | Бинаризация признаков, алгоритм выделения информативных зон. Решающие списки. Решающие деревья: принцип работы. Разбиение пространства объектов на подмножества, выделяемые конъюнкциями терминальных вершин. Алгоритм ID3. Пре-прунинг и пост-прунинг. | Лекция 4-5 |
16 марта 2016 | 6 | Знакомство с идеей композиции алгоритмов. Random Forest, Беггинг, RSM, стекинг. | |
23 марта 2016 | 7 | Линейная классификация. Непрерывные аппроксимации пороговой функции потерь. Метод минимизации аппроксимированного эмпирического риска. SG, SAG. Связь минимизации аппроксимированного эмпирического риска и максимизации совместного правдоподобия данных и модели. Регуляризация (l1, l2, elastic net). Вероятностный смысл регуляризаторов. Примеры различных функций потерь и классификаторов. Эвристический вывод логистической функции потерь. | |
30 марта 2016 | 8 | Метод опорных векторов. Оптимизационная задача с ограничениями в виде неравенств и безусловная. Опорные векторы. Kernel trick. | |
6 апреля 2016 | 9 | Задача снижения размерности пространства признаков. Идея метода главных компонент
(PCA). Связь PCA и сингулярного разложения матрицы признаков (SVD). Вычисление SVD в пространствах высокой размерности методом стохастического градиента (SG SVD). Многомерная линейная регрессия. Геометрический и аналитический вывод. Регуляризация в задаче регрессии. Непараметрическая регрессия. Формула Надарая-Ватсона. Регрессионные деревья.|| | |
13 апреля 2016 | 10 | Байесовская классификация. Функционал риска и функционал среднего риска. Оптимальный байесовский классификатор и теорема о минимизации среднего риска. Наивный байесовский классификатор. Восстановление плотности: параметрический и непараметрический подход. Метод Парзеновского окна. Параметрический подход на примере нормального дискриминантного анализа. Линейный дискриминант Фишера. | |
20 апреля 2016 | 11 | Байесовская классификация и регрессия. Восстановление смеси распределений. Логистическая регрессия. | |
27 апреля 2016 | 12 | Задача кластеризации. Аггломеративная и дивизионная кластеризация. Алгоритмы k-Means. Кластеризация с помощью EM-алгоритма (без вывода M-шага). Формула Ланса-Уилльямса. | |
6 мая 2016 | 13 | Метод обратного распространения ошибок. Основная идея. Основные недостатки и способы их устранения. Выбор начального приближения, числа слоёв, числа нейронов скрытого слоя в градиентных методах настройки нейронных сетей. Методы ускорения сходимости. Метод оптимального прореживания нейронной сети. | |
11 мая 2016 | 14 | Задача прогнозирования временного ряда, примеры задач. Составление матрицы регрессии, адаптация весов регрессоров во времени. Экспоненциальное сглаживание, модель Хольта, модель Уинтерса. | |
18 мая 2016 | 15 |
Семинары
Арсений Ашуха / Вторник 09:00 - 10:25
Таблица с результатами находится тут, материалы к занятиям находятся тут, cv
Мои студенты, напишите про себя тут, вопросы лучше задавать в piazza =)
Новости:
- [08.02.2016] Семинар 1 тут
- [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016] .
- [16.02.2016] Семинар 2 тут
- [01.02.2016] Семинар 3 тут
- [15.03.2016] Семинар 4 тут
- [19.03.2016] Выложено второе практическое задание, дедлайн [03.04.2016]
- [22.03.2016] Семинар 5 тут
- [20.04.2016] Выложено третье практическое задание, дедлайн [07.05.2016] .
- [25.04.2016] Выложено третье практическое задание, дедлайн [14.05.2016] .
- [28.03.2016] Семинар 8 тут
- [28.03.2016] Семинар 9 тут
- [28.03.2016] Семинар 10 тут (спасибо Виктору Кантору)
Практические задания:
- Практическое задание 1: Метрические классификаторы задание стартовый код контест
- Практическое задание 2: Решающие деревья: задание стартовый код контест (вместо непонятного критрерия можете сделать энтропию)
- Практическое задание 3: Линейные модели: задание контест
- Практическое задание 4: Решение реальной задачи: описание контест
PS:
- В задании номер 1 наверняка очень много опечаток, мы постараемся оперативно их исправить. Семинаристы пришлют приглашение в контест.
Коваленко Борис / Вторник 10:35 - 12:00
Лог посещений и результатов тут Linkedin
- 9 февраля Семинар #1
- 16 февраля Семинар #2
- 1 марта Семинар #3
- 15 марта Семинар #4
- 22 марта Семинар #5
Новости:
- [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016] .
- [19.03.2016] Выложено второе практическое задание, дедлайн [03.04.2016] .
- [20.04.2016] Выложено третье практическое задание, дедлайн [07.05.2016] .
Практические задания:
- Практичиское задание 1: Метрические классификаторы задание стартовый код контест
- Практическое задание 2: Решающие деревья: задание стартовый код контест (вместо непонятного критрерия можете сделать энтропию)
- Практическое задание 3: Линейные модели: задание контест
Материалы:
Losing your Loops Fast Numerical Computing with NumPy
Алексей Романенко / Вторник 16:55 - 18:20 / Вторник 18:30 - 20:00
Таблица рейтинга находится тут, материалы семинаров находятся тут,
Новости:
- [16.02.2016] Выложено первое опциональное домашнее задание, дедлайн [01.03.2016] .
- [06.03.2016] Выложено второе опциональное домашнее задание, дедлайн [15.03.2016] .
- [06.03.2016] Выложено решение первого опционального ДЗ.
- [16.03.2016] Выложено третье опциональное домашнее задание, дедлайн [23.03.2016] . ДЗ.
- [31.03.2016] Выложено четвёртое опциональное домашнее задание, дедлайн [07.04.2016] . ДЗ.
- [19.04.2016] Выложено пятое опциональное домашнее задание, дедлайн [26.04.2016] . ДЗ.
- [02.05.2016] Выложено шестое опциональное домашнее задание, дедлайн [08.05.2016] . ДЗ.
Практические задания:
- [02.03.2016] Выложено первое обязательное домашнее задание: лабораторная работа по метрическим алгоритмам, дедлайн [19.03.2016] .
- [04.04.2016] Выложено второе обязательное домашнее задание: лабораторная работа по метрическим алгоритмам и деревьям решений, дедлайн [17.04.2016] .
- [18.04.2016] Выложено третье обязательное домашнее задание: соревнование на базе контеста в Kaggle, дедлайн [01.05.2016] . Материалы контеста выложены также тут.
Валентин Малых / Вторник 18:30 - 20:00
Таблица с результатами находится тут, материалы к занятиям находятся здесь.
Новости:
- [10.02.2016] Установка IPython. Рекомендую поставить Python 2.7. Проще всего установить AnacondaPython, который уже включает IPython и практически все нужные пакеты.
- [15.02.2016] Выложено первое практическое задание, дедлайн [01.03.2016].
- [15.02.2016] Выложен второй семинар.
- [02.03.2016] Выложен третий семинар.
- [02.03.2016] Напоминаю, что для сдачи задания нужно создать приватный вопрос на piazza и выложить в него ноутбук с кодом и картинками.
- [15.03.2016] Выложен четвертый семинар.
- [18.03.2016] Выложено второе практическое задание, дедлайн [02.04.2016].
- [28.03.2016] Выложен пятый семинар.
- [30.03.2016] Выложен шестой семинар.
- [13.03.2016] Выложен седьмой семинар.
- [13.03.2016] Выложен восьмой семинар. Если у вас осталась недоделанной лабораторная работа, можно ее сдать через piazza.
- [20.03.2016] Выложено третье практическое задание, дедлайн [07.05.2016].
Практические задания:
- Метрические классификаторы: задание стартовый код контест
- Решающие деревья: задание стартовый код контест
- Линейные модели: задание контест
Никита Волков / Пятница 15:30 - 16:55 / 213 ЛК
Материалы семинаров. Cтраница в ВК.
Установка ipython: Если у вас Убунта, то не надо мучаться с Анакондой - все проще. А еще можно использовать онлайн ноутбуки.
Инструкции по Python и Jupyter: Если вы плохо разбираетесь в Python и Jupyter, полезно почитать инструкции, которые составлены для курса математической статистики. Ссылки расположены внизу страницы курса.
Новости:
- В пятницу 8.04 состоится два семинара в 13:55 и в 15:30, на одном из которых будет контрольная. В пятницу 22.04 семинара не будет.
Анастасия Зухба / Вторник 18:30 - 20:00
Таблица с результатами находится тут, материалы к занятиям находятся здесь.
Новости:
- [17.02.2016] Добавлены материалы первого и второго семинара.
- [29.03.2016] Добавлено первое домашнее задание. Срок сдачи 18.04.2016
Литература
- К. В. Воронцов Математические методы обучения по прецедентам
- Trevor Hastie The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition
- Christopher Bishop Pattern Recognition and Machine Learning
- Stanford python/numpy linear algebra probability optimization tururials
Позезные пакеты
- Anaconda -- установка питона и большого количества библиотек.
Страницы курса прошлых лет
--