Обучение с подкреплением (курс лекций) / 2021
Материал из MachineLearning.
(→Домашние задания) |
(→Расписание занятий) |
||
Строка 103: | Строка 103: | ||
| Лекция<br> | | Лекция<br> | ||
''5 октября'' | ''5 октября'' | ||
- | | DQN и его модификации. | + | | Deep Q-Network (DQN) и его модификации. |
| | | | ||
* [[Media:Deep_Q_learning_2021.pdf|Слайды занятия]] | * [[Media:Deep_Q_learning_2021.pdf|Слайды занятия]] | ||
Строка 128: | Строка 128: | ||
| Лекция<br> | | Лекция<br> | ||
''19 октября'' | ''19 октября'' | ||
+ | | Внутренняя мотивация для исследования среды. | ||
+ | | | ||
+ | * [https://drive.google.com/file/d/1Z4W_-0IaMNpZnhnMkqcDVM_EA79GFJo-/view Sutton, Barto], ch.2 | ||
+ | * [https://arxiv.org/abs/1810.12894 Random Network Distillation (RND)] | ||
+ | * [https://arxiv.org/abs/1705.05363 Intrinsic Curiosity Module (ICM)] | ||
+ | | | ||
+ | * [https://lilianweng.github.io/lil-log/2020/06/07/exploration-strategies-in-deep-reinforcement-learning.html Обзор модулей внутренней мотивации] | ||
+ | * [https://arxiv.org/abs/1605.09674 Variational Information Maximizing Exploration (VIME)] | ||
+ | * [https://arxiv.org/abs/2002.06038 Never Give Up (NGU)] | ||
+ | |- | ||
+ | | Лекция<br> | ||
+ | ''26 октября'' | ||
| Policy gradient подход. Advantage Actor-Critic (A2C). | | Policy gradient подход. Advantage Actor-Critic (A2C). | ||
| | | | ||
Строка 137: | Строка 149: | ||
|- | |- | ||
| Семинар<br> | | Семинар<br> | ||
- | '' | + | ''26 октября'' |
| REINFORCE. | | REINFORCE. | ||
| | | | ||
Строка 143: | Строка 155: | ||
|- | |- | ||
| Лекция<br> | | Лекция<br> | ||
- | '' | + | ''2 ноября'' |
| Trust-Region Policy Optimization (TRPO). | | Trust-Region Policy Optimization (TRPO). | ||
| | | | ||
Строка 150: | Строка 162: | ||
|- | |- | ||
| Лекция<br> | | Лекция<br> | ||
- | '' | + | ''9 ноября'' |
| Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO). | | Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO). | ||
| | | | ||
Строка 160: | Строка 172: | ||
|- | |- | ||
| Лекция<br> | | Лекция<br> | ||
- | '' | + | ''16 ноября'' |
| Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC). | | Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC). | ||
| | | | ||
Строка 169: | Строка 181: | ||
|- | |- | ||
| Лекция<br> | | Лекция<br> | ||
- | '' | + | ''23 ноября'' |
| Имитационное обучение. Обратное обучение с подкреплением. | | Имитационное обучение. Обратное обучение с подкреплением. | ||
| | | | ||
* [https://arxiv.org/pdf/1603.00448.pdf Guided Cost Learning] | * [https://arxiv.org/pdf/1603.00448.pdf Guided Cost Learning] | ||
- | * [https://arxiv.org/pdf/1606.03476.pdf GAIL] | + | * [https://arxiv.org/pdf/1606.03476.pdf Generative Adversarial Imitation Learning (GAIL)] |
| | | | ||
* [https://arxiv.org/pdf/1805.00909.pdf RL as probabilistic inference] | * [https://arxiv.org/pdf/1805.00909.pdf RL as probabilistic inference] |
Версия 14:01, 12 октября 2021
В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.
Читается в 3-м семестре для магистров каф. ММП.
Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел
Расписание: по вторникам в 12-15, ауд. 507
Канал в Telegram: ссылка
Содержание |
Критерии оценки
В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)
Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:
Итог | Необходимые условия |
---|---|
5 | сдано не менее 5 заданий, оценка за экзамен >= 6 |
4 | сдано не менее 4 заданий, оценка за экзамен >= 4 |
3 | сдано не менее 3 заданий, оценка за экзамен >= 4 |
Домашние задания
Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.
Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).
Лабораторная | Ориентировочная дата выдачи (может быть изменена!) | Срок | Баллы | Штраф за день опоздания |
---|---|---|---|---|
CEM | 14 сентября | 1 неделя | 10 | -0.3 |
Dyn. prog. | 21 сентября | 1 неделя | 10 | -0.3 |
DQN | 5 октября | 2 недели | 20 | -0.6 |
A2C | 26 октября | 2 недели | 20 | -0.6 |
PPO | 9 ноября | 2 недели | 20 | -0.6 |
MCTS | 30 ноября | 2 недели | 20 | -0.6 |
Экзамен
На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос, при этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору и обсуждаются различные вопросы по курсу уже без использования материалов. Для положительной оценки за экзамен необходимо также справиться с вопросами из теоретического минимума.
Список вопросов к экзамену: TBA
Расписание занятий
Занятие | Материалы | Дополнительные материалы | |
---|---|---|---|
Лекция 7 сентября | Введение в курс. Кросс-энтропийный метод (CEM). | ||
Лекция 14 сентября | Динамическое программирование. Value Iteration, Policy Iteration. |
| |
Семинар 14 сентября | Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода. | ||
Лекция 21 сентября | Табличные методы. |
| |
Семинар 28 сентября | Q-обучение. | ||
Лекция 5 октября | Deep Q-Network (DQN) и его модификации. | ||
Лекция 12 октября | Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN). | ||
Лекция 19 октября | Внутренняя мотивация для исследования среды. | ||
Лекция 26 октября | Policy gradient подход. Advantage Actor-Critic (A2C). |
| |
Семинар 26 октября | REINFORCE. | ||
Лекция 2 ноября | Trust-Region Policy Optimization (TRPO). | ||
Лекция 9 ноября | Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO). | ||
Лекция 16 ноября | Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC). | ||
Лекция 23 ноября | Имитационное обучение. Обратное обучение с подкреплением. | ||
Лекция 23 ноября | Monte Carlo Tree Search. AlphaZero, MuZero. | ||
Лекция 30 ноября | Linear Quadratic Regulator (LQR). Model-based RL. |
Страницы курса прошлых лет
Материалы
- Полунеофициальный конспект (возможны ошибки! Просьба всем собирать баги и опечатки!)
- Курс Practical RL (ШАД)
- Курс Deep Reinforcement Learning (CS 285), UC Berkeley