Обучение с подкреплением (курс лекций) / 2021

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается в 3-м семестре для магистров каф. ММП.

Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел

Расписание: по вторникам в 12-15, ауд. 507

Канал в Telegram: ссылка

Экзамен по курсу состоится очно, 14 января, в 11:00.

Критерии оценки

В курсе предусмотрено пять лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог	Необходимые условия
5	сдано не менее 4 заданий, оценка за экзамен >= 6
4	сдано не менее 3 заданий, оценка за экзамен >= 4
3	сдано не менее 2 заданий, оценка за экзамен >= 4

Домашние задания

Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 80 баллов; итоговая оценка за лабораторные получается делением на восемь.

Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в необходимых условиях для конкретной оценки (см. выше).

Лабораторная	Ориентировочная дата выдачи (может быть изменена!)	Срок	Баллы	Штраф за день опоздания
CEM	14 сентября	1 неделя	10	-0.3
Dyn. prog.	21 сентября	1 неделя	10	-0.3
DQN	5 октября	2 недели	20	-0.6
A2C	26 октября	2 недели	20	-0.6
PPO	9 ноября	2 недели	20	-0.6

Экзамен

Экзамен состоится очно, 14 января, в 11:00. На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос, при этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору и обсуждаются различные вопросы по курсу уже без использования материалов. Для положительной оценки за экзамен необходимо также справиться с вопросами из теоретического минимума.

Список вопросов к экзамену

Расписание занятий

	Занятие	Материалы	Дополнительные материалы
Лекция 7 сентября	Введение в курс. Кросс-энтропийный метод (CEM).	CEM for optimization Tetris with CEM	OpenAI ES Обзор эволюционных стратегий WANN
Лекция 14 сентября	Динамическое программирование. Value Iteration, Policy Iteration.	Sutton, Barto, ch.3-4	A (Long) Peek into Reinforcement Learning
Семинар 14 сентября	Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция 21 сентября	Табличные методы.	Слайды занятия Sutton, Barto, ch.5-6	Визуализация TD-обучения (distill)
Семинар 28 сентября	Q-обучение.
Лекция 5 октября	Deep Q-Network (DQN) и его модификации.	Слайды занятия DQN Double DQN Prioritized Experience Replay Noisy Networks Dueling DQN	R2D2 Agent57
Лекция 12 октября	Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN).	Видеолекция Categorical DQN QR-DQN	Implicit Quantile Networks (IQN) Rainbow DQN
Лекция 19 октября	Внутренняя мотивация для исследования среды.	Слайды занятия Sutton, Barto, ch.2 Random Network Distillation (RND) Intrinsic Curiosity Module (ICM)	Обзор модулей внутренней мотивации Variational Information Maximizing Exploration (VIME) Never Give Up (NGU)
Лекция 26 октября	Policy gradient подход. Advantage Actor-Critic (A2C).	Sutton, Barto, ch.13 A2C	Обзор Policy Gradient алгоритмов Комикс про A2C
Семинар 26 октября	REINFORCE.
Лекция 2 ноября	Trust-Region Policy Optimization (TRPO).	TRPO
Лекция 9 ноября	Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).	Слайды занятия GAE PPO	Implementation matters in RL Sutton, Barto, ch.12
Лекция 16 ноября	Непрерывное управление.	Deep Deterministic Policy Gradient (DDPG) Twin-Delayed DDPG (TD3) Soft Actor-Critic (SAC)	Truncated Quantile Critics (TQC)
Лекция 23 ноября	Имитационное обучение. Обратное обучение с подкреплением.	Guided Cost Learning Generative Adversarial Imitation Learning (GAIL)	RL as probabilistic inference
Лекция 30 ноября	Monte Carlo Tree Search. AlphaZero, MuZero.	AlphaZero MuZero	AlphaZero in one picture
Лекция 7 декабря	Linear Quadratic Regulator (LQR). Model-based RL.	Презентация по MCTS и LQR Презентация по Model-based RL	World Models Dreamer v.2

Страницы курса прошлых лет

2020й год

Материалы

Источник — «http://recognition.su/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%29_/_2021»

Категории: Учебные курсы | Обучение с подкреплением

@@ Строка 10: / Строка 10: @@
 '''Канал в Telegram:''' [https://t.me/joinchat/VkEFFxdonGFlMzAy ссылка]
+'''Экзамен по курсу состоится очно, 14 января, в 11:00.'''
 ==Критерии оценки==
-В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
+В курсе предусмотрено пять лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:
 '''Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)'''
@@ Строка 21: / Строка 23: @@
  !Итог !! Необходимые условия
  |-
- | 5 || сдано не менее 5 заданий, оценка за экзамен >= 6
+ | 5 || сдано не менее 4 заданий, оценка за экзамен >= 6
  |-
- | 4 || сдано не менее 4 заданий, оценка за экзамен >= 4
+ | 4 || сдано не менее 3 заданий, оценка за экзамен >= 4
  |-
- | 3 || сдано не менее 3 заданий, оценка за экзамен >= 4
+ | 3 || сдано не менее 2 заданий, оценка за экзамен >= 4
  |-
  |}
@@ Строка 31: / Строка 33: @@
 == Домашние задания ==
-Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.
+Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 80 баллов; итоговая оценка за лабораторные получается делением на восемь.
 Лабораторные, сданные позже недели после мягкого дедлайна, не приносят баллов, но учитываются в '''необходимых условиях''' для конкретной оценки (см. выше).
@@ Строка 47: / Строка 49: @@
  |-
  | PPO || 9 ноября || 2 недели || 20 || -0.6
- |-
- | MCTS || 30 ноября || 2 недели || 20 || -0.6
  |}
 == Экзамен ==
-На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос, при этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору и обсуждаются различные вопросы по курсу уже без использования материалов. Для положительной оценки за экзамен необходимо также справиться с вопросами из теоретического минимума.
+Экзамен состоится очно, '''14 января''', в 11:00. На экзамене все студенты берут случайный билет. В течение часа студент самостоятельно пишет ответ на экзаменационный вопрос, при этом можно пользоваться любыми материалами. Далее студент устно отвечает билет экзаменатору и обсуждаются различные вопросы по курсу уже без использования материалов. Для положительной оценки за экзамен необходимо также справиться с вопросами из теоретического минимума.
-'''Список вопросов к экзамену''': TBA
+[[Media:rl_exam_questions_2021.pdf|Список вопросов к экзамену]]
 == Расписание занятий ==
@@ Строка 103: / Строка 103: @@
 | Лекция<br>
 ''5 октября''
-| DQN и его модификации.
+| Deep Q-Network (DQN) и его модификации.
 |
 * [[Media:Deep_Q_learning_2021.pdf|Слайды занятия]]
@@ Строка 128: / Строка 128: @@
 | Лекция<br>
 ''19 октября''
+| Внутренняя мотивация для исследования среды.
+|
+* [[Media:Exploration-vs-exploitation.pdf|Слайды занятия]]
+* [https://drive.google.com/file/d/1Z4W_-0IaMNpZnhnMkqcDVM_EA79GFJo-/view Sutton, Barto], ch.2
+* [https://arxiv.org/abs/1810.12894 Random Network Distillation (RND)]
+* [https://arxiv.org/abs/1705.05363 Intrinsic Curiosity Module (ICM)]
+|
+* [https://lilianweng.github.io/lil-log/2020/06/07/exploration-strategies-in-deep-reinforcement-learning.html Обзор модулей внутренней мотивации]
+* [https://arxiv.org/abs/1605.09674 Variational Information Maximizing Exploration (VIME)]
+* [https://arxiv.org/abs/2002.06038 Never Give Up (NGU)]
+|-
+| Лекция<br>
+''26 октября''
 | Policy gradient подход. Advantage Actor-Critic (A2C).
 |
@@ Строка 137: / Строка 150: @@
 |-
 | Семинар<br>
-''19 октября''
+''26 октября''
 | REINFORCE.
 |
@@ Строка 143: / Строка 156: @@
 |-
 | Лекция<br>
-''26 октября''
+''2 ноября''
 | Trust-Region Policy Optimization (TRPO).
 |
@@ Строка 150: / Строка 163: @@
 |-
 | Лекция<br>
-''2 ноября''
+''9 ноября''
 | Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).
 |
+* [[Media:MSU_2021_PPO.pdf|Слайды занятия]]
 * [https://arxiv.org/pdf/1506.02438.pdf GAE]
 * [https://arxiv.org/pdf/1707.06347.pdf PPO]
@@ Строка 160: / Строка 174: @@
 |-
 | Лекция<br>
-''9 ноября''
+''16 ноября''
-| Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).
+| Непрерывное управление.
-|
-* [https://arxiv.org/pdf/1509.02971.pdf DDPG]
-* [https://arxiv.org/pdf/1801.01290.pdf SAC]
 |
+* [https://arxiv.org/pdf/1509.02971.pdf Deep Deterministic Policy Gradient (DDPG)]
 * [https://arxiv.org/pdf/1802.09477.pdf Twin-Delayed DDPG (TD3)]
+* [https://arxiv.org/pdf/1801.01290.pdf Soft Actor-Critic (SAC)]
+|
+* [https://arxiv.org/abs/2005.04269 Truncated Quantile Critics (TQC)]
 |-
 | Лекция<br>
-''16 ноября''
+''23 ноября''
 | Имитационное обучение. Обратное обучение с подкреплением.
 |
 * [https://arxiv.org/pdf/1603.00448.pdf Guided Cost Learning]
-* [https://arxiv.org/pdf/1606.03476.pdf GAIL]
+* [https://arxiv.org/pdf/1606.03476.pdf Generative Adversarial Imitation Learning (GAIL)]
 |
 * [https://arxiv.org/pdf/1805.00909.pdf RL as probabilistic inference]
 |-
 | Лекция<br>
-''23 ноября''
+''30 ноября''
 | Monte Carlo Tree Search. AlphaZero, MuZero.
 |
@@ Строка 187: / Строка 202: @@
 |-
 | Лекция<br>
-''30 ноября''
+''7 декабря''
 | Linear Quadratic Regulator (LQR). Model-based RL.
 |
@@ Строка 203: / Строка 218: @@
 == Материалы ==
-* [https://github.com/FortsAndMills/RL-Theory-book/blob/main/RL_Theory_Book.pdf Полунеофициальный конспект] (возможны ошибки! Просьба всем собирать баги и опечатки!)
+* [https://github.com/FortsAndMills/RL-Theory-book/blob/main/RL_Theory_Book.pdf Полунеофициальный конспект]
 * [https://github.com/yandexdataschool/Practical_RL Курс Practical RL (ШАД)]
 * [https://www.youtube.com/playlist?list=PLkFD6_40KJIxJMR-j5A1mkxK26gh_qg37 Курс Deep Reinforcement Learning (CS 285), UC Berkeley]

Обучение с подкреплением (курс лекций) / 2021

Материал из MachineLearning.

Текущая версия

Содержание

Критерии оценки

Домашние задания

Экзамен

Расписание занятий

Страницы курса прошлых лет

Материалы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты