Обучение с подкреплением (курс лекций) / 2020

Материал из MachineLearning.

(Различия между версиями)

Версия 13:30, 24 ноября 2020

В отличие от классического машинного обучения, в обучении с подкреплением алгоритму на вход не поступает обучающая выборка. Вместо этого, обучение проводится "методом проб и ошибок": агент должен сам собрать данные в ходе взаимодействия с окружающим миром (средой) и на основе собранного опыта научиться максимизировать получаемый отклик - подкрепление, или награду. Курс направлен на изучение алгоритмов последних лет, показывающих state-of-the-art результаты во многих задачах дискретного и непрерывного управления за счёт совмещения классической теории с парадигмой глубинного обучения.

Читается в 3-м семестре для магистров каф. ММП.

Преподаватели: Кропотов Дмитрий, Бобров Евгений, Иванов Сергей, Темирчев Павел

Расписание: по вторникам в 12-15

Ссылка на Zoom: ссылка, идентификатор: 880 2271 0514, пароль: 638344

Видеозаписи занятий: ссылка

Инвайт в AnyTask: HTA74nV

Канал в Telegram группе: ссылка

Критерии оценки

В курсе предусмотрено шесть лабораторных работ в формате ноутбуков и устный экзамен. Итоговая оценка по курсу в 10-балльной шкале рассчитывается по формуле:

Итоговая оценка = Округл.вверх (0.3 * Экз + 0.7 * Лаб)

Оценке 5 в пятибалльной шкале соответствует оценка 8 и выше, оценке 4 - оценка [6, 8), оценке 3 - промежуток [4, 6). Помимо баллов необходимо также выполнить следующие условия:

Итог	Необходимые условия
5	сдано не менее 5 заданий, оценка за экзамен >= 6
4	сдано не менее 4 заданий, оценка за экзамен >= 4
3	сдано не менее 3 заданий, оценка за экзамен >= 4

Домашние задания

Сдавать лабораторные можно в течение недели после мягкого дедлайна. За некоторые задания можно будет получить бонусные баллы, о чем будет объявляться при выдаче задания. Максимальный балл за лабораторные - 100 баллов; итоговая оценка за лабораторные получается делением на десять.

Лабораторная	Ориентировочная дата выдачи (может быть изменена!)	Срок	Баллы	Штраф за день опоздания
CEM	8 сентября	1 неделя	10	-0.5
Dyn. prog.	22 сентября	1 неделя	10	-0.5
DQN	6 октября	2 недели	20	-1
A2C	27 октября	2 недели	20	-1
PPO	17 ноября	2 недели	20	-1
MCTS	8 декабря	2 недели	20	-1

Экзамен

На экзамене при подготовке билета можно пользоваться любыми материалами; при ответе ничем пользоваться нельзя.

Расписание занятий

	Занятие	Материалы	Дополнительные материалы
Лекция	Введение в курс. Кросс-энтропийный метод (CEM).	CEM for optimization Tetris with CEM	OpenAI ES Обзор эволюционных стратегий WANN
Семинар	Библиотека OpenAI gym. Реализация табличного кросс-энтропийного метода.
Лекция	Динамическое программирование. Value Iteration, Policy Iteration.	Sutton, Barto, ch.3-4	A (Long) Peek into Reinforcement Learning
Лекция	TD-обучение. Deep Q-Network (DQN).	Слайды занятия (TD-learning) Слайды занятия (DQN)‎ Sutton, Barto, ch.6 DQN	Визуализация TD-обучения (distill) Double DQN Prioritized Experience Replay R2D2 Agent57
Семинар	Q-обучение.
Лекция	Distributional RL. Categorical DQN (c51), Quantile Regression DQN (QR-DQN).	Видеолекция Categorical DQN QR-DQN	Implicit Quantile Networks (IQN) Rainbow DQN
Лекция	Policy gradient theorem. Advantage Actor-Critic (A2C).	Доска занятия Sutton, Barto, ch.13 A2C	Обзор Policy Gradient подхода Комикс про A2C
Семинар	REINFORCE.
Лекция	Trust-Region Policy Optimization (TRPO).	TRPO
Лекция	Generalized Advantage Estimation (GAE). Proximal Policy Optimization (PPO).	Слайды занятия GAE PPO	Implementation matters in RL Sutton, Barto, ch.12
Лекция	Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).	Доска занятия DDPG SAC	Twin-Delayed DDPG (TD3)
Лекция	Имитационное обучение. Обратное обучение с подкреплением.	Guided Cost Learning GAIL	RL as probabilistic inference
Лекция	Monte-Carlo Tree Search. AlphaZero, MuZero.	AlphaZero MuZero	AlphaZero in one picture
Лекция	Linear Quadratic Regulator (LQR). Model-based RL.	Презентация по MCTS и LQR Презентация по Model-based RL	World Models

Материалы

Источник — «http://recognition.su/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D0%BF%D0%BE%D0%B4%D0%BA%D1%80%D0%B5%D0%BF%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%29_/_2020»

Категории: Учебные курсы | Обучение с подкреплением

@@ Строка 150: / Строка 150: @@
 | Deep Deterministic Policy Gradient (DDPG). Soft Actor-Critic (SAC).
 |
+* [[Media:ContinuousControl.svg|Доска занятия]]
 * [https://arxiv.org/pdf/1509.02971.pdf DDPG]
 * [https://arxiv.org/pdf/1801.01290.pdf SAC]

Обучение с подкреплением (курс лекций) / 2020

Материал из MachineLearning.

Версия 13:30, 24 ноября 2020

Содержание

Критерии оценки

Домашние задания

Экзамен

Расписание занятий

Материалы

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты