Автоматизация научных исследований в машинном обучении (практика, В.В. Стрижов)/ФУПМ, осень 2019
Материал из MachineLearning.
(Различия между версиями)
(→Занятие 8 (25 октября — 30 октября)) |
(→Занятие 8 (25 октября — 30 октября)) |
Версия 14:43, 25 октября 2019
Машинное обучение
Постановка задач и выбор моделей в машинном обучении
- Каждая пятница семестра в 18:35
- Дополнительные материалы находятся на основной странице
- Короткий адрес этой страницы bit.ly/PS-ML
Занятие 1 (6 — 11 сентября)
- Подготовка инструментов: выполнить (или проверить, что владеете инструментом),
- пункты 1, 2, 4, 6, 7, 9, 11, 12 ,13 ДЗ-1 из основной страницы,
- пункты 4, 5 ДЗ-2.
- Получить доступ к https://github.com/Intelligent-Systems-Phystech/
- В папке 2019-StartCode создать папку ДЗ Surname2019Linear и файл main.ipynb
- В тетради кратко указать название и цель эксперимента.
- Загрузить выборку
- Построить несколько моделей (пример).
- Нарисовать график прогноза (оформление: пример 1, пример 2).
- Нарисовать дисперсию прогноза (пример полосы). Дисперсия в каждом значении зависимой переменной вычисляется путем случайного семплирования обучающей выборки, выборка разбивается несколько раз.
- Дополнительно*: предложить способ порождения новых (признаков) моделей.
Материалы
Советы по пользованию репозиторием
- GitHub: клонируйте мастер и заливайте правки в него, если работаете только со своим кодом. См. краткое руководство по работе с GitHub.
- Update first, Commit after (Pull first, Push after)
- Your own work only, no external publications
- No big files (put link to external datasets)
- No temporary nor dummy files
Прочитать, чем отличается branch от fork
Анкета
- Анкета "записаться на курс" (стоит отдельно от основной по просьбе робота. Внимание работает только под @phystech.edu и только один раз)
- Анкета "сдача задания" (стоит отдельно от основной. нужна для того, чтобы собрать название папок GitHub где Вы выполнили задание)
- Анкета "рецензия" (стоит отдельно от основной. нужна для того, чтобы собрать рецензии людей)
- Анкета с вопросами на повторение (основная)
Занятие 2 (13 — 18 сентября)
Задание
- Загрузить выборку (из прежнего задания, или из UCI, или на ваш вкус), нормировать признаки.
- Для линейной модели (на выбор: модель регрессии или классификации)
- написать генетический алгоритм выбора признаков (или другой, по вашему выбору).
- Построить графики зависимости,
- ось абсцисс: итерации,
- ось ординат: функция ошибки S и ее стандартное отклонение (обучающая и тестовая выборка),
- ось ординат: параметны модели "лапша" (желательно стандартное отклонение),
- дополнительно, ось ординат: структура модели, индикаторная вектор-функция.
- Задание делать в той же папке 2019-StartCode
- Дополнительно: применить генетический алгоритм к выбору двухслойной нейросети и нарисовать те же графики и кривую обучения нейросети.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 19.09.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub со 2м заданием. дедлайн 19.09.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 20.09.2019 9:00. доступна только с почты @phystech.edu)
Занятие 3 (20 — 25 сентября)
Задание
- Выбрать проект на свой вкус, и записать его план (pdf) в следующем виде:
- название и ответы на вопросы (написать, от лица эксперта или аналитика),
- схема в формате IDEF0.
- Детализация проекта такова, что план понятен непосвященному читателю.
- Рисовать можно любым инструментом, включая карандаш.
- Задание загрузить в папку 2019-IDEF0 в файле Surname2019Projname.pdf
(В качестве проекта можно взять алгоритм выбора модели NN-AE из второй части этого семинара).
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 26.09.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с 3м заданием. дедлайн 27.09.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 27.09.2019 16:00. доступна только с почты @phystech.edu)
Занятие 4 (27 сентября — 2 октября)
- видео-стрим семинара
- телеграм для вопросов там же
Задание
- В файле main.ipynb от первого задания добавить раздел с новым вычислительным экспериментом "порождение метрических признаков"
- выборка та же, на ваш выбор,
- задача регрессии или классификации, на ваш выбор,
- кластеризовать, вычислить центры кластеров,
- набор признаков: вычислить расстояние от каждого объекта выборки до центра каждого кластера.
- Сравнить качество, полученное линейной моделью по исходным и по метрическим признакам.
- Построить график зависимости качества модели от числа кластеров.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 03.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с 4м заданием. дедлайн 03.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 04.10.2019 9:00. доступна только с почты @phystech.edu)
Занятие 5 (4 октября — 9 октября)
- видео-стрим семинара
- телеграм для вопросов там же
Задание
- В папке от первого задания добавить ноутбук var_analysis.ipynb с вычислительным экспериментом "визуализация пространства параметров"
- выборка та же, на ваш выбор,
- задача регрессии или классификации, на ваш выбор,
- написать процедуру bootstrep, которая возвращает К выборок того же объема, что и обучающая,
- для каждой выборки настроить параметры,
- вычислить ожидание параметров, дисперсию и ковариацию параметров, ожидание ошибки, дисперсию ошибки.
- (Дополнительно) для фиксированного числа признаков построить график зависимости ожидания и дисперсии ошибки от объема выборки.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 10.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с 4м заданием. дедлайн 10.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 11.10.2019 9:00. доступна только с почты @phystech.edu)
Занятие 6 (11 октября — 16 октября)
- видео-стрим семинара
- телеграм для вопросов там же
Задание
- В папке от первого задания добавить ноутбук isotonic.ipynb с вычислительным экспериментом "ранговая регрессия",
- выборка на ваш выбор, или эта (про автомобили),
- сами, как эксперты, выставьте рейтинг объектов (автомобилей) и признаков (их технических характеристик),
- требуется решить задачу изотонической регрессии.
- Нарисовать график зависимости вычисленных параметров от выставленных при различных значениях регуляризатора:
- несколько графиков плоских, либо
- один трехмерный, по оси ординат регуляризатор, по оси аппликат - восстановленные веса, по оси абсцисс - выставленные.
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 17.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 17.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 18.10.2019 9:00. доступна только с почты @phystech.edu)
Занятие 7 (18 октября — 23 октября)
Задание
- Написать эссе-постановку задачи построения монотонной модели классификации
- задан признак, от которого целевая переменная зависит немонотонно,
- требуется его изменить так, чтобы зависимость от новых признаков была монотонной,
- допустимы только кусочно-линейные параметрические отображения.
- Постановка задачи должна включать две подзадачи оптимизации:
- оптимизация параметров кусочно-линейной функции,
- оптимизация параметров монотонной модели (логистическая ререссия, например).
- Дополнительно, с усложнением:
- и еще задан набор признаков, от которых целевая переменная зависит монотонно (и даже выполнено условие tbtb),
- добавить еще одну оптимизационную задачу с выбором оптимального набора признаков.
- Постановка задачи должна быть такова, чтобы по тексту легко и однозначно было бы возможно написать код.
- Ставить задачу можно любым инструментом, включая карандаш (но Latex предпочтителен).
- Задание загрузить в папку 2019-Essay в файлах Surname2019Picewise.pdf и .tex
Материалы
Анкета
- Анкета с вопросами (основная. дедлайн 24.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "сдача задания" (для указание папки на GitHub с заданием. дедлайн 24.10.2019 9:00. доступна только с почты @phystech.edu)
- Анкета "рецензия" (собрать результаты людей. дедлайн 25.10.2019 9:00. доступна только с почты @phystech.edu)
Занятие 8 (25 октября — 30 октября)
Ссылки:
|
Задание
- Написать эссе с описанием задачи построения суперпозиции:
- найти пример из практики, интересный лично вам, в котором предполанаемая модель получается путем построения суперпозиции порождающих функций (функций-примитивов),
- назвать проект,
- кратко описать суть (несколько предложений),
- указать множество моделей из который будет выбираться оптимальная (или перечислить функции-примитивы),
- по возможности, указать критерий качества модели.
- Текст должен быть кратким и ясным, желательно не больше трети страницы, лучше меньше.
- Задание загрузить в папку 2019-Essay в файлах Surname2019Symbolic.pdf и .tex
Материалы
- Моделирование европейского опциона
- Символьная регрессия
- Ранжирующие модели информационного поиска
- Пример проекта из ДЗ. В разделе 5 см. моделирование зависимости интенсивности излучения лазера от прозрачности его резонатора.
Анкета