Преподавание машинного обучения

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Некоторые удачные методические приёмы)
(Математический или инженерный курс (организация практикума))
Строка 72: Строка 72:
Думаю, что каждая [[Интеллектуальные системы (кафедра МФТИ)|кафедра]] решает этот вопрос исходя из уровня подготовки собственных студентов. Если у студентов хорошая математическая подготовка, зачем нужно читать им инженерный курс, который покажется им очень простым и доступным для '''самостоятельного''' изучения? Поэтому проблема, скорее всего, формулируется так: "Как организовать эффективную самостоятельную работу студентов?"
Думаю, что каждая [[Интеллектуальные системы (кафедра МФТИ)|кафедра]] решает этот вопрос исходя из уровня подготовки собственных студентов. Если у студентов хорошая математическая подготовка, зачем нужно читать им инженерный курс, который покажется им очень простым и доступным для '''самостоятельного''' изучения? Поэтому проблема, скорее всего, формулируется так: "Как организовать эффективную самостоятельную работу студентов?"
-
Как она организована сейчас:
+
Как она организована сейчас, [Прикладная регрессия и оптимизация (курс лекций, B.В.Стрижов)|см. курс]:
* Студентам назначаются [http://strijov.com/teaching/index.php задания] из расчета 32-36 часов самостоятельной работы в семестр.
* Студентам назначаются [http://strijov.com/teaching/index.php задания] из расчета 32-36 часов самостоятельной работы в семестр.
* Предполагается, что они программируют на С/++/# и им достаточно одной лекции ([[Matlab|с иллюстрацией основных приемов]]), чтобы разобраться в программировании Matlab ([http://strijov.ru/blog/2008-01-31-17 SciLab, Octave]). NB: Mathematica и Gap потребуют две лекции, одна из них -- введение в функциональное программирование и компьютерную алгебру.
* Предполагается, что они программируют на С/++/# и им достаточно одной лекции ([[Matlab|с иллюстрацией основных приемов]]), чтобы разобраться в программировании Matlab ([http://strijov.ru/blog/2008-01-31-17 SciLab, Octave]). NB: Mathematica и Gap потребуют две лекции, одна из них -- введение в функциональное программирование и компьютерную алгебру.

Версия 12:56, 11 июля 2008

Содержание

Данный виртуальный семинар предназначен для обсуждения методических вопросов, связанных с преподаванием машинного обучения и смежных дисциплин в российских вузах.

На данную страницу выносятся основные положения, результаты дискуссии и прочая хорошо структурированная информация. Споры, как обычно, ведутся в обсуждении.

Поскольку это семинар, на основной странице также можно высказывать личные мнения; желательно сопровождать их подписью участника.

Машинное обучение — математический или инженерный курс?

Согласно международным рекомендациям по преподаванию информатики в университетах ACM/IEEE Computing Curricula 2001 информатика (computer science) подразделяется на 14 областей, одна из которых — интеллектуальные системы (intelligent systems). Эта область, в свою очередь, имеет 10 разделов, один из них — машинное обучение и нейронные сети (machine learning and neural networks). Для непрофильных специальностей этот курс считается факультативным.

Типовые программы этого курса рассчитаны на расширение кругозора будущих IT-специалистов и, мягко говоря, поверхностны. Они ни в коей мере не рассчитаны на будущего научного работника или разработчика новых методов машинного обучения. Они лишь дают представление о том, какие задачи возникают на практике, какими методами их можно решать, в чём их основные принципы, какие существуют инструментальные средства, иногда — какие подводные камни ждут будущего BI-аналитика. Далеко не все методы освещаются. Теория вообще не рассматривается.

Вопрос: стоит ли ориентироваться на этот международный стандарт?

Стандарт оставляет большую свободу творчества преподавателю. Формально оставаясь в рамках стандарта, можно сделать и полную профанацию, и удачный курс для инженеров, показывающий нетривиальные примеры реальных задач и процесс их решения с помощью доступного инструментария. Заодно можно зацепить действительно глубокие проблемы, с одной стороны возникающие из нужд практики, с другой требующие хорошей математики. Однако сделать такой курс на порядок сложнее, чем скомпилировать материал нескольких книжек.

Математический курс нужен узкому кругу специалистов, которые предположительно будут заниматься разработкой новых методов и решением принципиально новых задач. Потребность в таких специалистах — около 5%. (К.В.Воронцов 22:33, 10 июля 2008 (MSD))

Инженерный курс нужен широкому кругу специалистов, которые предположительно будут заниматься применением стандартных методов для решения более-менее типичных задач. Он также нужен будущим IT-руководителям, которые обязаны не только знать о возможностях современных методов анализа данных, но и уметь доносить своё понимание до лиц, принимающих решения. Потребность в таких специалистах — около 95%. Кстати, без этих 95% инженеров, бизнес-аналитиков и IT-менеджеров те 5% математиков вообще не имеют шансов найти работу по специальности. (К.В.Воронцов 22:33, 10 июля 2008 (MSD))

Курсов машинного обучения «для инженеров» в мире очень много. Математических курсов сравнительно мало, и они очень разные; каждый несёт на себе отпечаток конкретной школы. Обычно это спецкурсы на кафедрах соотвествующего профиля.

Попытки найти «золотую середину» предпринимаются в тех университетах, где даётся хорошее базовое математическое образование. Пример — курс Machine Learning в MIT, разработанный Tommi Jaakkola.

Методика преподавания

Предлагается обсуждать удачный и неудачный опыт.

  • Насколько повышается эффективность преподавания при использовании слайдов?
  • Надо ли использовать наряду со слайдами раздаточные материалы? Когда материал запоминается лучше и дольше: когда студент пишет конспект лекции или когда студент видит хорошо продуманные (в том числе графические) иллюстрации на слайдах?
  • Как построить практикум? Делать упор на разработку или на применение методов? На каком средстве: Matlab или C++ или R или WEKA или RapidMiner? Делать проекты индивидуальные или парные?
  • Какие задачи и вопросы давать для контроля знаний?

Некоторые удачные методические приёмы

Предлагается пополнять коллекцию.

  • В начале курса посвятить одну лекцию описанию примеров (от 3 до 10) разнообразных прикладных задач «из жизни». (К.В.Воронцов 22:33, 10 июля 2008 (MSD))
  • В конце курса (например, на консультации перед экзаменом) нарисовать «карту курса», где показать взаимосвязи и сходство различных методов. (К.В.Воронцов 22:33, 10 июля 2008 (MSD))
  • Рассказав метод, в явном виде перечислить его достоинства и недостатки; затем рассказать о путях устранения недостатков. (К.В.Воронцов 22:33, 10 июля 2008 (MSD))

Математический или инженерный курс (организация практикума)

Думаю, что каждая кафедра решает этот вопрос исходя из уровня подготовки собственных студентов. Если у студентов хорошая математическая подготовка, зачем нужно читать им инженерный курс, который покажется им очень простым и доступным для самостоятельного изучения? Поэтому проблема, скорее всего, формулируется так: "Как организовать эффективную самостоятельную работу студентов?"

Как она организована сейчас, [Прикладная регрессия и оптимизация (курс лекций, B.В.Стрижов)|см. курс]:

  • Студентам назначаются задания из расчета 32-36 часов самостоятельной работы в семестр.
  • Предполагается, что они программируют на С/++/# и им достаточно одной лекции (с иллюстрацией основных приемов), чтобы разобраться в программировании Matlab (SciLab, Octave). NB: Mathematica и Gap потребуют две лекции, одна из них -- введение в функциональное программирование и компьютерную алгебру.
  • Выставляются рекомендации по организации выполнения работы и проведения вычислительных экспериментов (в частности, пожелания пользоваться обозначениями, введенными в лекциях). NB: план лекций, вопросы на экзамене, задачи для самостоятельного решения доступны.
  • Доступны примеры программ и вычислительных экспериментов, это мотивирует к написанию красивого кода (сейчас идет подготовка к сезону 2008-осень, но все равно можно посмотреть, инструкции здесь).
  • Результаты самостоятельной работы и докумениация к ним складывается на ftp-сервер до начала экзаменов так, чтобы оставалась возможность написать рецензию и указать, что надо доработать. NB: вариант с flash memory stick очень утомляет, т.к. по опыту, 4 из 5 студентов несут вирусы, на убиение которых уходит время.

Есть три варианта выполнения студентами "инженерного курса".

  1. Он не делается вообще (к счастью, такого еще не случалось).
  2. Студенты работают первые 4 недели, потом не работают, потом работают последние две недели.
  3. Работа делается в последние две недели (при этом число фактически отработанных часов уменьшается).

Основная проблема, которая не решена:

  • как организовать работу, чтобы кроме лекций, несколько часов каждую неделю было посвящено практике (которая, по моему мнению, и есть "инженерный курс" )?

--Strijov 16:38, 11 июля 2008 (MSD)

Терминология

Предлагается обсуждать список терминов, которые либо не понятно как переводить на русский, либо «де факто» они уже переведены разными авторами по-разному, и необходимо приходить к единству. Возможно, для этого обсуждения лучше завести отдельную страницу...

Книги, которые можно выбрать за «скелет» курса

  1. Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p.  (подробнее)

Дополнительная литература

  1. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. — 270 с. — ISBN 5-86134-060-9  (подробнее)
  2. Журавлёв, Ю. И., Рязанов, В. В., Сенько, О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: ФАЗИС, 2006. — 176 с.  (подробнее)

Курсы

Личные инструменты