Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Материал из MachineLearning.

(Различия между версиями)

Версия 18:35, 11 февраля 2011

Сейчас идет изменение статьи.--Strijov 21:03, 10 февраля 2011 (MSK)

Московский физико-технический институт, Факультет управления и прикладной математики

’’Численные методы обучения по прецедентам’’ — практические занятия, посвященные исследованию свойств алгоритмов машинного обучения. Семестровый курс содержит 36 часа практических занятий. Результатом практики являются отчеты о выполнении заданий.

Данный курс является первой частью трилогии

Численные методы обучения по прецедентам
Выполнение исследовательских проектов
Автоматизация и стандартизация научных исследований

и подготовкой к основному теоретическому курсу

Прикладной регрессионный анализ (курс лекций, B.В. Стрижов)

См. также версию этого курса 2009-2010.

Задачи

Включены задачи всех трех семестров

Содержание отчета

Отчет состоит из следующих материалов:

статья (pdf и wiki)
исходный код алгоритма,
рецензия на работу,
доклад.

План работы

Домашнее задание-1
Домашнее задание-2
Изучение литературы
Постановка задачи
Доклад-1 (о том, что будет сделано) включает список литературы
Написание введения и постановочной части
Создание алгоритма
Вычислительные эксперименты на тестовых данных
Исследование свойств алгорита
Тестирование алгоритма на реальных данных
Проверка работы рецензентом
Контрольная точка (с возможными доработками)
Доклад-2 (экзамен)

Результат: технический отчет.

Домашнее задание-1

Зарегистрироваться на сайте MachineLearning.ru.
Поставить систему верстки MikTeX.
Поставить текстовый редактор WinEdt или TeXnic Center.
Поставить библиографическую систему JabRef.
Зарегистрироваться сайте-репозитории открытого кода SourceForge.net, послать логин координатору (гр. 874а - Георгий Рудой).
Скачать программу-оболочку для обмена кодом TortoiseSVN.
Прочитать статью про SourceForge, загрузить MLAlgorithms.
Поставить систему компьютерной алгебры Scilab или Octave или Matlab.

Посмотреть все, что поставили, понять, как этим пользоваться на уровне интерфейсов.

Поставить Скайп, прочитать соглашение.

Домашнее задание-2

Прочитать статью про LaTeX.
Прочитать основные главы Львовский С.М. Набор и верстка в системе LaTeX.
Настроить русский язык (Start->Programs->MikTeX 2.9->Maitenance->Setteings->Languages->Russian->General->Refresh/Update).
Загрузить шаблон статьи LaTeX (Здесь будет ссылка) и скомпилировать.
Прочитать про BibTeX.
Найти какую-нибудь статью в какой-нибудь библиографической базе.
Скопировать в произвольную библиографическую запись, (например, эту) в список литературы, проверить результат компиляции.

Домашнее задание-2 (вторая часть)

Прочитать статью Введение в Матлаб.
Прочитать Документирование функций Matlab, соглашение об именах переменных и создание отчетов о вычислительных экспериментах.
Прочитать Matlab Programming Style Guidelines.

Доклад-1

Доклад по результатам постановки задач и исследованию литературы на пять минут. Требуется:

Список литературы и оценка близости используемых методов
Черновик аннотации работы
Черновик постановки задачи
Пути решения задачи

Поиск литературы

Как, где и что искать? (на лекции)
Ключевые слова для поиска

Технический отчет

Пункт плана "Написание введения и постановочной части"

Название
Аннотация (пишется в последнюю очередь)
Ключевые слова (используются те, которые дали хорошие результаты поиска)
Введение (около страницы); ниже — по абзацам, примерный план)
- Основное сообщение — чему посвящена работа (одна-две фразы)
- Обзор литературы — развитие предлагаемой идеи (не более двух абзацев)
- Современное состояние области (два-четыре абзаца)
- Что предлагается (два абзаца)
- Как организована работа (предложение или два)
Постановка задачи (примерно страница)
- Дано (как устроена выборка)
- Предполагается, что (статистические гипотезы, гипотезы порождения данных)
- Ограничения и другие предположения о характере данных
- Функционал или критерий качества искомой модели, решения (часто вытекает из гипотезы порождения данных)
- Дополнительные требования (разбиения выборки, скользящий контроль, требования к мультиколлинеарности и подобное)
Решение: математическая часть (тут название первого раздела)
- Описание алгоритма
- Исследуемые свойства алгоритма
Другие разделы (если есть)
Решение: алгоритмическая часть (часто уходит в следующий раздел)
Вычислительный эксперимент
- Описание задачи, кратко
- Описание данных, достаточное, чтобы воспроизвести эксперимент самостоятельно
- Описание алгоритма или ход эксперимента
- Описание полученных результатов
- Выводы, сравнение результатов, полученных альтернативным путем
Заключение (пишется в последнюю очередь)
- Вставить ссылку на mlalgorithms/ваша_папка для того, чтобы другие исследователи могли проверить результаты или использовать их в дальнейшей работе
Литература
- Литература должна у вас уже быть по результатам доклада-1 (даже если она не вся указана во введении, пожалуйста, приведите полный список)
- Совет: используйте команду TeX \nocite{*} при выводе из файла bbl для получения полного списка

Технический отчет: еще раз, сжато

Аннотация: изложение краткого содержания и основных результатов (не более 600 знаков).
Введение: раскрытие темы статьи, общая постановка задачи, обзор литературы, описание подхода к решению задачи.
Постановка задачи: полная формальная постановка, введение обозначений, принятие необходимых гипотез, задание функционалов качества.
Описание алгоритма (возможно несколько разделов): математическое описание предлагаемого алгоритма, исследование его свойств, доказательство необходимых теорем.
Вычислительный эксперимент: описание исходных и производных данных, описание технической части алгоритма (если необходимо), описание результатов, сравнение их с результатами других алгоритмов; крайне желательны иллюстрации.
Заключение: сжатое изложение результатов (1/4 страницы).
Список литературы: желательно найти опорные статьи за последние 10 лет, максимально покрывающие тематику.

Создание алгоритма

Основные приемы программирования - на лекции.

Папки проекта

В репозитории MLAlgorithms должны лежать следующие файлы и папки:

папка — название проекта,
(необязательно) в ее корне файл plan_Ivan_Ivanov.tex с текущими замечаниями и договоренностями,
папка code с кодом проекта,
- в этой папке выделить файл, который нужно запустить, чтобы посмотреть отчет, например demoProjectName.mat,
папка data с данными по проекту (исходными и производными в .mat),
папка doc с документацией и со статьей (обязательно хранить там .pdf, .tex; удалять все временные файлы),
папка doc/figs с подготовленными рисунками (в т.ч. .eps),
папка report c промежуточными рисунками (рисунки и черновики отчетов вместе с кодом хранить нежелательно).

Работа с репозиторием

Адрес репозитория https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms.
Совет: не загружайте в репозиторий вспомогательный файлы Thumbs.db, .asv они будут мешать.

Вычислительный эксперимент

Вычислительный эксперимент состоит следующих шагов:

Порождение модельных данных или загрузка реальных данных
Предобработка данных (если требуется)
Визуализация данных (если требуется)
Выполнение алгоритма, получение результатов
Визуализация результатов
Исследование свойств алгоритма
Выводы

Рецензирование работы

После написания текста статьи, кода алгоритмов и кода вычислительного эксперимента, студент должен написать рецензенту письмо о готовности к получению рецензии. После этого

Рецензент

В статье на ML ставит пометки <ref>Замечание к статье</ref>.
В m-файлах ставит пометки % FIXIT Замечание к коду.

Исполнитель

В статье на ML вносит требуемые исправления и снимает пометки <ref>Замечание к статье</ref>. В дальнейшем рецензент сравнивает новую и старую версии статьи средствами ML (вкладка "история").
В m-файлах вносит требуемые исправления и исправляет пометки % FIXIT на %FIXED.

Рецензент отвечает за качество работы, но должен быть благожелателен к исполнителю. Критерий качества работы: рецензент с удовольствием готов использовать рецензируемую работу для решения своих задач.

Соглашение о комментировании

Приняты следующие комментарии, добавляемые в код при его проверке:

% FIXIT - желательно изменить код (улучшить структуру кода или устранить ошибку), 
% FIXED - устраненные ошибки или улучшенный код, 
% NOTE - комментарий для обмена мнениями,
% TODO - желательно выполнить работу.

Для совместимости с системой Полигон желательно оформлять интерфейсы основных модулей следующим образом: 1) алгоритм классификации, регрессионная модель с параметрами w и матрицей "объект-признак" X

y = NameModel(w, X)

2) процедура обучения (оптимизации параметров алгоритма или модели) c вектором ответов y и структурными параметрами PP

w = NameLearn(X,y, PP)

3) необязательная процедура тестирования

y = NameTest(w, X)

Параметры w могут быть вектором (желательно) или структурой (при необходимости).

% X [m,n] is an object-feature matrix
% y [m,1] is a vector of object lables
% w [p,1] is a vector of parameters, or
% w [structure] is a structure of parameters 
% PP [structure] are parameters of the method

Политика

На лекции ходить необязательно, при этом повторных или персональных разъяснений и не будет.
Списывание приветствуется; использование чужого кода приветствуется вдвойне. При этом следует корректно указывать оригинального автора.
Изобретать велосипед грешно; усовершенствовать почетно.
Результат важнее процесса.

NB заметки о карьере на лекции Карьера:

Академическая (исследования и преподавание)
Промышленная (исследования и разработки)
Финансовая (анализ и разработки)
Управление (анализ и принятие решений)

Подготовка к зачету

Экзамен будет проходить в доклада. Продолжительность 5-10 минут и три дополнительные минуты на вопросы. Цель - показать, что результаты работы понятны специалисту, и могут быть им использованы в дальнейшем. Под специалистами понимаются ваши одногруппники и преподаватели кафедры.

Во время презентации требуется:

Поставить задачу
Осветить основные принципы работы алгоритма (кратко, без деталей)
Описать интерфейсы модулей алгоритма
Показать работу алгоритма на примерах
Проанализировать свойства алгоритма

На презентации используется:

Отчет
Код из sourceforge.net
Слайды готовить не нужно

Советы:

Подготовьте доклад с секундомером в руках
Расскажите его другу, ответьте на его вопросы

На экзамене оценивается:

Корректность математической постановки задачи
Полнота описания алгоритма
Продуманность интерфейсов
Соответствие стандартам программирования
Ясность изложения результатов
Глубина анализа свойств алгоритма
Качество рецензирования (чужой работы)

Полезные материалы

Список пока в доработке

Источник — «http://recognition.su/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29»

Категория: Учебные курсы

@@ Строка 149: / Строка 149: @@
 * папка '''report''' c промежуточными рисунками (рисунки и черновики отчетов вместе с кодом хранить нежелательно).
-== Вычислительный эксперимент ==
+=== Работа с репозиторием ===
+* Адрес репозитория [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms  https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms].
+* Совет: не загружайте в репозиторий вспомогательный файлы '''Thumbs.db''', '''.asv''' они будут мешать.
+=== Вычислительный эксперимент ===
 Вычислительный эксперимент состоит следующих шагов:
@@ Строка 160: / Строка 164: @@
 # Выводы
-== Выполнение проекта ==
+=== Рецензирование работы ===
+После написания текста статьи, кода алгоритмов и кода вычислительного эксперимента, студент должен написать рецензенту письмо о готовности к получению рецензии. После этого
-=== Работа с репозиторием ===
-Исходный код должен находится в репозитории [https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms  https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms]. О том, как работать с репозиторием, [[SourceForge|см. здесь]]. Права на добавление файлов в репозиторий можно получить у администратора вашей группы.
-В репозитории находятся следующие папки общего пользования:
-* data – реальные данные для загрузки, общие для всех проектов (данные к конкретному заданию можно хранить в папке AlgorithmName или AlgorithmName\data),
-* common – функции общего пользования, относящиеся к алгоритмам,
-* utilities – вспомогательные функции общего пользования, относящиеся к вводу данных и рисованию графиков.
-В репозитории нужно создать папку, название папки – название задания (алгоритма).
-В папке должен лежать основной файл demoAlgorithmName – файл отчета о вычислительном эксперименте (и, возможно, файл loadDataName – файл порождения модельных данных или загрузки реальных данных). Дополнительные файлы могут лежать в той же папке или в подпапках.
-В процессе автоматической генерации отчета появляется папка html, которую, вместе с файлами .html и .gif,  можно также загрузить в репозиторий.
-{{tip|Совет: не загружайте в репозиторий вспомогательный файл операционной системы '''Thumbs.db''', он вам будет мешать.}}
-=== Программирование ===
-Рекомендации программистам и введение в Матлаб [[Matlab|см. здесь]].
-Настоятельно рекомендуется прочесть соглашение об именах в статье [[Документирование функций Matlab]].
-Там же рассказано о создании отчетов о вычислительных экспериментах.
-=== Процесс рецензирования ===
-После написания текста статьи, кода алгоритмов и кода вычислительного эксперимента, студент должен написать рецензентам письмо о готовности к получению рецензии. После этого
 ====Рецензент====
 * В статье на ML ставит пометки <nowiki><ref>Замечание к статье</ref></nowiki>.
@@ Строка 241: / Строка 221: @@
 == Подготовка к зачету ==
-Зачет будет проходить в виде презентации выполненной работы. Продолжительность презентации '''пятнадцать минут''' и три дополнительные минуты на вопросы.
+Экзамен будет проходить в доклада. Продолжительность '''5-10 минут''' и три дополнительные минуты на вопросы.
-Цель презентации: '''показать, что результаты работы понятны специалисту, и могут быть им использованы в дальнейшем'''.
+Цель - показать, что результаты работы понятны специалисту, и могут быть им использованы в дальнейшем.
-Под специалистами понимаются ваши одногруппники и преподаватели кафедры К.В.&nbsp;Воронцов, А.В.&nbsp;Лисица, В.В.&nbsp;Стрижов.
+Под специалистами понимаются ваши одногруппники и преподаватели кафедры.
 Во время презентации требуется:
-* Назвать основные свойства алгоритма
 * Поставить задачу
 * Осветить основные принципы работы алгоритма (кратко, без деталей)
@@ Строка 254: / Строка 233: @@
 На презентации используется:
-* Страница из machinelearning.ru (обязательно)
+* Отчет
-* Код из sourceforge.net (обязательно)
+* Код из sourceforge.net
-* Для удобства можно подготовить текстовый документ с описанием интерфейсов модулей (по желанию)
-* Отчеты о вычислительных экспериментах в html-формате (по желанию)
 * Слайды готовить не нужно
@@ Строка 263: / Строка 240: @@
 # Подготовьте доклад с секундомером в руках
 # Расскажите его другу, ответьте на его вопросы
-# При подготовке m-файлов к показу, наведите порядок в папке:
-#* Файлы-скрипты желательно переименовать в demo_demoname.m
-#* Графики желательно поместить в папку \fig
-#* Имена и интерфейсы основных файлов должны соответствовать требованиям системы «Полигон»
-== Зачет ==
-Зачет состоится в аудитории 355 на Вавилова 42, согласно расписанию вашей группы. Проектор, компьютер, интернет будут в аудитории. При необходимости можно принести свой компьютер.
-На зачете оценивается:
+На экзамене оценивается:
 # Корректность математической постановки задачи
 # Полнота описания алгоритма
@@ Строка 278: / Строка 248: @@
 # Ясность изложения результатов
 # Глубина анализа свойств алгоритма
+# Качество рецензирования (чужой работы)
-== Полезные материалы, сводный список ==
+== Полезные материалы ==
+Список пока в доработке
 * [[Media:PracticeStrijovTemplate1.rtf| Заготовка для статьи на machinelearning.ru]]
 *[[Логистическая регрессия (пример)|Образец статьи о выполненном практическом задании]]
@@ Строка 294: / Строка 266: @@
 *[[Индекс цитирования (инструменты)]]
-== NB ==
-<references/>
 [[Категория:Учебные курсы]]