Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 174, весна 2015

Материал из MachineLearning.

Версия от 07:58, 18 февраля 2015; Rgazizullina (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Результаты предыдущих курсов:

Планирование научных исследований

Участвуют эксперты, индивидуальные консультанты и студенты кафедры.

Описание курса
Методика преподавания
Результаты предыдущего курса
Короткая ссылка на эту страницу: bit.ly/1BW1Sy8

Результаты

Физтех

Автор	Тема научной работы	Ссылка	Консультант
Газизуллина Римма	Исследование взаимосвязанности временных рядов	[1], pdf	Консультант
Гринчук Алексей	Использование контекстной документной кластеризации для улучшения качества построения тематичсеких моделей	[2], pdf	Апишев Мурат, Ромов Пётр
Гущин Александр	Тема
Ефимова Ирина	Формирование однородных обучающих выборок в задачах классификации	[3], pdf	Целых Влада
Жуков Андрей	Тема
Игнатов Андрей	Применение Deep Learning в задаче информационного анализа ЭКГ-сигналов	[4], pdf	Ишкина Шаура
Карасиков Михаил	Тема
Кулунчаков Андрей	Порождение структурно простых ранжирующих функций для задач информационного поиска	[5], pdf	Мотренко Анастасия
Липатова Анна	Улучшение качества классификации наивного байесовского классификатора путем добавления регуляризации.	[6], pdf	К. В. Воронцов
Макарова Анастасия	Тема
Плавин Александр	Тема
Попова Мария	Классификация временных рядов с использованием методов Deep Learning	[7] [8]	В. В. Стрижов
Швец Михаил	Монотонные классификаторы для задач медицинской диагностики	[9], pdf
Шинкевич Михаил	Применение коллаборативной фильтрации, активного обучения и навигационной корреляции в задаче выделения селекторов
Авдюхов Дмитрий	Тема
Гиззатуллин Анвар	Тема
Костюк Анна	Тема
Сухарева Анжелика	Классификация научных текстов по отраслям знаний

Сколтех

Автор	Тема научной работы	Ссылка	Консультант	Рецензенты	Буквы
Роман Прилепский (Ск)	Автоматическое построение оптимальной структуры сети глубокого обучения для задач классификации временных рядов
Михаил Матросов (Ск)	Прогнозирование сложноорганизованных наборов временных рядов
Владимир Жуйков	Тема
АВ	Тема
Антон Киселев	Тема
Александра Кудряшова	Detection of emotions using video record
Алвис Логинс	EVERGREEN: Spatial join-oriented data structure

Расписание

Дата		ДЗ	Тема лекции	Результат для обсуждения	Код
Февраль	11		Вводная лекция.	Задано ДЗ-1.	--
	18	1	Начало, демонстрация интерфейсов. Выбор задачи пробного программирования	Регистрация в ML и SF, установлены все необходимые инструменты, прочитаны вводные тексты.	--
Дата		ДЗ	Что делаем	Результат для обсуждения	Код
	25	2	Решить пробную задачу, написать код. Выбор задачи	Пробный код написан и загружен в репозиторий вместе с иллюстрирующими рисунками. Тема в ML и ссылка на работу в SF помещена напротив фамилии.	Test
Март	4	3	Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы.	Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле.	Abstract, Introduction, Literature
	11	4	Поставить задачу и базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма.	Постановка задачи (0.5-1 страница), код, отчет о работе базового алгоритма (кратко).	Statement, Basic code, Report
	18	5	Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов.	Код, визуализация полученных результатов, анализ ошибки, анализ качества.	Code, Visualization
	25	6	Описание алгоритма.	Алгоритмическая часть статьи (второй / третий раздел).	Theory
Апрель	1	7	Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение.	Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение».	Document
	8	8	Завершение вычислительного эксперимента.	Описание эксперимента с анализом ошибок.	Error
	17	8	Контрольная точка — показ статьи в целом.	Доработанная статья.	сHeck
	22	9	Доклады и обсуждение.	Статья подана в журнал.	Show, Journal

Работа и консультации

Работы сдаются в течение недели.
Желательна итеративная сдача работ, начинать показ лучше в выходные.
Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
В отчет будет добавлен пункт об учете времени, затраченном на выполнение проекта по неделям.
Каждый этап работ + 1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — 0. Мотивированный перенос работы — знак «>».

Задачи

Шаблон описания научной статьи

Название: Название, под которым статья подается в журнал.

Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.

Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.

Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.

Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.

Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.

Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

1. Порождение структурно простых ранжирующих функций для задач информационного поиска

Задача: Решается проблема порождения ранжирующих функций в задачах информационного поиска. Ранжирующая функция ищется в виде суперпозиции некоторых заданных порождающих функций. Предлагается генетический алгоритм порождения структурно-простых суперпозиций, который затем сравнивается с алгоритмом полного перебора. Функционалами качества при этом являются MAP и P@10. Оптимальность полученных функций предлагается исследовать с помощью метрик на моделях и данных. Ссылка на подробную постановку задачи.

Данные: Выборка состоит из нескольких коллекций документов. Каждой коллекции экспертом приписано множество запросов и для некоторых из ее документов заданы оценки релевантности данным запросам. Ссылка на данные и ссылка на запросы и экcпертные оценки.

Литература:

Постановка задачи для переборного алгоритма.

- P. Goswami, S. Moura, E. Gaussier et al. / Exploring the space of ir functions // ECIR'14. - 2014. - Pp. 372-384.

Постановка задачи для генетического алгоритма на моделях любой сложности.

- Fan W., Gordon M. D., Pathak P. / A generic ranking function discovery framework by genetic programming for information retrieval // Inf. Process. Manage. - 2004. Vol. 40, no. 4. Pp. 587-602.

Алгоритм порождения суперпозиций.

- Рудой Г.И., Стрижов В.В. / Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26

Базовой алгоритм: В данный момент используется генетический алгоритм MVR порождения моделей с простым удалением всех моделей, имеющих избыточную сложность.

Решение: Предлагается использовать более гибкие способы контроля сложности порождаемых моделей путем варьирования функционала качества моделей. Кроме этого, предлагается подключить метрику на моделях для улучшения сходимости и выбивания из локальных минимумов. Возможно, потребуется добавить некоторые эвристики в MVR для ускорения сходимости.

Новизна: На данный момент известно два наиболее продуктивных подхода к поиску ранжирующей функции: переборный и генетический алгоритм. Переборный алгоритм [Goswami et al., 2014] находит структурно-простую ранжирующую функцию и гарантирует ее оптимальность в небольшом множестве функций (на данный момент просмотрены функции структурной сложности не более 8). Генетический алгоритм [Fan et. al., 2004] работает заметно быстрее, но находимые им функции неинтерпретируемы и заметно переусложнены. В настоящей работе предлагается использовать регуляризатор для контроля структурной сложности модели и метрику для ускорения сходимости. Цель: ускорить алгоритм в работе [Goswami et al., 2014], получить те же результаты на структурно простых моделях, показать их устойчивость относительно начального приближения и исследовать структурно более сложные функции.

2. Формирование однородных обучающих выборок в задачах классификации

Задача:
Дано: две размеченные выборки объектов двух классов. Первая выборка эталонная, вторая содержит неизвестную долю выбросов — объектов с неверной классификацией.
Найти: вычислительно эффективный способ очистки второй выборки от выбросов.
Критерий: возрастание 10-fold CV AUC при пополнении первой обучающей выборки отфильтрованной второй выборкой.

Данные: Выборки электрокардиограмм с диагнозами по 11 заболеваниям, для каждого из которых есть два типа выборок: эталонные прецеденты (прошедшие всестороннее обследование с применением современных клинических, лабораторных и инструментальных методов исследования) и случаи, когда диагнозы устанавливались терапевтом.

Литература:
1. Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
2. Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
3. Chandola V. [at al.] Outlier detection: A Survey // ACM Computing Surveys. – July 2009. – V. 41(3), N 15.
4. Singh K. [at al.] Outlier Detection: Applications And Techniques // International Journal of Computer Science Issues. – January 2012. – V. 9(1), N 3

Базовый алгоритм: Пополнение обучающей выборки всеми объектами второй выборки с отступами не менее заданного порога. Ссылка.

Решение: Для пополнения первой выборки объектами второй выборки предлагается метод сближения ROC-кривых — жадный алгоритм, исключающий объекты второй выборки так, чтобы минимизировать расстояние между ROC-кривой обучающей подвыборки первой выборки и ROC-кривой второй выборки. Также предлагается рассмотреть различные модификации данного метода.

Новизна: Задача пополнения обучающей выборки ранее не решалась. Есть похожие стандартные задачи: фильтрация шумов, частичное обучение. Но задача пополнения отличается от них тем, что возникает трудность: формирование пополненной обучающей выборки с помощью классификатора, обученного по первой выборке, может закрепить эффект переобучения.

3. Применение Deep Learning в задаче информационного анализа ЭКГ-сигналов

Задача: Решается задача диагностики заболеваний внутренних органов человека по его электрокардиограмме. Задача состоит из двух последовательных этапов: обработки исходных сигналов, включающей в себя построение признакового описания кардиограмм, и их классификации по полученным векторам признаков. В роли функционалов качества в данной задаче выступают AUC, FPR и FNR.

Данные: Выборка представляет собой множество электрокардиограмм с диагнозами по 14 заболеваниям. Каждая кардиограмма задается вектором, элементами которого являются пары интервал-амплитуда.

Литература:
- Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.
- Uspenskiy V.M., Vorontsov K. V., Tselykh V. R., Bunakov V.A. Information Function of the Heart: Discrete and Fuzzy Encoding of the ECG-Signal for Multidisease Diagnostic System. In: Advanced Mathematical and Computational Tools in Metrology – AMCTM 2014
- Bengio Y., Courville A., Vincent P. Representation Learning: A Review and New Perspectives. In: IEEE Transactions on Pattern Analysis & Machine Intelligence, vol.35, no. 8, pp. 1798-1828, 2013
- Geoffrey E. Hinton. A Practical Guide to Training Restricted Boltzmann Machines. In: Neural Networks: Tricks of the Trade, рp. 599-619, 2012

Базовой алгоритм: Ручное выделение признаков с последующим применением наивного байесовского классификатора.

Решение: Предлагается использовать Deep Learning для выделения признаков из исходных электрокардиограмм. В качестве базовых алгоритмов рассматриваются автоэнкодеры, ограниченные машины больцмана и сверточные нейронные сети. Для решения поставленной задачи используется суперпозиция данных алгоритмов. Для улучшения качества обучения предлагается ряд эвристик.

Новизна: В настоящий момент применяется ручное выделение признаков, базирующееся на найденных экспертом закономерностях. Данный метод использует лишь часть информации, содержащейся в электрокардиограммах. Также он замедляет создание признаков для новых, еще не рассмотренных ранее болезней. В данной работе предлагается использовать Deep Learning для автоматической генерации признаков. Также данный метод использует большее количество входных данных, что позволяет более полно использовать содержащуюся в кардиограммах информацию.

4. Применение коллаборативный фильтрации и активного обучения в задаче выделения селекторов

Задача:

Дано: Результат A/B-тестирования каждого пользователя Найти: Множество селекторов минимальной мощности, при котором результат голосования принадлежит доверительному интервалу Критерий: Фактор мощности множества селекторов

Данные: Результат A/B-тестирования и навигационная корреляция

Литература:
1. Benjamin Marlin, Collaborative filtering: a machine learning perspective. // Thesis for the degree of Master of Science Graduate Department of Computer Science University of Toronto
2. Subhagata Chattopadhyay, Similarity based clustering // Computing and Informatics, Vol. 30, 2011, 701–720
3. Ilham Esslimani, Armelle Brun, Anne Boyer. A collaborative filtering approach combining clustering and navigational based correlation // Universite ́ Nancy2, LORIA, 2008

Базовой алгоритм: Косинус угла между векторами объектов / пользователей. FLAME-кластеризация.

Решение: Сначала определяются параметры суперпозиции, экспертно заданных признаков близости пользователей. Далее пользователи разбиваются на кластеры при помощи FLAME кластеризации.

Проверяется попадание результата голосования селекторов в доверительный интервал "правильного" ответа.

Новизна: Прямое сравнение вкусов пользователей, а не косвенное через похожесть объектов. Сравнение происходит в общей метрике, а не уникальной системе каждого пользователя. Используется навигационная корреляция и активное обучение. Благодаря всему перечисленному, сравнение вкусов пользователей имеет наибольшую, по сравнению с предыдущими работами, точность.

5. Монотонные классификаторы для задач медицинской диагностики

Задача: На необработанной обучающей выборке есть множество объектов (класса больных и здоровых), которые участвуют в образовании нарушающих пар. Различные типы монотонизации соответствуют сдвигу разделяющей поверхности в сторону одного из классов. Фиксировав величину чувствительности (специфичности), построить монотонный классификатор, удовлетворяющий заданному условию.
Данные: выборки электрокардиограмм (в векторном представлении) с диагнозами по 14 заболеваниям.
Литература:
1. Воронцов К.В., Махина Г.А. Принцип максимизации зазора для монотонного классификатора ближайшего соседа. Москва, 2014.
2. Махина Г.А. О восстановлении монотонных булевых функций методом ближайшего соседа. ИОИ-9. 2012.

Базовый алгоритм: монотонный классификатор ближайшего соседа с предварительным отбором признаков.

6. Обнаружение взаимосвязанности временных рядов

Задача: Разработать метод выявления связей между временными рядами. Разработать метод выявления связей между временными рядами, определяемых структурой фазового пространства. Требуется изучить набор подходов к выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей.

Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.

Литература:

Описание алгоритма ССМ

- G. Sugihara, R.M. May. Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series
- George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012)

Рассмотрение различных алгоритмов для обнаружения связаности рядов

- Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.

Базовой алгоритм: Алгоритм сходящегося перекрестного отображения (Convergent Cross Mapping, CCM)

Решение: Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства.

Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей

Примечания

Источник — «http://recognition.su/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_174%2C_%D0%B2%D0%B5%D1%81%D0%BD%D0%B0_2015»

Категория: Учебные курсы