Алгебра над алгоритмами и эвристический поиск закономерностей

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Заседания спецсеминара)
(Заседания спецсеминара)
Строка 123: Строка 123:
| ''Дьяконов Александр'', руководитель
| ''Дьяконов Александр'', руководитель
| '''Спектральная теория графов'''
| '''Спектральная теория графов'''
 +
|
 +
|-
 +
| 30 марта 2015
 +
| ''Рыжков Александр'', 5-й курс
 +
| '''Deep plankton learning - road to the top'''
|
|
|}
|}

Версия 16:43, 23 марта 2015

Руководитель спецсеминара: д.ф.-м.н., профессор Дьяконов Александр Геннадьевич

Направления работы на спецсеминаре

См. также «Правила для постоянных участников».


Информация для второкурсников!


Содержание

В рамках работы на спецсеминаре есть два направления исследования:

  1. Теоретическое. Проводится в рамках алгебраического подхода к решению задач распознавания. Суть подхода: на алгоритмах, которые решают задачи обработки и анализа данных, специальным образом вводятся алгебраические операции. Например, можно складывать алгоритмы (получается опять алгоритм), умножать и т. д. Среди получаемых алгебраических выражений над «естественными» алгоритмами есть высокоэффективные алгоритмы. На спецсеминаре рассматриваются вопросы: как их строить, анализировать, реализовывать на ЭВМ и т. д. и т. п. Здесь же возникают задачи современной теории интерполяции: построения функций специального вида, заданных частично. Можно заниматься дискретным направлением: решать подобные задачи для функций, принимающих значения 0 и 1. Данное направление представляет особую ценность студентам, которые хотят получить самостоятельные результаты в науке и продолжить обучение в аспирантуре.
  2. Прикладное. Решаются реальные прикладные задачи анализа данных (data mining). Например, построение рекомендательных систем, прогнозирование свойств динамических графов (в том числе и графов социальных сетей), прогнозирование поведения потребителей, анализ метаданных, классификация сигналов головного мозга, классификация сигналов-показаний работы механизмов, настройка спам-фильтров, автоматическая рубрикация текстов, прогнозирование финансовых временных рядов. От студентов требуется желание глубоко понять задачу (данные и скрытые в них закономерности), умение быстро осваивать новые методы (в незнакомой области), хорошо программировать, выдвигать гипотезы и фантазировать (последнее очень важно).

Заседания спецсеминара

Заседания проходят по понедельникам в ауд. 605, начало в 18:10. Вход свободный.


Дата Докладчик Доклад Материалы
17 сентября 2014 Дьяконов Александр, руководитель Организационные вопросы: производственная практика, курсовые и дипломные работы, распределение тем докладов
24 сентября 2014 Нижибицкий Евгений, аспирант Музыкальная транскрипция при помощи методов машинного обучения Презентация (pdf)
1 октября 2014 Остапец Андрей, аспирант Особенности работы с большими данными Презентация (pdf)
8 октября 2014 Рыжков Александр, 5-й курс Язык программирования Julia Презентация (pdf), коды (zip)
15 октября 2014 Славнов Константин, 4-й курс Анализ соцсетей Презентация (pdf)
22 октября 2014 Рысьмятова Анастасия, 3-й курс Основы эконометрики ---
29 октября 2014 Кудрявцев Георгий, 3-й курс Закон Бенфорда ---
5 ноября 2014 Харациди Олег, 5-й курс Инструменты для хранения и обработки больших данных, разработанные в Google ---
12 ноября 2014 Нижибицкий Евгений, аспирант Рассказ про конкурс Avito по поиску контактной информации на изображениях Презентация (pdf), отчет (pdf), cтраница конкурса
19 ноября 2014 Остапец Андрей, аспирант Иерархическая классификация текстов. Конкурс LSHTC1 Презентация (pdf), IPython notebook (zip)
26 ноября 2014 Нижибицкий Евгений, аспирант Традиционный доклад про Deep Learning Презентация (pdf) на Яндекс.Диске
3 декабря 2014 Вихрева Мария, 3-й курс Отбор признаков в графе Презентация (pdf), статья (pdf)
Рыжков Александр, 5-й курс Ансамблирование алгоритмов машинного обучения Презентация (pdf)
10 декабря 2014 Харациди Олег, 5-й курс Анализ сообщений в Twitter ---
17 декабря 2014 Славнов Константин, 4-й курс Алгоритмы детектирования сообществ в социальных сетях ---
16 февраля 2015 Рысьмятова Анастасия, 3-й курс Выявление мошенничества с кликами в интернет-рекламе Статья (pdf)
2 марта 2015 Трофимов Михаил, 5-й курс Факторизационные машины Статья 2010 г. (pdf), статья 2013 г. (pdf)
Кудрявцев Георгий, 3-й курс Сверточные сети и метод водораздела для семантической сегментации RGBD-видео Статья (pdf)
16 марта 2014 Гущин Александр, 4-й курс Рассказ про конкурс АХА по выявлению поездок на машине с «неродным» водителем Страница конкурса на kaggle.com
23 марта 2014 Дьяконов Александр, руководитель Спектральная теория графов
30 марта 2015 Рыжков Александр, 5-й курс Deep plankton learning - road to the top


Заседния в предыдущих семестрах:

Текущие задания участников спецсеминара

Участник Задание (каждый сам заполняет свою ячейку) Комментарий
Нижибицкий Евгений (А1) Обзор статей с последних конференций, реализация алгоритмов транскрипции
Остапец Андрей (А1) Подготовка доклада по иерархической классификации текстов
Рыжков Александр (517) Реализация алгоритма для дипломной работы
Харациди Олег (517) Стажировка в Google Switzerland
Славнов Константин (417) Исследование алгоритмов выделения сообществ в социальных сетях
Кудрявцев Георгий (317) Обзор статей в журнале Journal of Machine Learning Research
Рысьмятова Анастасия (317) Обзор статей в журнале Journal of Machine Learning Research
Вихрева Мария (317) Обзор статей в журнале Journal of Machine Learning Research

Возможные темы для будущих докладов

Источник Пояснение Возможные темы
статьи журнала Доклады по статьям журнала Journal of Machine Learning Research
ссылки Ансамблирование алгоритмов
Закон Бенфорда, пример статьи [для младшекурсников] Закон Бенфорда (суть, найти статьи с иллюстрациями, отклонения от закона и т.п.)
взять лекции у преподавателя [для младшекурсников] Эконометрика (обзор: модели, методы, теоремы)
Mining of Massive Datasets Много актуальных тем - доклады прямо по главам книги. Необходимо посмотреть также дополнительную литературу.
Kaggle Как всегда - обзор свежих интересных задач.
pca.narod.ru Много материалов про многомерный метод главных компонент. Тем - куча. Можно походить по ссылкам - посмотреть смежные области.
julia tags Обзор по современным языкам программирования для анализа данных. Особенно интересен новый язык Julia. Надо написать небольшие программки на разных языках. Сравнить производительность. Как доп. источник используйте гугл с запросами типа Julia data mining.
hp Kleinber Много разных интересных статей и книг по графам, соцсетям, играм и т.п. В докладе можно изложить содержание 1-3 статей.
гугл: multi-dimensional sparse matrix, multi-dimensional sparse svd Всё, что касается решения задач с факторными признаками. Многомерный метод SVD: алгоритмы и приложения
Twitter Data Analytics (pdf) Книгу следует рассматривать лишь как первоначальный источник. В докладе желательно более подробно осветить темы. Есть два разных подхода: осветить технику или математический аппарат. Анализ сообщений в твитере

Участники спецсеминара

Год выпуска Участники
2015

Рыжков Александр

Харациди Олег

2015 бак

Славнов Константин

2016 бак

Кудрявцев Георгий

Рысьмятова Анастасия

Вихрева Мария

аспиранты 1 г.о.

Нижибицкий Евгений

Остапец Андрей

Выпускники спецсеминара

Год выпускаВыпускники
Аспирант, 2010

Карпович Павел

  • Карпович П. А. k-сингулярные системы точек в пространстве l1 // Сборник тезисов XVI Международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов-2009», секция «Вычислительная математика и кибернетика», М: МАКС Пресс, 2009. — C.34.
  • Карпович П. А. Эффективная реализация алгоритмов распознавания образов // Журнал вычислительной математики и математической физики, 2009, Т. 49, № 8. C.1510-1516.
  • Карпович П. А. О задаче разделения системы точек в пространсте l1 на подсистемы с невырождеными матрицами попарных расстояний // Тезисы конференции МФТИ, Секция проблем интеллектуального анализа данных, распознавания и прогнозирования. — М.: ГОУ ВПО «Московский физико-технический институт (государственный университет)», 2009. — С. 52.
  • Карпович П. А., Дьяконов А. Г. Критерий k-сингулярности систем точек в алгебраическом подходе к распознаванию // 14-я Всероссийская конференция «Математические методы распознавания образов» Владимирская обл., г. Суздаль, 21-26 сентября 2009 г.: Сборник докладов. — М. МАКС Пресс, 2009. С. 41-44.
  • Карпович П.А. Разделение системы точек на подмножества с невырожденными матрицами попарных расстояний // Материалы XVII Международной конференции студентов и аспирантов по фундаментальным наукам «Ломоносов 2010». – М.: Изд. отдел ВМиК МГУ, МАКС Пресс, 2010. – С. 87-88.
  • Карпович П.А. Критерии k-сингулярности и разделение 1-сингулянрных систем // Вестник Московского университета. Секция 15. “Вычислительная математика и кибернетика” – 2010. № 4.
  • Карпович П.А. Дьяконов А.Г. K-сингулярные системы точек, приложения в алгебраическом подходе к распознаванию // Тезисы докладов Международной научной конференции ИОИ-8 Кипр, Пафос - 2010.

Диссертация: «K-сингулярные системы точек в алгебраическом подходе к распознаванию образов» (2010, успешно защищена 18.02.2011 по специальности 01.01.09).

2014

Нижибицкий Евгений

Остапец Андрей

Фонарев Александр

Ромов Петр Алексеевич

  • раздолбай
2013

Бобрик Ксения

  • Тема работы «Прогнозирование временных рядов».

Ермушева Александра

Кириллов Александр

  • Курсовая работа «Матричное разложение в задаче анализа текстов».
  • Дипломная работа «Дизъюнктивные нормальные формы специального вида для функций с малым количеством нулей».
  • Тема преддипломной практики «Задача оптимизации и моделирования при настройке рекомендательной системы».
  • Второе место на конкурсе Интернет-математика «Relevance Prediction Challenge» (лучший результат среди российских участников).
  • Figurnov M., Kirillov A. Linear combination of random forests for the Relevance Prediction Challenge — 2012.
  • Кириллов А. Н. Предсказание связности графа. // Сборник тезисов XIX Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов-2012». Секция «Вычислительная математика и кибернетика». М.: МАКС Пресс, 2012, с. 101—102.
  • Кириллов А. Н. Сравнение методов предсказания появления связей в графе. // Сборник докладов 9-й международной конференции «Интеллектуализация обработки информации-2012», М: Торус Пресс, 2012. — С. 629—632.
  • Фигурнов М. В., Кириллов А. Н. Линейная комбинация случайных лесов в задаче предсказания релевантности документов // Сборник докладов 9-й международной конференции «Интеллектуализация обработки информации-2012», М: Торус Пресс, 2012. — С. 648—651.

Кондрашкин Дмитрий (перевёлся на другой спецсеминар)


Фигурнов Михаил

  • Курсовая работа «Метрические критерии k-сингулярности».
  • Дипломная работа «Системы точек с вырожденными матрицами попарных расстояний».
  • Тема преддипломной практики «Технология разработки рекомендательных систем».
  • Второе место на конкурсе Интернет-математика «Relevance Prediction Challenge» (лучший результат среди российских участников).
  • Figurnov M., Kirillov A. Linear combination of random forests for the Relevance Prediction Challenge — 2012.
  • Фигурнов М. В. Линейная комбинация случайных лесов в задаче предсказания релевантности документов. // Сборник тезисов XIX Международной научной конференции студентов, аспирантов и молодых ученых «Ломоносов-2012». Секция «Вычислительная математика и кибернетика». М.: МАКС Пресс, 2012, с. 107—109.
  • Фигурнов М. В., Кириллов А. Н. Линейная комбинация случайных лесов в задаче предсказания релевантности документов // Сборник докладов 9-й международной конференции «Интеллектуализация обработки информации-2012», М: Торус Пресс, 2012. — С. 648—651.
2012

Платонова Елена

2010

Ахламченкова Ольга

  • Дипломная работа «Машинное обучение для ранжирования документов».

Токарева (Одинокова) Евгения

2009

Власова Юлия

  • Дипломная работа «Генерация признаков в задаче классификации сигналов» (PDF, 929 КБ).
  • Власова Ю. В. Применение генетических алгоритмов в задаче классификации сигналов (приложение в BCI) // Сборник тезисов XVI Международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов-2009», секция «Вычислительная математика и кибернетика», М: МАКС Пресс, 2009. — C.17.
  • Власова Ю. В. Применение генетических алгоритмов в задаче классификации сигналов (приложение в BCI) // Доклады 14-й Всероссийской конференции «Математические методы распознавания образов», М.: МАКС Пресс, 2009, С. 96-99.

Логинов Вячеслав

  • Дипломная работа «Прогнозирование временных рядов с помощью рекуррентных нейросетей с откликом».

Фёдорова Валентина

  • Дипломная работа «Локальные методы прогнозирования временных рядов».
  • Федорова В. П. Локальные методы прогнозирования временных рядов // Сборник тезисов XVI Международной научной конференции студентов, аспирантов и молодых учёных «Ломоносов-2009», секция «Вычислительная математика и кибернетика», М: МАКС Пресс, 2009. — C.87.

Чучвара Алексндра (бакалавр)

2008

Ломова Дарья

  • Дипломная работа «Выделение закономерностей во временных рядах методом анализа главных компонент».

Вершкова Ирина

  • Дипломная работа «Локальная и глобальная согласованность в интеллектуальном анализе данных».
2007

Кнорре Анна

  • Дипломная работа «Надежность алгоритмов распознавания, основанных на синтезе дизъюнктивных нормальных форм».

Карпович Павел

  • Дипломная работа «Эффективная реализация алгоритмов распознавания образов».

Сиваченко Евгений

  • Дипломная работа «Нейросетевой поиск логических закономерностей».
2006

Ховратович (Курятникова) Татьяна

  • Дипломная работа «Критерии корректности в задачах распознавания образов с малым числом признаков».
  • Курятникова Т. С. Критерии корректности алгебраического и линейного замыкания АВО для малых размерностей // Материалы XII Международной конференции студентов, аспирантов и молодых учёных «Ломоносов», секция «Вычислительная математика и кибернетика». М.: Изд. отд. ВМиК МГУ, 2006. — c. 32-33.

Мошин Николай

  • Дипломная работа «Эффективная реализация алгоритмов решения задачи выполнимости».
2005

Каменева Наталия

  • Дипломная работа «Эффективные логические алгоритмы распознавания, основанные на синтезе ДНФ».

Силкин Леонид

  • Дипломная работа «Оценка разделяющей способности признаков при кодировании информации в задачах распознавания».

Некоторые решаемые прикладные задачи

  • Прогнозирование временных рядов По характеристикам процесса в прошлом предсказать поведение в будущем. Знание о прошлом может быть неполным или ошибочным. Типичный пример: прогнозирование денежных сумм, которые будут сниматься с банкомата в течение следующей недели.
  • Классификация технических сигналов и сигналов головного мозга По описанию изменения некоторой характеристики процесса необходимо определить её класс. Например, по электрокортикограмме определить ментальное состояние человека. При этом обучающая выборка (данные, которые у нас есть) была собрана достаточно давно, а тестирование алгоритма будет проводиться потом (при изменённых внешних условиях, а следовательно, при изменённых характеристиках данных).
  • Фильтрация спама Настроить спам-фильтр на некотором универсальном обучающем множестве (данных спам-ловушек) так, чтобы он хорошо работал на компьютере конкретного пользователя (без дополнительной донастройки).
  • Иерархическая классификация текстов Написать алгоритм автоматической категоризации документов. Например, новостные рассылки необходимо распределить по каталогам «спорт/футбол», «спорт/биатлон», «музыка/концерты», «музыка/рок/исполнители» и т. д.
  • Ранжирование документов на основе обучающего множества Написать алгоритм, который оценивает релевантность документа поисковому запросу. Для фиксированного запроса упорядочить документы (используя их признаковые описания) так, чтобы порядок отражал «адекватность» запроса.
  • Прогноз связности графа социальной сети Предсказать изменения динамического графа социальной сети, в частности, появление новых рёбер.
  • Прогнозирование успешности грантов и проектов По описанию заявки оценить перспективность выполнения данного проекта.
  • Разработка рекомендательного алгоритма, который делает актуальные предложения купить какой-то товар, воспользоваться услугой или прочитать материал.
  • Предсказывание визитов покупателей и сумм покупок для сети супермаркетов Разработка алгоритма, который предсказывает дату первого визита и сумму покупки каждого клиента.
  • Оценка фотографий по метаданным Прогноз «интересности» фото-материалов на основе анализа названия, описания, GPS-координат съёмки и т.п.
  • Задача кредитного скоринга Прогнозирование надёжности клиента банка по обязательствам выплаты процентов кредита.