Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 074, весна 2013

Материал из MachineLearning.

Перейти к: навигация, поиск


Задачи

Название задачи Автор Ссылка MAIPVTDCHSJ
Определение напечатанного изображения Пушняков Алексей [1] MAIPVTDCHSJ
Сравнение быстрых алгоритмов кластеризации Катруца Александр [2] MAIPVTDCHS
Векторная авторегрессия и управление макроэкономическими показателями Кащеева Мария [3] MAIPVTDCHS
Разметка библиографических записей с помощью логических алгоритмов Рыскина Мария [4] MAIPVTDCHS
Определение точной границы зрачка Чинаев Николай [5] MAIPV.DCHS
Векторная авторегрессия и управление макроэкономическими показателями Гринчук Олег [6] MAIPVTD.HS
Порождение нейронных сетей с экспертно-заданными функциями активации Перекрестенко Дмитрий [7] MAIPVTDСHS
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей Яшков Даниил [8] MAI.VTD.HS
Инвариантные преобразования в задачах локального прогнозирования Костин Александр [9] MAI.VT..HS
Алгоритм генетического программирования для решения задачи прогнозирования Воронов Сергей [10] MAIPVTDC.S
Группировка номинальных переменных в задачах банковского кредитного скоринга Митяшов Андрей [11] MAIPVTDCHS
Моделирование процесса обучения и забывания при оценке качества производства Неклюдов Кирилл [12] MAI...DC.S
Обзор алгоритмов упрощения алгебраических выражений Шубин Андрей [13] MAIPVTD.S
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии Ибраимова Айжан [14] MAIP.TD...
Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов Бырдин Александр [15] MAI..TD..S
Визуализация матрицы парных расстояний в тематическом моделировании Вдовина Евгения [16] MAI..TDC.S
Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов Антипова Наташа [17] MAIP.T...S

Расписание

Дата Что делаем Результат для обсуждения Код
Март 7 Выбрана задача, рецензент. Запись в ML.
14 Выбрана задача, найдены базовые публикации, они в bib. Аннотация, 600 знаков. Annotation
21 По собранной литературе написано введение; найдены данные. Введение, примерно одна страница. Introduction
28 Поставлена задача, Поставлена задача, собраны или написаны все необходимые алгоритмы. Постановка задачи, полстраницы. Problem
Апрель 4 Поставлен вычислительный эксперимент, получены первые результаты. Визуализация данных. Visualizing
11 Описание алгоритма. Алгоритмическая часть (второй / третий раздел). Theory
18 Теоретическая часть и практика. Заключение, план эксперимента, список рисунков. Статья в черновом варианте с заключением и поставленным экспериментом. Document
25 Завершение вычислительного эксперимента. Описание эксперимента и анализ ошибок. Comp
Май 16 Контрольная точка - показ статьи в целом. Статья. cHeck
~30 Доработанная статья, доклад, обсуждение. Экзамен. Show, Journal, Review

Оценки

База

Код A I P V T D C HSJ R M
Балл 1 1 1 1 1 1 1 0-3 .5 .5
Кумулятивно 1 2 3 4 5 6 7 8-10 10 10

Статистика

Что-то Читаемое ML.ru Статья
3 4 5 6 6 8 9 10

Черновой список задач

Задача 2. Surname2013MassProduction (*eng)

  • Название. Порождение и оптимизация логических описаний при построении производственных линий.
  • Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм и протестировать его на синтетических данных.
  • Данные. Требуется создать.
  • Литература. Нужен поиск (скорее всего немецких публикаций).
  • Предлагаемый алгоритм. Обсуждается.
  • Базовый алгоритм. Нет.

Задача 3. Surname2013LearnForget (eng)

  • Название. Моделирование процесса обучения и забывания при оценке качества производства.
  • Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
  • Данные. Данные по скорости и качеству сборки бумажных самолетиков.
  • Литература. Нужно искать.
  • Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
  • Базовый алгоритм. Регрессионная модель в прилагаемой статье.

Задача 4. Surname2013GeneticProg

  • Название. Алгоритм генетического программирования для решения задачи прогнозирования.
  • Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП и с нейронными сетями.
  • Данные. Тестовый набор задач, взять на UCI или на Полигоне.
  • Литература. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
  • Предлагаемый алгоритм. ГП.
  • Базовый алгоритм. ГП, нейронные сети.

Задача 5. Surname2013Simplify

  • Название. Обзор алгоритмов упрощения алгебраических выражений.
  • Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
  • Данные. Собрать тестовую коллекцию выражений.
  • Литература. Graph rewriting.
  • Предлагаемый алгоритм. Р/С, сравнение алгоритмов.

Задача 6. Surname2013RedListExplanation

  • Название. Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
  • Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для экспертов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими экспертным данным и "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
  • Данные. Экспертные оценки краснокнижных видов.
  • Литература. Литература по алгоритмам метрической классификации.
  • Предлагаемый алгоритм. Метод или алгоритм, который сообщает эксперту почему (sic!) объект не попал в предполагаемый экспертом класс.

Задача 7. Surname2013RedListClassification

  • Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
  • Проблема. Применить решающее дерево к экспертным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
  • Данные. Экспертные оценки краснокнижных видов.
  • Литература. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.

Задача 11. Surname2013Invaraint4LocalForecast

  • Название. Инвариантные преобразования в задачах локального прогнозирования.
  • Проблема. Совместить алгоритмы инвариантного преобразования времени и амплитуды прогнозируемых временных рядов.
  • Данные. Временные ряды измерения пульсовой волны.
  • Литература. Найти, избежать тривиальных ссылок.

Задача 8. Surname2013PlausibleExpert

  • Название. Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов.
  • Проблема. Исследование взаимосвязи биржевых цен на основные инструменты и железнодорожных грузоперевозок.
  • Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
  • Литература. Публикации по CCM.
  • Предлагаемый алгоритм. Модификации ССМ.

Задача 9. Surname2013DeepLearning

  • Название. Порождение нейронных сетей с экспертно-заданными функциями активации.
  • Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления и цен на электроэнергию.
  • Данные. Посуточные данные за три года.
  • Литература. Deep Learning.
  • Предлагаемый алгоритм. Построение нейронной сети и оценка ее параметров.

Задача 16. Surname2013ScoringSelection

  • Название. Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии.
  • Проблема. С помощью генетического алгоритма найти информативные объекты и признаки.
  • Данные. Данные по потребительским кредитам.
  • Литература. -

Задача 10. Surname2013ScoringFeatureSelection

  • Название. Группировка номинальных переменных в задачах банковского кредитного скоринга.
  • Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
  • Данные. Исторические данные по кредитам наличностью.
  • Литература. SAS, найти еще.

Задача 15. Surname2013InverseVAR

  • Название. Векторная авторегрессия и управление макроэкономическими показателями.
  • Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
  • Данные. Макроэкономические показатели России за последние 16 лет.
  • Литература. Работы С.А. Айвазяна.

Задача 12. Surname2013DistanceVisualizing

  • Название. Визуализация матрицы парных расстояний в тематическом моделировании.
  • Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
  • Данные. Тезисы конференции EURO.
  • Литература. Зиновьев на ML, литература по теме.
  • Предлагаемый алгоритм. PCA.
  • Базовый алгоритм. Алгоритм с минимизацией энергетического критерия.

Задача 13. Surname2013RhoNets

  • Название. Сравнение быстрых алгоритмов кластеризации.
  • Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей и быстрый алгоритм $k$-средних.
  • Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
  • Литература. $k$-средних, $\varepsilon$-сети.
  • Предлагаемый алгоритм. $\rho$-сети.
  • Базовый алгоритм. $k$-средних.


Задача 17. Surname2013FeatureSelection

  • Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
  • Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
  • Данные. Синтетические.
  • Литература. Леонтьева/Стрижов, поискать современные обзоры.

Задача 1. Surname2013Txt2Bib

  • Название. Разметка библиографических записей с помощью логических алгоритмов.
  • Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений и выбран адекватный алгоритм.
  • Данные. В MLAlgorithms.
  • Литература. Работа А. Ивановой и все, что есть по теме за последние два года.
  • Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
  • Базовый алгоритм. Тупиковые покрытия.

Задача 14. Surname2013FindTheFormula (Risky)

  • Название. Алгоритм поиска текстовых структур в документе.
  • Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
  • Данные. Синтетические, коллекция MLAlgorithms.
  • Литература. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.

Задача 18. Surname2013ScannedImage (Image)

  • Название. Определение типа бланка.
  • Проблема. Определить тип бланка по скану.
  • Данные. Набор изображений в TIF.

Задача 19. Surname2013SpectrumImage (Image)

  • Название. Определение напечатанного изображения.
  • Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
  • Данные. Набор изображений в JPG, отнесенных в два класса.

Домашнее задание-3 (пробное программирование)

  1. Выбрать одну из задач, написать свою фамилию напротив задачи.
  2. В папке MLAlgorithms/Example2013Code cоздать папку Surmame2013Title.
  3. Сохранить туда код (и графики, если задача предполагает).
  4. Графики оформлять в соответствии с рекомендациями (достаточно файла PNG).
  5. Предлагается руководствоваться стилевыми рекомендациями (в частности, назвать первый файл main или demoTitle) -- этими и |этими.
  6. Срок выполнения работ - до следующей лекции.
  7. Каждая задача может занимать от двух до шести часов. Задачи нужны, чтобы почувствовать код.


Задача Кто делает
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше? Митяшов Андрей
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма? Неклюдов Кирилл
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. Рыскина Мария
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. Шубин Андрей
Разобраться как работает web-соединение и regexp. Сделать поисковый запрос по теме и сверстать из нее запись BibTeX.
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку? Воронов Сергей
Повернуть и увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам. Антипова Наташа
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? Вдовина Евгения
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). Гринчук Олег
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике. Пушняков Алексей
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике. Кащеева Мария
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. Ибраимова Айжан
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. Яшков Даниил
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего?
Создать несколько групп точек на плоскости и выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера. Перекрестенко Дмитрий
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить и проиграть определенную ноту.
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно. Бырдин Александр
Показать разницу в скорости выполнения матричных операций и операций в цикле. Показать эффективность параллельных вычислений (parfor и другие). Катруца Александр
Предложить варианты визуализации четырехмерных векторов и пространств. Сравнить их со встроенной функцией.
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга. Чинаев Николай
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат. Костин Александр
Личные инструменты