Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 074, весна 2013
Материал из MachineLearning.
Задачи
Название задачи | Автор | Ссылка | MAIPVTDCHSJ |
---|---|---|---|
Определение напечатанного изображения | Пушняков Алексей | [1] | MAIPVTDCHSJ |
Сравнение быстрых алгоритмов кластеризации | Катруца Александр | [2] | MAIPVTDCHS |
Векторная авторегрессия и управление макроэкономическими показателями | Кащеева Мария | [3] | MAIPVTDCHS |
Разметка библиографических записей с помощью логических алгоритмов | Рыскина Мария | [4] | MAIPVTDCHS |
Определение точной границы зрачка | Чинаев Николай | [5] | MAIPV.DCHS |
Векторная авторегрессия и управление макроэкономическими показателями | Гринчук Олег | [6] | MAIPVTD.HS |
Порождение нейронных сетей с экспертно-заданными функциями активации | Перекрестенко Дмитрий | [7] | MAIPVTDСHS |
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей | Яшков Даниил | [8] | MAI.VTD.HS |
Инвариантные преобразования в задачах локального прогнозирования | Костин Александр | [9] | MAI.VT..HS |
Алгоритм генетического программирования для решения задачи прогнозирования | Воронов Сергей | [10] | MAIPVTDC.S |
Группировка номинальных переменных в задачах банковского кредитного скоринга | Митяшов Андрей | [11] | MAIPVTDCHS |
Моделирование процесса обучения и забывания при оценке качества производства | Неклюдов Кирилл | [12] | MAI...DC.S |
Обзор алгоритмов упрощения алгебраических выражений | Шубин Андрей | [13] | MAIPVTD.S |
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии | Ибраимова Айжан | [14] | MAIP.TD... |
Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов | Бырдин Александр | [15] | MAI..TD..S |
Визуализация матрицы парных расстояний в тематическом моделировании | Вдовина Евгения | [16] | MAI..TDC.S |
Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов | Антипова Наташа | [17] | MAIP.T...S |
Расписание
Дата | Что делаем | Результат для обсуждения | Код | |
---|---|---|---|---|
Март | 7 | Выбрана задача, рецензент. | Запись в ML. | |
14 | Выбрана задача, найдены базовые публикации, они в bib. | Аннотация, 600 знаков. | Annotation | |
21 | По собранной литературе написано введение; найдены данные. | Введение, примерно одна страница. | Introduction | |
28 | Поставлена задача, Поставлена задача, собраны или написаны все необходимые алгоритмы. | Постановка задачи, полстраницы. | Problem | |
Апрель | 4 | Поставлен вычислительный эксперимент, получены первые результаты. | Визуализация данных. | Visualizing |
11 | Описание алгоритма. | Алгоритмическая часть (второй / третий раздел). | Theory | |
18 | Теоретическая часть и практика. Заключение, план эксперимента, список рисунков. | Статья в черновом варианте с заключением и поставленным экспериментом. | Document | |
25 | Завершение вычислительного эксперимента. | Описание эксперимента и анализ ошибок. | Comp | |
Май | 16 | Контрольная точка - показ статьи в целом. | Статья. | cHeck |
~30 | Доработанная статья, доклад, обсуждение. | Экзамен. | Show, Journal, Review |
Оценки
База
Код | A | I | P | V | T | D | C | HSJ | R | M |
Балл | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0-3 | .5 | .5 |
Кумулятивно | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8-10 | 10 | 10 |
Статистика
Что-то | Читаемое | ML.ru | Статья | ||||
3 | 4 | 5 | 6 | 6 | 8 | 9 | 10 |
Черновой список задач
Задача 2. Surname2013MassProduction (*eng)
- Название. Порождение и оптимизация логических описаний при построении производственных линий.
- Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм и протестировать его на синтетических данных.
- Данные. Требуется создать.
- Литература. Нужен поиск (скорее всего немецких публикаций).
- Предлагаемый алгоритм. Обсуждается.
- Базовый алгоритм. Нет.
Задача 3. Surname2013LearnForget (eng)
- Название. Моделирование процесса обучения и забывания при оценке качества производства.
- Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
- Данные. Данные по скорости и качеству сборки бумажных самолетиков.
- Литература. Нужно искать.
- Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
- Базовый алгоритм. Регрессионная модель в прилагаемой статье.
Задача 4. Surname2013GeneticProg
- Название. Алгоритм генетического программирования для решения задачи прогнозирования.
- Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП и с нейронными сетями.
- Данные. Тестовый набор задач, взять на UCI или на Полигоне.
- Литература. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
- Предлагаемый алгоритм. ГП.
- Базовый алгоритм. ГП, нейронные сети.
Задача 5. Surname2013Simplify
- Название. Обзор алгоритмов упрощения алгебраических выражений.
- Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
- Данные. Собрать тестовую коллекцию выражений.
- Литература. Graph rewriting.
- Предлагаемый алгоритм. Р/С, сравнение алгоритмов.
Задача 6. Surname2013RedListExplanation
- Название. Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
- Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для экспертов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими экспертным данным и "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
- Данные. Экспертные оценки краснокнижных видов.
- Литература. Литература по алгоритмам метрической классификации.
- Предлагаемый алгоритм. Метод или алгоритм, который сообщает эксперту почему (sic!) объект не попал в предполагаемый экспертом класс.
Задача 7. Surname2013RedListClassification
- Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
- Проблема. Применить решающее дерево к экспертным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
- Данные. Экспертные оценки краснокнижных видов.
- Литература. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.
Задача 11. Surname2013Invaraint4LocalForecast
- Название. Инвариантные преобразования в задачах локального прогнозирования.
- Проблема. Совместить алгоритмы инвариантного преобразования времени и амплитуды прогнозируемых временных рядов.
- Данные. Временные ряды измерения пульсовой волны.
- Литература. Найти, избежать тривиальных ссылок.
Задача 8. Surname2013PlausibleExpert
- Название. Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов.
- Проблема. Исследование взаимосвязи биржевых цен на основные инструменты и железнодорожных грузоперевозок.
- Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
- Литература. Публикации по CCM.
- Предлагаемый алгоритм. Модификации ССМ.
Задача 9. Surname2013DeepLearning
- Название. Порождение нейронных сетей с экспертно-заданными функциями активации.
- Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления и цен на электроэнергию.
- Данные. Посуточные данные за три года.
- Литература. Deep Learning.
- Предлагаемый алгоритм. Построение нейронной сети и оценка ее параметров.
Задача 16. Surname2013ScoringSelection
- Название. Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии.
- Проблема. С помощью генетического алгоритма найти информативные объекты и признаки.
- Данные. Данные по потребительским кредитам.
- Литература. -
Задача 10. Surname2013ScoringFeatureSelection
- Название. Группировка номинальных переменных в задачах банковского кредитного скоринга.
- Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
- Данные. Исторические данные по кредитам наличностью.
- Литература. SAS, найти еще.
Задача 15. Surname2013InverseVAR
- Название. Векторная авторегрессия и управление макроэкономическими показателями.
- Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
- Данные. Макроэкономические показатели России за последние 16 лет.
- Литература. Работы С.А. Айвазяна.
Задача 12. Surname2013DistanceVisualizing
- Название. Визуализация матрицы парных расстояний в тематическом моделировании.
- Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
- Данные. Тезисы конференции EURO.
- Литература. Зиновьев на ML, литература по теме.
- Предлагаемый алгоритм. PCA.
- Базовый алгоритм. Алгоритм с минимизацией энергетического критерия.
Задача 13. Surname2013RhoNets
- Название. Сравнение быстрых алгоритмов кластеризации.
- Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей и быстрый алгоритм $k$-средних.
- Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
- Литература. $k$-средних, $\varepsilon$-сети.
- Предлагаемый алгоритм. $\rho$-сети.
- Базовый алгоритм. $k$-средних.
Задача 17. Surname2013FeatureSelection
- Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
- Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
- Данные. Синтетические.
- Литература. Леонтьева/Стрижов, поискать современные обзоры.
Задача 1. Surname2013Txt2Bib
- Название. Разметка библиографических записей с помощью логических алгоритмов.
- Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений и выбран адекватный алгоритм.
- Данные. В MLAlgorithms.
- Литература. Работа А. Ивановой и все, что есть по теме за последние два года.
- Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
- Базовый алгоритм. Тупиковые покрытия.
Задача 14. Surname2013FindTheFormula (Risky)
- Название. Алгоритм поиска текстовых структур в документе.
- Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
- Данные. Синтетические, коллекция MLAlgorithms.
- Литература. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.
Задача 18. Surname2013ScannedImage (Image)
- Название. Определение типа бланка.
- Проблема. Определить тип бланка по скану.
- Данные. Набор изображений в TIF.
Задача 19. Surname2013SpectrumImage (Image)
- Название. Определение напечатанного изображения.
- Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
- Данные. Набор изображений в JPG, отнесенных в два класса.
Домашнее задание-3 (пробное программирование)
- Выбрать одну из задач, написать свою фамилию напротив задачи.
- В папке MLAlgorithms/Example2013Code cоздать папку Surmame2013Title.
- Сохранить туда код (и графики, если задача предполагает).
- Графики оформлять в соответствии с рекомендациями (достаточно файла PNG).
- Предлагается руководствоваться стилевыми рекомендациями (в частности, назвать первый файл main или demoTitle) -- этими и |этими.
- Срок выполнения работ - до следующей лекции.
- Каждая задача может занимать от двух до шести часов. Задачи нужны, чтобы почувствовать код.
Задача | Кто делает |
---|---|
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше? | Митяшов Андрей |
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма? | Неклюдов Кирилл |
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. | Рыскина Мария |
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. | Шубин Андрей |
Разобраться как работает web-соединение и regexp. Сделать поисковый запрос по теме и сверстать из нее запись BibTeX. | |
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку? | Воронов Сергей |
Повернуть и увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам. | Антипова Наташа |
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? | Вдовина Евгения |
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). | Гринчук Олег |
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике. | Пушняков Алексей |
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике. | Кащеева Мария |
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. | Ибраимова Айжан |
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. | Яшков Даниил |
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? | |
Создать несколько групп точек на плоскости и выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера. | Перекрестенко Дмитрий |
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить и проиграть определенную ноту. | |
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно. | Бырдин Александр |
Показать разницу в скорости выполнения матричных операций и операций в цикле. Показать эффективность параллельных вычислений (parfor и другие). | Катруца Александр |
Предложить варианты визуализации четырехмерных векторов и пространств. Сравнить их со встроенной функцией. | |
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга. | Чинаев Николай |
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат. | Костин Александр |