Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 074, весна 2013
Материал из MachineLearning.
(Различия между версиями)
(→Задачи) |
(→Задачи) |
||
Строка 100: | Строка 100: | ||
| | | | ||
|M | |M | ||
- | | | + | |} |
== Расписание == | == Расписание == |
Версия 06:43, 14 марта 2013
Задачи
Название задачи | Автор | Ссылка | Комментарии |
---|---|---|---|
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации | Медведникова Мария | [1] | AIPVDTCHSJRZ |
Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов. | Антипова Наташа | M? | |
Группировка номинальных переменных в задачах банковского кредитного скоринга. | Митяшов Андрей | [2] | M |
Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии. | Ибраимова Айжан | [3] | M |
Векторная авторегрессия и управление макроэкономическими показателями. | Гринчук Олег | [4] | M |
Векторная авторегрессия и управление макроэкономическими показателями. | Кащеева Мария | [5] | M |
Инвариантные преобразования в задачах локального прогнозирования. | Костин Александр | [6] | M |
Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов. | Бырдин Александр | [7] | M |
Алгоритм генетического программирования для решения задачи прогнозирования. | Воронов Сергей | M | |
Порождение нейронных сетей с экспертно-заданными функциями активации. | Перекрестенко Дмитрий | M | |
Разметка библиографических записей с помощью логических алгоритмов | Рыскина Мария | [8] | M |
Обзор алгоритмов упрощения алгебраических выражений. | Шубин Андрей | M | |
Сравнение быстрых алгоритмов кластеризации. | Катруца Александр | M | |
Определение типа бланка. | Чинаев Николай | . | |
Визуализация матрицы парных расстояний в тематическом моделировании | Вдовина Евгения | [9] | M |
Моделирование процесса обучения и забывания при оценке качества производства. | Неклюдов Кирилл | [10] | M |
Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей. | Яшков Даниил | [11] | M |
Определение напечатанного изображения | Пушняков Алексей | M |
Расписание
Дата | Что делаем | Результат для обсуждения | Код | |
---|---|---|---|---|
Март | 7 | Выбрана задача, рецензент. | Запись в ML. | |
14 | Выбрана задача, найдены базовые публикации, они в bib. | Аннотация, 600 знаков. | Annotation | |
21 | По собранной литературе написано введение; найдены данные. | Введение, примерно одна страница. | Introduction | |
28 | Поставлена задача, Поставлена задача, собраны или написаны все необходимые алгоритмы. | Постановка задачи, полстраницы. | Problem | |
Апрель | 4 | Поставлен вычислительный эксперимент, получены первые результаты. | Визуализация данных. | Visualizing |
11 | Описание алгоритма. | Алгоритмическая часть (третий раздел). | Document | |
18 | Теоретическая часть. | Второй раздел. | Theory | |
25 | Завершение вычислительного эксперимента. | Описание эксперимента и анализ ошибок. | Comp | |
Май | 15 | Контрольная точка - показ статьи в целом. | Статья. | cHeck |
26 | Доработка статьи; доклад, первая группа. | Доклад. | Show | |
26 | Доклад, вторая группа. | Подача статьи в журнал. | Journal, Review |
Черновой список задач
Задача 2. Surname2013MassProduction (*eng)
- Название. Порождение и оптимизация логических описаний при построении производственных линий.
- Проблема. Требуется поставить задачу синтеза допустимых суперпозиций, разработать алгоритм и протестировать его на синтетических данных.
- Данные. Требуется создать.
- Литература. Нужен поиск (скорее всего немецких публикаций).
- Предлагаемый алгоритм. Обсуждается.
- Базовый алгоритм. Нет.
Задача 3. Surname2013LearnForget (eng)
- Название. Моделирование процесса обучения и забывания при оценке качества производства.
- Проблема. Найти адекватную регрессионную модель, описывающую деятельность группы людей.
- Данные. Данные по скорости и качеству сборки бумажных самолетиков.
- Литература. Нужно искать.
- Предлагаемый алгоритм. Процедура анализа регрессионных остатков.
- Базовый алгоритм. Регрессионная модель в прилагаемой статье.
Задача 4. Surname2013GeneticProg
- Название. Алгоритм генетического программирования для решения задачи прогнозирования.
- Проблема. Создать алгоритм генетического программирования, решающий проблемы, названные Иваном Зелинкой. Предложить способ тестирования получаемых моделей, организовать скользящий контроль. Сравнить работу его на тестовом наборе задач с работой других алгоритмов ГП и с нейронными сетями.
- Данные. Тестовый набор задач, взять на UCI или на Полигоне.
- Литература. Zelinka, Oplatkova, Vladislavleva; найти работы последних лет по этой теме. Особенно по тестированию этих алгоритмов.
- Предлагаемый алгоритм. ГП.
- Базовый алгоритм. ГП, нейронные сети.
Задача 5. Surname2013Simplify
- Название. Обзор алгоритмов упрощения алгебраических выражений.
- Проблема. Требуется найти литературу по алгоритмам, упрощающим выражения, сравнить алгоритмы, запрограммировать алгоритм, предложенный в работе Рудой/Стрижов.
- Данные. Собрать тестовую коллекцию выражений.
- Литература. Graph rewriting.
- Предлагаемый алгоритм. Р/С, сравнение алгоритмов.
Задача 6. Surname2013RedListExplanation
- Название. Интерпретация экспертных оценок видов Красной книги РФ путем отбора эталонных (представительных) объектов.
- Проблема. Отбор эталонных объектов (алгоритм STOLP). Этот алгоритм может быть интересен для экспертов: он быстро находит шумовые объекты, которых в наших терминах считаются противоречащими экспертным данным и "лежащими не в своем классе", а также отбирает эталонные объекты, которые также любопытно интерпретируются. С математической точки зрения интересно, во-первых, понаблюдать за разными метриками (обобщениями расстояния Хэмминга) и, самое главное, надо обобщить формулу отступа (margin) на случай монотонных классов, видимо, введя весовую функцию объектов.
- Данные. Экспертные оценки краснокнижных видов.
- Литература. Литература по алгоритмам метрической классификации.
- Предлагаемый алгоритм. Метод или алгоритм, который сообщает эксперту почему (sic!) объект не попал в предполагаемый экспертом класс.
Задача 7. Surname2013RedListClassification
- Название. Алгоритм монотонной классификации объектов, описанных в ранговых шкалах.
- Проблема. Применить решающее дерево к экспертным оценкам угрожаемости краснокнижных видов. Сравнить с ранее предложенными алгоритмами. Обосновывать операции с ранговыми признаками, ввести обобщение понятия информативности на случай монотонных классов, видимо, сделать обобщение гипергеометрического распределения.
- Данные. Экспертные оценки краснокнижных видов.
- Литература. Нужно постараться избежать ссылок на тривиальные источники. Поискать похожие работы в иностранных журналах.
Задача 11. Surname2013Invaraint4LocalForecast
- Название. Инвариантные преобразования в задачах локального прогнозирования.
- Проблема. Совместить алгоритмы инвариантного преобразования времени и амплитуды прогнозируемых временных рядов.
- Данные. Временные ряды измерения пульсовой волны.
- Литература. Найти, избежать тривиальных ссылок.
Задача 8. Surname2013PlausibleExpert
- Название. Алгоритм оценивания достоверности экспертных суждений о взаимосвязи временных рядов.
- Проблема. Исследование взаимосвязи биржевых цен на основные инструменты и железнодорожных грузоперевозок.
- Данные. Временные ряды за 1.5 года. Но лучше подобрать синтетический пример.
- Литература. Публикации по CCM.
- Предлагаемый алгоритм. Модификации ССМ.
Задача 9. Surname2013DeepLearning
- Название. Порождение нейронных сетей с экспертно-заданными функциями активации.
- Проблема. Требуется поднять современное состояние области DeepLearning, запрограммировать алгоритм, протестировать на задаче прогнозирования объемов потребления и цен на электроэнергию.
- Данные. Посуточные данные за три года.
- Литература. Deep Learning.
- Предлагаемый алгоритм. Построение нейронной сети и оценка ее параметров.
Задача 16. Surname2013ScoringSelection
- Название. Алгоритмы переборного поиска наиболее информативных объектов и признаков в логистической регрессии.
- Проблема. С помощью генетического алгоритма найти информативные объекты и признаки.
- Данные. Данные по потребительским кредитам.
- Литература. -
Задача 10. Surname2013ScoringFeatureSelection
- Название. Группировка номинальных переменных в задачах банковского кредитного скоринга.
- Проблема. Создать генетический алгоритм снижения размерности признакового пространства.
- Данные. Исторические данные по кредитам наличностью.
- Литература. SAS, найти еще.
Задача 15. Surname2013InverseVAR
- Название. Векторная авторегрессия и управление макроэкономическими показателями.
- Проблема. Решить обратную задачу прогнозирования. По заданному состоянию экономики задать такое значение управляемых макроэкономических показателей, которое бы привело экономику в желаемое состояние.
- Данные. Макроэкономические показатели России за последние 16 лет.
- Литература. Работы С.А. Айвазяна.
Задача 12. Surname2013DistanceVisualizing
- Название. Визуализация матрицы парных расстояний в тематическом моделировании.
- Проблема. Отобразить тезисы конференции на плоскости с сохранением кластеров.
- Данные. Тезисы конференции EURO.
- Литература. Зиновьев на ML, литература по теме.
- Предлагаемый алгоритм. PCA.
- Базовый алгоритм. Алгоритм с минимизацией энергетического критерия.
Задача 13. Surname2013RhoNets
- Название. Сравнение быстрых алгоритмов кластеризации.
- Проблема. Сравнить алгоритм кластеризации с использованием $\rho$-сетей и быстрый алгоритм $k$-средних.
- Данные. Была выборка аминокислотных последовательностей. Нужна тестовая выборка из UCI или из работ по сравнению.
- Литература. $k$-средних, $\varepsilon$-сети.
- Предлагаемый алгоритм. $\rho$-сети.
- Базовый алгоритм. $k$-средних.
Задача 17. Surname2013FeatureSelection
- Название. Сравнительный анализ алгоритмов выбора признаков: точность, устойчивость, сложность регрессионных моделей.
- Проблема. Построить ряд тестовых задач для сравнения алгоритмов. Предложить алгоритм выбора признаков с анализом ковариационных матриц, основанных на методе Белсли.
- Данные. Синтетические.
- Литература. Леонтьева/Стрижов, поискать современные обзоры.
Задача 1. Surname2013Txt2Bib
- Название. Разметка библиографических записей с помощью логических алгоритмов.
- Проблема. Требуется создать алгоритм разметки текста. Новизна в постановке задачи. Актуальность в том, что будет создана более полная библиотека логических выражений и выбран адекватный алгоритм.
- Данные. В MLAlgorithms.
- Литература. Работа А. Ивановой и все, что есть по теме за последние два года.
- Предлагаемый алгоритм. Выбрать из логических алгоритмов классификации; дополнительно кластеризация.
- Базовый алгоритм. Тупиковые покрытия.
Задача 14. Surname2013FindTheFormula (Risky)
- Название. Алгоритм поиска текстовых структур в документе.
- Проблема. Предложить алгоритм, который бы в документе TeX искал бы формулы, эквивалентные заданной.
- Данные. Синтетические, коллекция MLAlgorithms.
- Литература. Надо искать. Поиск по химическим соединениям в WoK работает неплохо.
Задача 18. Surname2013ScannedImage (Image)
- Название. Определение типа бланка.
- Проблема. Определить тип бланка по скану.
- Данные. Набор изображений в TIF.
Задача 19. Surname2013SpectrumImage (Image)
- Название. Определение напечатанного изображения.
- Проблема. Сделать спектральное преобразование изображения, исследовать спектр.
- Данные. Набор изображений в JPG, отнесенных в два класса.
Задача 20. Surname2013ImageX (Image)
- Название. По запросу.
- Проблема. То же.
- Данные. Набор изображений.
Оценки
База
Код | A | I | P | V | D | T | C | HSJ | R | DZ3 |
Балл | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 0-3 | .5 | .5 |
Кумулятивно | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8-10 | .5 | .5 |
Статистика
Что-то | Читаемое | ML.ru | Статья | ||||
3 | 4 | 5 | 6 | 6 | 8 | 9 | 10 |
Домашнее задание-3 (пробное программирование)
- Выбрать одну из задач, написать свою фамилию напротив задачи.
- В папке MLAlgorithms/Example2013Code cоздать папку Surmame2013Title.
- Сохранить туда код (и графики, если задача предполагает).
- Графики оформлять в соответствии с рекомендациями (достаточно файла PNG).
- Предлагается руководствоваться стилевыми рекомендациями (в частности, назвать первый файл main или demoTitle) -- этими и |этими.
- Срок выполнения работ - до следующей лекции.
- Каждая задача может занимать от двух до шести часов. Задачи нужны, чтобы почувствовать код.
Задача | Кто делает | Результат |
---|---|---|
Дан набор трехэлементных векторов. Первые два элемента нарисовать по осям абсцисс и ординат. Третий элемент отобразить как круг с пропорциональным радиусом. Пропорции подобрать исходя из чувства прекрасного. Сравнить полученный график с plot3. Что лучше? | Митяшов Андрей | |
Дан пятиэлементный вектор. Нарисовать лицо Чернова. Что лучше - лицо Чернова или диаграмма? | Неклюдов Кирилл | |
Разобраться как работает regexp в Матлабе. Сделать код, который выделяет все, что находится внутри скобок некоторого арифметического выражения. | Рыскина Мария | |
Разобраться как работает суперпозиция функций. С помощью функции @ породить все возможные полиномы от n переменных степени не более p. | Шубин Андрей | |
Разобраться как работает web-соединение и regexp. Сделать поисковый запрос по теме и сверстать из нее запись BibTeX. | ||
Дан временной ряд из m + 1 (случайных) точек. Приблизить m его первых точек полиномами степени от 1 до m. Вычислить среднюю ошибку в точках. Какая степень дает наибольшую ошибку? | Воронов Сергей | |
Повернуть и увеличить плоскую фигуру, сделать эффект приближения с вращением по кадрам. | Антипова Наташа | |
Заданы две матрицы. Проверить, есть ли в них пересечение – подматрица? | Вдовина Евгения | |
Дана выборка из нескольких признаков, без целевого вектора Y. Например, эта https://dmba.svn.sourceforge.net/svnroot/dmba/Data/Diabets_LARS.csv Требуется указать тот признак, который хорошо описывается (в терминах линейной регрессии) остальными (такой признак обычно исключают из выборки). | Гринчук Олег | |
Дана выборка, в которой есть несколько выбросов. Известно, что она может быть описана одномерной линейной регрессией. Требуется переборным путем найти выбросы. Показать их на графике. | Пушняков Алексей | |
Дана выборка из двух классов на плоскости. Требуется найти все объекты, которые залезли в чужой класс. Показать их на графике. | Кащеева Мария | |
На вход подается матрица инцидентности дерева. Функция возвращает список (вектор) вершин в порядке их посещения. | Ибраимова Айжан | |
Классифицировать цветы ириса произвольным алгоритмом, нарисовать на плоскости «самую наглядную» пару признаков, указать, что классифицировалось правильно, а что – нет. | Яшков Даниил | |
Дан временной ряд. По его вариационному ряду построить гистограмму из n перцентилей, нарисовать ее. Какое значение временного ряда встречается чаще всего? | ||
Создать несколько групп точек на плоскости и выполнить их кластеризацию, используя любой алгоритм на выбор. Визуализировать полученные кластеры. Посчитать среднее внутрикластерное расстояние для одного кластера. | Перекрестенко Дмитрий | |
Загрузить звуковой ряд, желательно несколько нот фортепиано. Выделить и проиграть определенную ноту. | ||
Загрузить видеоряд. Удалить каждый второй кадр. Обработать по вкусу. Записать обратно. | Бырдин Александр | |
Показать разницу в скорости выполнения матричных операций и операций в цикле. Показать эффективность параллельных вычислений (parfor и другие). | Катруца Александр | |
Предложить варианты визуализации четырехмерных векторов и пространств. Сравнить их со встроенной функцией. | ||
Сгладить временной ряд скользящим средним. Взять несколько окон разной длины и наложить результат на графике друг на друга. | Чинаев Николай | |
Нарисовать поверхность. Каждую точку поверхности заменить медианой от n соседей. Нарисовать результат. | Костин Александр |