Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 474, весна 2017
Материал из MachineLearning.
Видео докладов по курсу на канале Machine Learning на Youtube |
Моя первая научная статья
Участвуют эксперты, индивидуальные консультанты и студенты кафедры Интеллектуальные системы ФУПМ МФТИ.
- Описание курса
- Результаты предыдущего курса
- Рекомендуемые учебники
- Видео докладов по курсу на канале Machine Learning на Youtube
- Короткая ссылка на эту страницу: http://bit.ly/2lCr0Yw
Роли
Студент третьего курса очень хочет научиться ставить задачи формально, находить нужную литературу, порождать новые и актуальные идеи и решения задач.
Консультант помогает студенту в пользовании инструментами, отвечает на вопросы по специальности, консультирует выполнение работ, оперативно реагирует на проблемы, проверяет (в среду) результаты, ставит оценки. Предполагается, что консультант сам пишет работу-спутник по этой теме. В конце работы могут быть объединены или выполнены и опубликованы параллельно. По возможности, рекомендуется организовать правки текста студента с целью улучшить стиль изложения таким образом, чтобы студент вносил правки самостоятельно. Возможно, при очной встрече или по скайпу.
Эксперт: поставщик задачи, владелец данных, либо тот, кто гарантирует новизну и актуальность работы.
Результаты
Автор | Тема научной работы | Ссылка | Консультант | Рецензент | Доклад | Буквы | ||
---|---|---|---|---|---|---|---|---|
Гончаров Алексей (пример) | Метрическая классификация временных рядов | code, | Мария Попова | Задаянчук Андрей | BMF | AILSBRCVTDSWH> | ||
Алексеев Василий | Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций | code | Виктор Булатов | Захаренков Антон | BMF | AILSB+RC+V+TDHW | ||
Аникеев Дмитрий | Локальная аппроксимация временных рядов для построения прогностических метамоделей | code | В.В. Стрижов | Смердов Антон | BMF | AILS>B0R0C0V0T0D0H0W0 | ||
Гасанов Эльнур | Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме | code paper | Анастасия Мотренко | Ковалев Дмитрий | BMF | AILSBRCVTDH0W0 | ||
Захаренков Антон | Massively multitask deep learning for drug discovery | code | Мария Попова | Алексеев Василий | BMF | AILSBRCVT>D>H0W0 | ||
Ковалев Дмитрий | Unsupervised representation for molecules | code | Мария Попова | Гасанов Эльнур | BMF | AILSBRCVT>D>H0W0 | ||
Новицкий Василий | Выбор признаков в задачах авторегрессионного прогнозирования биомедицинских сигналов | paper | Александр Катруца | B - F | AILS>B0R0C0V0T0D0H0W0 | |||
Селезнева Мария | Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента | paper | Ирина Ефимова | Шолохов Алексей | BMF | A+IL+SBRCVTDHW | ||
Смердов Антон | Выбор оптимальной модели рекуррентной сети в задачах поиска парафраза | paper | Олег Бахтеев | Дмитрий Аникеев | BMF | AIL+SB+RC>V+M-T>D0H0W0 | ||
Уваров Никита | Оптимальный алгоритм для восстановления динамических моделей | paper | Юрий Максимов | BMF | AILS0B0R0C0V0T0D0H0W0 | |||
Усманова Карина | Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices) | paper | Михаил Карасиков | Иннокентий Шибаев | BMF | AILSBRC+VT+EDH>W | ||
Шибаев Иннокентий | Convex relaxations for multiple structure alignment (synchronization problem for SO(3)) | paper | Михаил Карасиков | Карина Усманова | BMF | AILS-BRCVT>D>H>W | ||
Шолохов Алексей | Помехоустойчивость методов информационного анализа ЭКГ-сигналов | Влада Бунакова | Селезнева Мария | BMF | AILSBRCVTDHW |
Академ или новые
Автор | Тема научной работы | Ссылка | Консультант | Рецензент | Доклад | Буквы | ||
---|---|---|---|---|---|---|---|---|
Кульков Александр | Адаптивные релаксации NP трудных задач через машинное обучение | paper | Юрий Максимов | академ | A>I>L>B0R0C0V0T0D0H0W0 | |||
Калошин Павел | Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных. | Антон Хританков | - MF | AIL-SBRC-VT+D>H>W0 | ||||
Малиновский Григорий | Выбор интерпретируемых мультимоделей в задачах кредитного скоринга | paper | Александр Адуенко | академ B - - | AILS-B>R>C>V>T0D0H0W0 | |||
Плетнев Никита | Детектирование внутреннего плагиата | paper | Рита Кузнецова | академ - - - | A-I-L-S>B0R0C0V0T0D0H0W0 | |||
Гревцев Александр | Параллельные алгоритмы параметрической идентификации потенциала Терсоффа для AlN | Каринэ Абгарян | ||||||
Зайцев Никита | Автоматическая классификация научных статей по кристаллографии | Евгений Гаврилов | ||||||
Дилигул Александр | Определение оптимальных параметров потенциала для модели Rosato-Guillope-Legrand (RGL) по экспериментальным данным и результатам квантово-механических расчетов | Каринэ Абгарян | ||||||
Дарья Фокина | Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов | Алексей Романов | AILSB0R0C0V0T0D0H0W0 |
Расписание
Дата | N | Что делаем | Результат для обсуждения | Код | |
Февраль | 9 | 1 | Организация работы, расписание, инструменты | ||
16 | 2 | ДЗ-1. Выбор задачи | Тема в ML и ссылка на работу в SF помещена напротив фамилии. | ||
23 | 3 | Составить список публикаций по выбранной задаче, найти данные. Написать аннотацию и введение с обзором собранной литературы. | Аннотация (600 знаков), введение (1-2 страницы), список литературы в bib-файле. | Abstract, Introduction, Literature | |
Март | 2 | 4 | Поставить задачу и сделать описание базового алгоритма, подготовить базовый вычислительный эксперимент. | Постановка задачи (0.5-1 страница), описание базового алгоритма. Подготовить доклад 45 сек. | B-talk, Statement |
9 | 5 | Поставить базовый вычислительный эксперимент. Провести первичный анализ работы алгоритма. Показ статьи. | Базовый код, отчет о работе базового алгоритма (кратко). | Basic code, Report | |
16 | 6 | Поставить вычислительный эксперимент на основе предлагаемого алгоритма с учетом предыдущих результатов. | Код, визуализация полученных результатов, анализ ошибки, анализ качества. | Code, Visualization | |
23 | 7 | Описать алгоритм. | Теоретическая и алгоритмическая часть статьи (второй / третий раздел). Подготовить промежуточный доклад со слайдами, 2-3 минуты. | M-talk, Theory | |
30 | 8 | Завершение вычислительного эксперимента. | Описание эксперимента с анализом ошибок. | Error | |
Апрель | 6 | 9 | Описание теоретической части и вычислительного эксперимента. Описание рисунков, выводы, заключение. | Черновой вариант статьи с разделами «Вычислительный экперимент» и «Заключение». | Document |
13 | 10 | Контрольная точка — показ статьи в целом, рецензия. | Статья в варианте для рецензирования. | сHeck, RevieW | |
20 | 11 | Доработка статьи. Подготовка презнтации. | Доработанная статья. | Final show, Slides | |
27 | 12 | Доклады и обсуждение. | Статья подготовлена к подаче в журнал. | Final show, Journal |
Работа и консультации
- Работы сдаются в течение недели.
- Желательна итеративная сдача работ, начинать показ лучше в выходные.
- Дедлайн последней версии работы: среда 6:00am (проверка занимает всю среду).
- Каждый этап работ +1 балл по системе (А--, А-, А, А+, А++). Несделанная работа — A0. Мотивированный перенос работы — знак «A>». Недельное опоздание — знак «-».
Список проектов
Шаблон описания проекта — научной статьи
- Название: Название, под которым статья подается в журнал.
- Задача: Описание или постановка задачи. Желательна постановка в виде задачи оптимизации (в формате argmin). Также возможна ссылка на классическую постановку задачи.
- Данные: Краткое описание данных, используемых в вычислительном эксперименте, и ссылка на выборку.
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты, 3) основной информацией об исследуемой проблеме.
- Базовой алгоритм: Ссылка на алгоритм, с которым проводится сравнение или на ближайшую по теме работу.
- Решение: Предлагаемое решение задачи и способы проведения исследования. Способы представления и визуализации данных и проведения анализа ошибок, анализа качества алгоритма.
- Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
- Авторы: эксперт, консультант.
Задача 1
- Название: Классификация видов деятельности человека по измерениям фитнес-браслетов.
- Задача: По измерениям акселерометра и гироскопа требуется определить вид деятельности рабочего. Предполагается, что временные ряды измерений содержат элементарные движения, которые образуют кластеры в пространстве описаний временных рядов. Характерная продолжительность движения – секунды. Временные ряды размечены метками вида деятельности: работа, отдых. Характерная продолжительность деятельности – минуты. Требуется по описанию временного ряда и кластера восстановить вид деятельности.
- Данные: Временные ряды акселерометра WISDM (Временной ряд (библиотека примеров), раздел Accelerometry).
- Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Исаченко Р.В., Стрижов В.В. Метрическое обучение в задачах многоклассовой классификации временных рядов // Информатика и ее применения, 2016, 10(2) : 48-57. [URL]
- Задаянчук А.И., Попова М.С., Стрижов В.В. Выбор оптимальной модели классификации физической активности по измерениям акселерометра // Информационные технологии, 2016. [URL]
- Motrenko A.P., Strijov V.V. Extracting fundamental periods to segment human motion time series // Journal of Biomedical and Health Informatics, 2016, Vol. 20, No. 6, 1466 - 1476. [URL]
- Ignatov A., Strijov V. Human activity recognition using quasiperiodic time series collected from a single triaxial accelerometer // Multimedia Tools and Applications, 2015, 17.05.2015 : 1-14. [URL]
- Базовой алгоритм: Базовый алгоритм описан в работах [Карасиков, Стрижов: 2016] и [Кузнецов, Ивкин: 2014].
- Решение: Найти оптимальный способ сегментации и оптимальное описание временного ряда. Построить метрическое пространство описаний элементарных движений.
- Новизна:: Соединение двух характеристических времен описания жизни человека, комбинированная постановка задачи.
- Авторы: В.В. Стрижов, М.П. Кузнецов, П.В. Левдик.
Задача 2
- Название: Построение аппроксимирующего описания скалограммы в задаче прогнозирования движений по электрокортикограмме.
- Задача: В рамках решения задачи декодирования сигналов ECoG решается задача классификации движений по временным рядам показаний электродов. Инструментами для извлечения признаков из временных рядов ECoG являются коэффициенты вейвлет-преобразования исследуемого сигнала [Макарчук 2016], на основе которых для каждого электрода строится скалограмма - двумерный массив признаков в пространстве частота-время. Объединение скалограмм для каждого электрода даёт признаки временного ряда в пространственно-частотно-временной области. Построенное таким образом признаковое описание заведомо содержит мультикоррелирующие признаки и является избыточным. Требуется предложить метод снижения размерности признакового пространства.
- Данные: Измерения положений пальцев при совершении простых жестов. Описание экспериментов данные.
- Литература:
- Макарчук Г.И., Задаянчук А.И. Стрижов В.В. 2016. Использование метода частичных наименьших квадратов для декодирования движения руки с помощью ECoG сигналов у обезьян. pdf
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483.
- Базовой алгоритм: PLS
Chen C, Shin D, Watanabe H, Nakanishi Y, Kambara H, et al. (2013) Prediction of Hand Trajectory from Electrocorticography Signals in Primary Motor Cortex. PLoS ONE 8(12): e83534.
- Решение: Для снижения размерности предлагается использовать метод локальной аппроксимации, предложенный в [Кузнецов 2015] использованный для классификации акселерометрических временных рядов [Карасиков 2016].
- Новизна: Предложен новый метод восстановления движений на основе электрокортикограмм.
- Авторы: В.В. Стрижов, А.П. Мотренко
Задача 3
- Название: Multiple Manifold Learning (Joint diagonalization for 3D shapes - AJD on Hessian matrices).
- Задача: Построение оптимального алгоритма для задачи Multiple Manifold Learning. Даны две конформации белка (две третичные труктуры). В окрестности каждого состояния задана модель эластичного тела (колебания структуры в окрестности данных состояний). Задача состоит в построении общей модели эластичного тела для нахождения промежуточных состояний с максимальным совпадением с данными моделями в окрестностях заданных конформаций. Пространство движений эластичного тела задается собственными векторами гессиана. Требуется найти общее low-rank приближение пространства движений двух эластичных тел.
- Данные: Белковые структуры в двойных конформациях из PDB, около 100 наборов из статьи https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4677049/
- Литература: Список научных работ, дополненный 1) формулировкой решаемой задачи, 2) ссылками на новые результаты (недавняя статья, близкая по результатам), 3) основной информацией об исследуемой проблеме.
Tirion, M. M. (1996). Large amplitude elastic motions in proteins from a single-parameter, atomic analysis. Physical Review Letters, 77(9), 1905. Moal, I. H., & Bates, P. A. (2010). {SwarmDock} and the Use of Normal Modes in Protein-Protein Docking. IJMS, 11(10), 3623–3648. https://doi.org/10.3390/ijms11103623
- Базовой алгоритм: AJD algorithm: http://perso.telecom-paristech.fr/~cardoso/jointdiag.html, AJD algorithms implemented as part of Shogun ML toolbox http://shogun-toolbox.org, http://shogun-toolbox.org/api/latest/classshogun_1_1CApproxJointDiagonalizer.html.
- Решение: Вычисление гессианов (C++ код у Сергея), изучение и запуск стандартных алгоритмов совместной диагонализации для первых n нетривиальных собственных векторов, анализ функций потерь, адаптирование стандартного алгоритма для решения исходной задачи.
- Новизна: При помощи простых моделей теории эластичности с одним или несколькими свободными параметрами можно описать тепловые флуктуации в белках. Однако такие модели не описывают переходы между несколькими стабильными конформациями в белках. Целью данной работы является доработка эластичной модели так, чтобы она также описывала пространство конформационных изменений.
- Авторы: Грудинин Сергей, консультант: Карасиков Михаил / Максимов Юрий.
Задача 4
- Название: Convex relaxations for multiple structure alignment (synchronization problem for SO(3)).
- Задача: Найти преобразования для одновременного выравнивания третичных структур белков (простыми словами: найти ортогональные преобразования, совмещающие данные в R^3 молекулы, имеющие одинаковые химические формулы). Если структуры одинаковые (RMSD после выравнивания равно нулю, структуры совмещаются точно), то выравнивать можно попарно. Однако, если это не так, то базовый алгоритм, вообще говоря, не находит оптимум исходной задачи с функцией потерь для одновременного выравнивания.
- Данные: Структуры белков в PDB формате в различных состояниях и системах координат.
- Литература:
- Multiple structural alignment:
- Kearsley.S.K. (1990)7. Comput. Chem., 11, 1187-1192.
- Shapiro., BothaJ.D., PastorA and Lesk.A.M. (1992) Acta Crystallogr., A48, 11-14.
- Diamond,R. (1992) Protein Sci., 1, 1279-1287.
- May AC, Johnson MS, Improved genetic algorithm-based protein structure comparisons: pairwise and multiple superpositions. Protein Eng. 1995 Sep;8(9):873-82.
- Synchronisation problem:
- O. Özyeşil, N. Sharon, A. Singer, ``Synchronization over Cartan motion groups via contraction”, Available at arXiv.
- L. Wang, A. Singer, ``Exact and Stable Recovery of Rotations for Robust Synchronization”, Information and Inference: A Journal of the IMA, 2(2), pp. 145--193 (2013).
- Semidefinite relaxations for optimization problems over rotation matrices J Saunderson, PA Parrilo… - Decision and Control ( …, 2014 - ieeexplore.ieee.org
- Spectral synchronization of multiple views in SE (3) F Arrigoni, B Rossi, A Fusiello - SIAM Journal on Imaging Sciences, 2016 - SIAM
- Robust Rotation Synchronization via Low-rank and Sparse Matrix Decomposition, F Arrigoni, A Fusiello, B Rossi, P Fragneto - arXiv preprint arXiv: …, 2015 - arxiv.org
- Spectral relaxation for SO(2)
- A. Singer, Angular synchronization by eigenvectors and semidefinite programming, Applied and Computational Harmonic Analysis 30 (1) (2011) 20 – 36.
- Spectral relaxation for SO(3)
- M.Arie-Nachimson,S.Z.Kovalsky,I.Kemelmacher-Shlizerman,A.Singer,R.Basri,Global motion estimation from point matches, in: International Conference on 3D Imaging, Modeling, Processing, Visualization and Transmission, 2012, pp. 81–88.
- A. Singer, Y. Shkolnisky, Three-dimensional structure determination from common lines in cryo-em by eigenvectors and semidefinite programming, SIAM Journal on Imaging Sciences 4 (2) (2011) 543– 572.
- Multiple structural alignment:
- Базовой алгоритм: Алгоритм локального (попарного) выравнивания. Kearsley.S.K. (1989) Acta Crystallogr., A45, 208-210 ; Rapid determination of RMSDs corresponding to macromolecular rigid body motions
Petr Popov, Sergei Grudinin, Journal of Computational Chemistry, Wiley, 2014, 35 (12), pp.950-956. <10.1002/jcc.23569> DOI : 10.1002/jcc.23569
- Решение: Два варианта постановки оптимизационных задач (через матрицы поворота и через кватернионы). Релаксация полученных задач выпуклыми, сравнение решений задачи базовым алгоритмом и релаксациями (spectral relaxation, SDP).
- Новизна: Метод, выравнивающий структуры, минимизируя функцию потерь, учитывающую все попарные потери.
- Авторы: Грудинин Сергей, консультант: Карасиков Михаил.
Задача 5
- Название: Локальная аппроксимация временных рядов для построения прогностических метамоделей.
- Задача: Исследуется физическая активность человека по временным рядам - измерениям акселерометра. Целью проекта является создание инструмента для анализа проблемы созания моделей прогнозирования моделей - метамоделей. Исследуется сегмент временного ряда. Требуется спрогнозировать класс сегмента. (Вариант: спрогнозировать окончание сегмента, последующий сегмент, его класс. При этом класс последующего сегмента может отличаться от класса предыдущего).
- Данные: Взять за основу выборку Santa Fe или WISDM (выборки состоят из сегментов со многими элементарными движениями и соответствующими сегментам метками классов), вариант OPPORTUNITY Activity Recognition Challenge.
- Литература:
- Карасиков М.Е., Стрижов В.В. Классификация временных рядов в пространстве параметров порождающих моделей // Информатика и ее применения, 2016. [URL]
- Кузнецов М.П., Ивкин Н.П. Алгоритм классификации временных рядов акселерометра по комбинированному признаковому описанию // Машинное обучение и анализ данных. 2015. T. 1, № 11. C. 1471 - 1483. [URL]
- Базовой алгоритм: [Карасиков 2016]
- Решение: См. описание задачи.
- Новизна: При создании метапрогностических моделей (моделей прогнозирования прогностических моделей) остается открытой проблема использования значений параметров локальных моделей при создании метамоделей. Цель нижеприведенного проекта - создание инструмента для анализа этой проблемы.
- Авторы: В.В. Стрижов
Задача 6
- Название: Выбор оптимальной модели рекуррентной сети в задачах поиска парафраза
- Задача: Задана выборка пар предложений с метками <<похожие>> и <<непохожие>>. Требуется построить рекуррентную сеть небольшой сложности (т.е. с небольшим количеством параметров), доставляющую минимум ошибке классификации пар предложений.
- Данные: Предлагается рассмотреть две выборки: Microsoft Paraphrase Corpus (небольшой набор предложений) и PPDB (набор коротких сегментов, не всегда корректная разметка)
- Литература:
- [1] Пошаговое описание реализации рекуррентной сети LSTM
- [2] Алгоритм прореживания, основанный на построении сети, обладающей минимальной длиной описания
- [3] Optimal Brain Damage
- Базовый алгоритм: В качестве базового алгоритма могут выступать:
- Решение без прореживания
- Решение, описанное в [3]
- Otimal Brain Damage
- Решение: Предлагается рассмотреть метод прореживания, описанный в [3] с блочной матрицей ковариаций: в качестве блоков выступают либо нейроны, либо параметры с группировкой по входным признакам.
- Новизна: Предложенный метод позволит эффективно снижать сложность рекуррентной сети с учетом взаимосвязи между нейронами или входными признаками.
- Авторы: Олег Бахтеев, консультант
Задача 7
- Название: Детектирование внутреннего плагиата
- Задача: Решается задача выявления внутренних заимствований в тексте. Требуется проверить гипотезу о том, что заданный текст написан единственным автором, и в случае ее невыполнения выделить заимствованные части текста. Заимствованием считается часть текста, предположительно написанная другим автором и содержащая характерные отличия от стиля основного автора. Требуется разработать такую стилевую функцию, которая позволяет с высокой степенью достоверности отличить стиль основного автора текста от заимствований.
- Данные: Предлагается рассмотреть корпус PAN-2011, PAN-2016
- Литература:
- Базовый алгоритм: В качестве базового алгоритма может выступать решение, описанное в [4].
- Решение: Предлагается рассмотреть метод, описанный в [2] и строить стилевую функцию, основываясь на выходах нейронной сети.
- Новизна: Предполагается, что построение стилевой функции предлагаемым методом может дать прирост качества по сравнению с типичными решениями этой задачи.
- Авторы: Рита Кузнецова, консультант
Задача 8
- Название: Адаптивные релаксации NP трудных задач через машинное обучение
- Задача: Современные задачи оптимизации потоков мощности в энергетических сетях приводят к невыпуклым задачам оптимизации с большим количеством ограничений. Аналогичные по структуре постановки возникают также в ряде других инженерных задач и в классических задачах комбинаторной оптимизации. Традиционный подход к решению подобных NP трудных задач состоит в написании их выпуклых релаксаций (semidefinite/SDP, second order conic/SOCP, etc), имеющих как правило существенно большее множество допустимых решений, чем в исходной задаче. И последующей проекцией полученного решения в область, где выполнены ограничения исходной задачи. Во многих практических случаях, качество полученного таким образом решения невелико. Альтернативные подходы, например MILP (mixed integer linear programming) релаксации, существенно более трудоемки по времени, но приводят к более точно у ответу.
Основная проблема состоит в невозможности применения известных методов для решения задач большой размерности (сети из 1000 узлов и более). Одним из ключевых препятствий является не столько размерность задачи, сколько большое число ограничений. Вместе с тем, в реальных задачах можно выделить небольшое множество ограничений такое, что множества допустимых точек в выделенном множестве и в исходном весьма близки. Это позволит заменить задачу на иную, с меньшим числом ограничений, что повысит скорость используемых алгоритмов. Предлагается использовать методы машинного обучения для построения указанного множества наиболее важных ограничений.
- Литература: Методы семплинга/машинного обучения:
- Beygelzimer, A., Dasgupta, S., & Langford, J. (2009, June). Importance weighted active learning. In Proceedings of the 26th annual international conference on machine learning (pp. 49-56). ACM.
- Tong, S., & Koller, D. (2001). Support vector machine active learning with applications to text classification. Journal of machine learning research, 2(Nov), 45-66.
- Owen, A., & Zhou, Y. (2000). Safe and effective importance sampling. Journal of the American Statistical Association, 95(449), 135-143.
Релаксации: Nagarajan, H., Lu, M., Yamangil, E., & Bent, R. (2016). Tightening McCormick Relaxations for Nonlinear Programs via Dynamic Multivariate Partitioning. arXiv preprint arXiv:1606.05806.
- Данные: данные ieee + matpower содержащие описания энергетических сетей и режимов их функционирования.
- Новизна: указанный подход, по видимому, является первым применением методов прикладной статистики/машинного обучения для решения трудных оптимизационных задач. Мы ожидаем существенный выигрыш в трудоемки стиль методов
- Автор: консультант: Юрий Максимов, эксперт: Михаил Чертков
Задача 9
- Название: Оптимальный алгоритм для восстановления динамических моделей.
- Задача: Стандартная постановка задач машинного обучения в контексте обучения без учителя (unsupervised learning) предполагает, что примеры (samples) независимы и получены из одного распределения вероятности. Однако зачастую наблюдаемые данные имеют динамическое происхождение и являются коррелироваными. Задача состоит в разработке эффективного метода для восстановления динамической графической модели (графа и параметров модели) по наблюдаемым коррелированным динамическим конфигурациям. Эта задача важна с теоретической точки зрения и имеет массу приложений. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения и численные эксперименты.
- Данные: Симулированные динамические конфигурации спинов в кинетической модели Изинга.
- Литература:
- Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
- Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
- Decelle and Zhang, "Inference of the sparse kinetic Ising model using the decimation method", Phys. Rev. E 2016 {https://arxiv.org/abs/1502.01660}
- Bresler et al., "Learning graphical models from the Glauber dynamics", Allerton 2014 {https://arxiv.org/abs/1410.7659}
- Zeng et al., "Maximum likelihood reconstruction for Ising models with asynchronous updates", Phys. Rev. Lett. 2013 {https://arxiv.org/abs/1209.2401}
- Базовой алгоритм: Динамический метод экранирования взаимодействий. Сравнение с методом максимального правдоподобия.
- Новизна: В настоящее время оптимальный (т.е. использующий минимальное возможное количество примеров) алгоритм для данной задачи неизвестен. Динамический метод экранирования взаимодействия имеет хорошие шансы окончательно "закрыть" эту задачу, т.к. является оптимальным для статической задачи.
- Автор: Консультанты Андрей Лохов, Юрий Максимов. Эксперт Михаил Чертков
Задача 10
- Название: Выбор интерпретируемых мультимоделей в задачах кредитного скоринга
- Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика. Для этого используется анкета заемщика, содержащая как числовые (возраст, доход), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли заемщик кредит. Данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), и для адекватной классификации потребуется несколько моделей. Необходимо определить оптимальное число моделей. По набору параметров моделей необходимо составить портрет заемщика.
- Данные: Предлагается рассмотреть пять выборок из репозиториев UCI и Kaggle, мощностью от 50000 объектов.
- Литература: Диссертация А.А. Адуенко \MLAlgorithms\PhDThesis; С. Bishop, Pattern recognition and machine learning, последняя глава; 20 years of Mixture experts.
- Базовой алгоритм: Кластеризация и построение независимых моделей логистической регрессии, Адабуст, Решающий лес (с ограничениями на сложность), Смесь экспертов.
- Решение: Предлагается алгоритм выбора мультимодели (смеси моделей или смеси экспертов) и определения оптимального числа моделей.
- Новизна: Предлагается функция расстояния между моделями, в которых распределения параметров заданы на разных носителях.
- Авторы: А.А. Адуенко, В.В. Стрижов.
Задача 11
- Название: Выбор признаков в задачах авторегрессионного прогнозирования биомедицинских сигналов.
- Задача: Решается задача прогнозирования биомедицинских сигналов и сигналов интернета вещей. Требуется спрогнозировать вектор – несколько следующих отсчетов сигнала. Предполагается, что собственную размерность пространства как прогнозируемой переменной, так и независимой переменной можно существенно снизить, увеличив тем самым устойчивость прогноза без существенной потери точности. Для этого используется подход Partial Least Squares в авторегрессионном прогнозировании.
- Данные: Выборка биомедицинских временных рядов SantaFe, выборка сигналов интернета вещей.
- Литература: Katrutsa A.M., Strijov V.V. Stresstest procedure for feature selection algorithms // Chemometrics and Intelligent Laboratory Systems, 2015, 142 : 172-183; : Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017; Kee Siong Ng A Simple Explanation of Partial Least Squares keesiong.ng@gopivotal.com Draft, April 27, 2013, http://users.cecs.anu.edu.au/~kee/pls.pdf
- Базовой алгоритм: PLS, алгоритм квадратичной оптимизации для выбора признаков.
- Решение: построить матрицу плана с субоптимальным набором объектов и признаков, предложить функцию ошибки квадратичной оптимизации (по возможности развить на случай тензорного представления матрицы плана).
- Новизна: Обобщен алгоритм выбора признаков (опубликованный две недели назад) для случая PLS.
- Авторы: А.М. Катруца, В.В. Стрижов.
Задача 12
- Название: Massively multitask deep learning for drug discovery
- Задача: Разработать мультитасковую рекурентную нейронную сеть для предсказания биологической активности. Для каждой пары "молекула-протеин" требуется предсказать бинарную величину 0/1, означающую, что молекула связывается/не связывается с протеином.
- Данные: разреженные данные биологической активности для ~100K молекул против ~ 1000 протеинов. Молекулы представлены в формате SMILES строк (последовательность символов, кодирующая молекулу)
- Литература: https://arxiv.org/pdf/1502.02072
- Базовой алгоритм: мультитасковая нейросеть, предсказывающая активность по числовым признакам, однотасковая рекурентная нейросеть
- Решение: Мультитасковость означает, что требуется построить модель, которая получается на вход молекулу и предсказывает её биологическую активность против всех протеинов в выборке.
- Новизна: Существующие методы не показали существенного улучшения качества DL модели по сравнению со стандартными ML моделями
- Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова
Задача 13
- Название: Unsupervised representation for molecules
- Задача: Разработать unsupervised метод для репрезентации молекул
- Данные: ~1.5M молекул в формате SMILES строк (последовательность символов, кодирующая молекулу)
- Литература: https://www.cs.toronto.edu/~hinton/science.pdf
- Базовой алгоритм: в настоящее время в качестве такой репрезентации используются выделенные вручную числовые признаки. Качество полученых репрезентаций можно сравнить с датасетом tox21 (10К молекул против 12 протеинов)
- Решение: использовать свёрточные или рекуррентные сети для построения автоэнкодера.
- Новизна: построение end-to-end модели для получения информативных признаков
- Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова
Задача 14
- Название: Внутритекстовая когерентность как мера интерпретируемости тематических моделей текстовых коллекций.
- Задача: Интерпретируемость – это субъективная характеристика качества тематических моделей, измеряемая с помощью экспертных оценок. Когерентность – это мера совстречаемости тематических слов, вычислимая по тексту автоматически и хорошо коррелирующая с интерпретируемостью, как показано в серии публикаций Ньюмана и Мимно. Первая задача – оценить репрезентативность последовательности слов текста, по которым оценивается когерентность. Вторая задача – сравнить несколько новых методов измерения интерпретируемости и когерентности, основанных на выделении наиболее репрезентативной последовательности слов в исходном тексте.
- Данные: Коллекция научно-популярного контента ПостНаука, коллекция новостного контента.
- Литература:
- Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
- N.Aletras, M.Stevenson. Evaluating Topic Coherence Using Distributional Semantics, 2013.
- D.Newman et al. Automatic evaluation of topic coherence, 2010
- D.Mimno et al. Optimizing semantic coherence in topic models, 2011
- http://palmetto.aksw.org/palmetto-webapp/
- Базовой алгоритм: Стандартные методы оценивания интерпретируемости и когерентности тем в тематических моделях.
- Решение: Новый метод измерения интерпретируемости и когерентности, эксперименты по поиску максимально коррелирующих мер интерпретируемости и когерентности, аналогичные [D.Newman, 2010].
- Новизна: внутритекстовые меры интерпретируемости и когерентности ранее не предлагались.
- Авторы: К.В.Воронцов. Консультанты: Виктор Булатов, Анна Потапенко, Артём Попов.
Задача 15
- Название: Агрегирование гетерогенных текстовых коллекций в иерархической тематической модели русскоязычного научно-популярного контента.
- Задача: Реализовать и сравнить несколько способов объединения текстовых коллекций из различных источников в одну иерархическую тематическую модель. Построить классификатор, определяющий наличие темы в источнике.
- Данные: Коллекция научно-популярного контента ПостНаука, коллекция Википедии.
- Литература:
- Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
- Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей // Машинное обучение и анализ данных, 2016. T. 2. № 2.
- Базовой алгоритм: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Инструмент для разметки
- Решение: Построить тематическую модель с модальностями источников и выделить темы, характерные только для одного из источников. Подготовить выборку для обучения классификатора, определяющего наличие темы в источнике.
- Новизна: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
- Авторы: К.В.Воронцов. Консультанты: Александр Романенко, Ирина Ефимова, Надежда Чиркова.
Задача 16
- Название: Применение методов символьной динамики в технологии информационного анализа электрокардиосигналов.
- Задача: Технология информационного анализа электрокардиосигналов, предложенная В.М.Успенским, предполагает преобразование сырого сигнала в символьную последовательность и поиск паттернов заболеваний в даннйо последовательности. До сих пор для поиска паттернов использовались преимущественно символьные n-граммы. В рамках данной работы предлагается расширить класс шаблонов, в котором производится поиск диагностических признаков заболеваний. Критерий качества -- AUC и MAP ранжирования диагнозов.
- Данные: Выборка электрокардиограмм с известными диагнозами.
- Литература:
- Успенский В.М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов.- М.:«Экономика и информация», 2008. - 116с
- Технология информационного анализа электрокардиосигналов.
- Базовой алгоритм: Методы классификации .
- Решение: Поиск логических закономерностей в символьных строках, методы символьной динамики, сравнение алгоритмов по критериям качества AUC и MAP (ранжирования диагнозов).
- Новизна: До сих пор для поиска паттернов использовались преимущественно символьные n-граммы.
- Авторы: К.В.Воронцов. Консультанты: Влада Целых.
Задача Воронцов +
- Название: Динамическая иерархическая тематическая модель новостного потока.
- Задача: Разработать алгоритм классификации тем в новостных потоках на новые и продолжающиеся. Применить полученные критерии создания новых тем на всех уровнях иерархии тематической модели при добавлении в текстовую коллекцию очередной порции данных (например, всех новостей за один день).
- Данные: Коллекция новостей на русском языке. Подвыборка новостей, размеченных на два класса: новые и продолжающиеся темы.
- Литература:
- Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
- Чиркова Н. А, Воронцов К. В. Аддитивная регуляризация мультимодальных иерархических тематических моделей // Машинное обучение и анализ данных, 2016. T. 2. № 2.
- Базовой алгоритм: Алгоритм построения тематической иерархии в BigARTM, реализованный Надеждой Чирковой. Известные алгоритмы Topic Detection & Tracking.
- Решение: Использование BigARTM, подбор регуляризаторов и их параметров, использование регуляризатора отбора тем. Построение алгоритма классификации тем на новые и продолжающиеся.
- Новизна: Аддитивная регуляризация тематических моделей к данной задаче ранее не применялась.
- Авторы: К.В.Воронцов. Консультанты: Александр Романенко, Артём Попов.
Задача Антиплагиат +
- Название: Отбор кандидатов в задаче поиска текстовых заимствований с перефразированием, основанный на векторизации текстовых фрагментов.
- Задача: Поиск текстовых заимствований по коллекции документов предполагает отбор небольшого множества кандидатов для последующего детального анализа. Задача отбора кандидатов формулируется как поиск оптимального ранжирования документов коллекции по запросу относительно некоторой функции, являющейся оценкой для общей длины заимствований из документа коллекции в документ-запрос.
- Данные: PAN
- Литература:
- Романов А.В., Хританков А.С. Отбор кандидатов при поиске заимствований в коллекции документов на иностранном языке pdf
- Базовый алгоритм: метод шинглов с построением обратного индекса.
- Решение: Векторизация фрагментов текста (word embeddings + свёрточные / рекуррентные нейронные сети) и последующий поиск ближайших объектов в многомерном метрическом пространстве.
- Новизна: новый подход к решению задачи.
- Авторы: Алексей Романов (консультант)
Дополнительные задачи
Задача Воронцов +
- Название: Тематическое моделирование отрасли экономики по транзакционным данным банка.
- Задача: Проверить гипотезу, что большая выборка транзакций между фирмами достаточно хорошо описывается относительно небольшим множеством видов экономической деятельности (они же темы). Задача сводится к разложению матрицы транзакционных данных «покупатели × продавцы» в произведение трёх неотрицательных матриц «покупатели × темы», «темы × темы», «темы × продавцы», при этом средняя матрица описывает направленный граф финансовых потоков в отрасли. Требуется сравнить несколько методов построения таких разложений и найти число тем, при котором наблюдаемое множество транзакций моделируется с достаточной точностью.
- Данные: выборка транзакций между фирмами, вида «покупатель, продавец, объём».
- Литература:
- Воронцов К. В. Обзор вероятностных тематических моделей, 2017.
- Базовой алгоритм: Стандартные методы неотрицательных матричных разложений.
- Решение: Регуляризованный ЕМ-алгоритм для разреженных неотрицательных матричных разложений. Визуализация графа финансовых потоков. Тестирование алгоритма на синтетических данных, проверка гипотезы об устойчивости разреженных решений.
- Новизна: тематическое моделирование ранее не применялось к анализу финансовых транзакционных данных.
- Авторы: К.В.Воронцов. Консультанты: Виктор Сафронов, Роза Айсина.
Задача скоринг +
- Название: Порождение и выбор признаков при построении модели кредитного скоринга.
- Задача: Построение кредитных скоринговых моделей выполняется по шагам. В частности, выполняется ряд независимых преобразований отдельных признаков, порождаются новые признаки. На каждом шаге используется собственный критерий качества. Требуется построить скоринговую модель, адекватно описывающую выборку. Максимизация качества модели на каждом шаге не гарантирует максимального качества полученной модели. Предлагается отказаться от пошагового построения скоринговой модели. Для этого критерий качества должен включать все оптимизируемые параметры модели.
- Данные: Вычислительный эксперимент будет выполнен на 5-7 выборках, которые требуется найти. Желательно, чтобы выборки имели одну природу, например, выборки анкет потребительского кредита.
- Литература: Siddique N. Constructing scoring models, SAS. Hosmer D., Lemeshow S., Applied logistic regression, Wiley. Katrutsa A.M., Strijov V.V. Comprehensive study of feature selection methods to solve multicollinearity problem according to evaluation criteria // Expert Systems with applications, 2017.
- Базовой алгоритм: Алгоритм построения скоринговой модели, рекомендуемый SAS.
- Решение: Каждый шаг процедуры представляется в виде задачи оптимизации. Оптимизируемые параметры объединяются, включается задача выбора признаков как задача смешанной оптимизации.
- Новизна: Предложена функция ошибки, при использовании который порождение и выбор признаков, а также оптимизация параметров модели выполняются совместно.
- Авторы: Т.В. Вознесенская, В.В. Стрижов.
Задача Попова +
- Название: Representation of molecules in 3D
- Задача: Разработать репрезентации 3D структуры молекул, которые обладали бы свойством вращательной и трансляционной инвариантности.
- Данные: Миллионы молекул, заданные 3D координатами
- Литература: https://arxiv.org/abs/1610.08935, http://journals.aps.org/prl/abstract/10.1103/PhysRevLett.98.146401
- Базовой алгоритм: low rank matrix/tensor factorization
- Решение: Молекулы имеют различное число атомов, и поэтому матрица их 3D координат имеет размерность Nx3. Нужно найти математическое преобразование, которое бы независило от N (N - число атомов).
- Новизна: существующие алгоритмы зависят от числа атомов в молекуле
- Авторы: эксперт -- Александр Исаев, консультант -- Мария Попова
Задача Максимов +
- Название: Оптимальный алгоритм для восстановления блочных гамильтонианов (моделей XY и Гейзенберга).
- Задача: Задача состоит в восстановлении блочных гамильтонианов с непрерывными спинами (обощение модели Изинга на двух- и трёхмерные спины) по наблюдаемым данным. Эта постановка представляет собой частный случай области машинного обучения, известной как обучение без учителя (unsupervised learning). Восстановление графической спиновой модели по данным наблюдений является важной задачей в физике. Основой алгоритма будет служить адаптация нового оптимального метода экранирования взаимодействий (interaction screening), разработанного для модели Изинга. Процесс решения будет сочетать в себе знакомство с теоретическими методами компьютерных наук / машинного обучения и численные эксперименты.
- Данные: Симулированные конфигурации блочных спиновых моделей.
- Литература:
- Lokhov et al., "Optimal structure and parameter learning of Ising models", arXiv:1612.05024 (2016) {https://arxiv.org/abs/1612.05024}
- Vuffray et al., "Interaction screening: efficient and sample-optimal learning of Ising models", NIPS 2016 {https://arxiv.org/abs/1605.07252}
- Tyagi et al., "Regularization and decimation pseudolikelihood approaches to statistical inference in XY spin models", Phys. Rev. B 2016 {https://arxiv.org/abs/1603.05101}
- Базовой алгоритм: Динамический метод экранирования взаимодействий. Сравнение с методом максимального псевдо-правдоподобия (pseudolikelihood).
- Новизна: Алгоритм основанный на динамическом методе экранирования взаимодействия имеет хорошие шансы быть оптимальным для данной задачи, т.к. соотествующий метод является оптимальным для обратной задачи Изинга.
- Автор: Консультанты Андрей Лохов, Юрий Максимов. Эксперт Михаил Чертков
Задача Хританкова (Transfer Learning)
- Название: Применение сетей глубокого обучения для переноса моделей классификации в случае недостаточного объема данных.
- Задача:
- Разработать алгоритм вычисления набора скрытых признаков в задаче symmetric homogeneous transfer learning , решение задачи классификации в котором не зависит от исходной области, и который не хуже, чем при решении для каждого области отдельно (transfer error) для случая небольших размеров выборки с ошибками в разметке
- Разработать алгоритм перехода к скрытому набору признаков без использования разметки (unsupervised domain adaptation)
- Данные: teraPromise-CK (33 датасета с одинаковыми признаками, но разными распределениями).
- Литература:Базовая статья: Xavier Glorot , Antoine Bordes , Yoshua Bengio. (2011) Domain Adaptation for Large-Scale sentiment classification: A Deep Learning approach / In Proceedings of the Twenty-eight International Conference on Machine Learning, ICML.
Статьи с идеями по доработкам алгоритма будут выданы на руки (несколько).
- Базовой алгоритм: SDA (Stacked Denoising Autoencoder) – описан в статье базовой статье Glorot et al.
- Решение: Взять базовый алгоритм, а) попробовать улучшить для применения к небольшим датасетам 100-1000 объектов (когда и применяется transfer learning) путем применения регуляризаторов, корректировкой архитектуры автокодировшика, корректировки алгоритма обучения (например, bootstrapping) б) исследовать модель на устойчивость к ошибкам в разметке (label corruption / noisy labels) и предложить доработку для повышения устойчивости (robustness).
- Новизна: Получение устойчивого алгоритма переноса моделей классификации на небольших объемах данных с ошибками в разметке.
- Авторы: Хританков
Задача INRIA-МТФИ +
- Название: Оценка энергии связывания белка и маленьких молекул.
- Задача: Моделирование связывания белка и маленькой молекулы (далее -- лиганда) основывается на том, что наилучший лиганд в своем наилучшем положении имеет наименьшую свободную энергию взаимодействия с белком. Необходимо оценить свободную энергию связывания белка и лиганда. Для обучения могут использоваться комплексы белков с лигандами, причем для каждого белка есть несколько положений лиганда: 1 правильное, "нативное", для которых энергия минимальна, и несколько сгенерированных неправильных. Для трети набора данных известны значения, пропорциональные искомой энергии связывания лигандов в нативных положениях с белком. Есть отдельный тестовый сет, состоящий из 1) комплексов белков и лигандов, для которых нужно найти наилучшую позу лиганда (алгоритм получения положений лиганда отличается от используемого при обучении), 2) комплексов белков и лигандов, для нативных поз которых нужно предсказать энергию связывания, и 3) белков, для которых нужно найти наиболее сильно связывающийся лиганд.
- Данные: Около 10000 комплексов: для каждого из них есть 1 нативная поза и 18 (можно сгенерировать больше) ненативных. Основными дескрипторами являются гистограммы распределений расстояний между различными атомами белка и лиганда, размерность вектора дескрипторов ~ 20,000. Набор дескрипторов может быть расширен (можно генерировать позы с разным отклонением и использовать его как дескриптор, можно добавить свойства маленьких молекул: число связей, вокруг которых в молекуле возможен поворот, площадь ее поверхности, разбиение ее поверхности диаграммой Вороного. Данные будут предоставлены в виде бинарных файлов со скриптом на python для чтения.
- Литература: PEPSI-Dock: a detailed data-driven protein–protein interaction potential accelerated by polar Fourier correlation Predicting Binding Poses and Affinities in the CSAR 2013―2014 Docking Exercises Using the Knowledge-Based Convex-PL Potential
- Базовой алгоритм: Мы использовали линейный SVM (это просто lecture notes, я не вижу смысла тут давать Вапника, тем более что все это, включая эти lecture notes, гуглится), связь которого с оценкой энергии, выходящей за рамки задачей классификации, описана в перечисленных выше статьях. Для учета известных из эксперимента значений, пропорциональных энергии, предлагается использовать линейную регрессию SVR .
- Решение: Необходимо свести использованную ранее задачу SVM к задаче регрессии и решить стандартными методами. Для проверки работы алгоритма будет использован как описанный выше тест, так и несколько других тестовых сетов с аналогичными задачами, но другими данными.
- Новизна: Правильная оценка качества связывания белка и лиганда используется при разработке лекарства для поиска молекул, наиболее сильно взаимодействующих с исследуемым белком.
Особую важность представляет оценка значений энергии связывания белка с лигандом: определенный разными группами на предложенном тесте коэффициент корреляции (Пирсона) энергии с ее экспериментальными значениями не превышает 0.7. Предсказание наиболее сильно связывающегося лиганда из большого числа не связывающихся с белком молекул также вызывает трудности. Целью данной работы является получение метода, позволяющего достаточно точно оценивать связывание белка с лигандами. С точки зрения машинного обучения и оптимизации интерес представляет объединение задач классификации и регрессии.
- Добавление Даны несколько наборов данных, описывающие атом в молекуле или связь между атомами, с маленьким feature вектором (обычно это 3-10 дескрипторов) и несколькими классами, соответствующими гибридизации атома или порядку связи. Самих данных может быть от ~ 100 до 20,000 векторов в зависимости от типа атома. Нужно протестировать на этом какое-нибудь мультиклассовое машинное обучение (random forests, нейронную сеть, что-то другое), можно что угодно делать с дескрипторами. Мы сейчас используем SVM. Важна не только точность, но и вычислительная сложность предсказания.
- Авторы: Сергей Грудинин, Мария Кадукова
Задача Стрижова и Кулунчакова +
- Название: Creation of delay-operators for multiscale forecasting by means of symbolic regression
- Задача: Suppose that one needs to build a forecasting machine for a response variable. Given a large set of time series, one can advance a hypothesis that they are related to this variable. Relying upon this hypothesis, we can use given time series as features for the forecasting machine. However, the values of time series could be produced with different frequencies. Therefore, we should take into account not only the values, but the delays as well. The simplest model for forecast is a linear one. In the presence of large set of features this model can approximate the response quite well. To avoid the problem of multiscaling, we introduce a definition of delay-operators. Each delay-operator corresponds to one time series and represents continuous correlation function. This correlation function shows a dependence between the response variable and corresponding time series. Therefore, each delay-operator put weights on the values of corresponding time series depending on the greatness of the delay. Having these delay-operators, we avoid the problem of multiscaling. To find them, we use genetic programming and symbolic regression. If the resulted weighted linear regression model would produce poor approximation, we can use a nonlinear one instead. To find good nonlinear function, we would use symbolic regression as well.
- Данные: Any data from the domain of multiscalse forecating of time series. See the full version of this introduction.
- Литература: to be handed by V.V.Strijov
- Базовой алгоритм: to be handed by V.V.Strijov
- Решение: Use genetic algorithms applied to symbolic regression to create and test delay-operators in multiscale forecasting.
- Новизна: to be handed by V.V.Strijov
- Авторы: supervisor: V.V.Strijov, consultant: A.S. Kulunchakov