Участник:Anastasiya/Песочница

Материал из MachineLearning.

Перейти к: навигация, поиск

Список проектов

1. Оптимизация числа тем в вероятностных тематических моделях с помощью регуляризатора строкового разреживания

Консультант: А.А. Потапенко

Задача: Вероятностная тематическая модель описывает вероятности появления слов w\in W в документах d\in D через латентные темы t\in T:

  p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.

Требуется проверить гипотезу, что, накладывая ограничения на матрицу \Theta с помощью регуляризатора строкового разреживания, возможно определить оптимальное число тем.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать <<истинное>> число тем, эксперименты производятся на реалистичных модельных или полумодельных данных.

Литература:

  • Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых доку-

ментов // Доклады РАН. 2014. — Т. 455, №3 (в печати).

  • Воронцов К. В. Вероятностное тематическое моделирование. — 2014.

http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf

  • Teh Y. W., Jordan M. I., Beal M. J., Blei D. M. Hierarchical Dirichlet processes // Journal of the

American Statistical Association. — 2006. — Vol. 101, no. 476. — Pp. 1566–1581.

Базовый алгоритм: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Новизна: Для оптимизации числа тем обычно используется модель иерархического процесса Дирихле HDP [2006: Teh et Al]. Она определяет число тем неустойчиво, и при этом сложна как для понимания, так и для реализации. Аддитивная регуляризация тематических моделей (ARTM) --- это новый подход к тематическому моделированию, сочетающий универсальность, гибкость и простоту. Задача оптимизации числа тем ещё не рассматривалась в рамках ARTM.

2. Дифференциальная диагностика заболеваний по электрокардиограмме

Консультант: В.Р. Целых

Задача: Предлагается решить типичную задачу классификации. Признаками являются 216 характеристик, вычисляемых по электрокардиограмме. Необходимо провести оценку качества классификации по отложенной контрольной выборке. Для этого вычисляются доли ошибок первого и второго рода. Под ошибкой первого рода подразумевается отнесение здоровых к классу больных, второго рода – отнесение больных к классу здоровых. Предпочтение отдается минимизации ошибок второго рода.

Данные: Для каждой из 5 болезней есть 2 типа выборок. Эталонные – более надежные, специально отобранные случаи. Остальные – случаи, когда диагнозы устанавливались врачами менее надежно, эти выборки предлагается использовать для контроля.

Литература:

  • Воронцов К. В. Метрические алгоритмы классификации. Лекции по машинному обучению. — 2014. http://www.MachineLearning.ru/wiki/images/c/c3/Voron-ML-Metric-slides.pdf
  • Успенский В. М. Информационная функция сердца // Клиническая медицина, 2008. — Т. 86, № 5. — С. 4–13.
  • Успенский В. М. Информационная функция сердца. Теория и практика диагностики заболеваний внутренних органов методом информационного анализа электрокардиосигналов. — М.: «Экономика и информация», 2008. — 116 с.

Базовый алгоритм: Для решения задачи предлагается использовать метрический алгоритм с жадным отбором признаков.

Новизна: Данные подготовлены по уникальной технологии информационного анализа электрокардиосигналов, разработанной проф. д.м.н. В.М.Успенским. Предложен алгоритм классификации и исследована его обобщающая способность.

3. Влияние регуляризаторов разреживания, сглаживания и декорреляции на устойчивость вероятностной тематической модели

Консультант: М.М. Дударенко

Задача:Вероятностная тематическая модель описывает вероятности появления слов w\in W в документах d\in D через латентные темы t\in T:

    p(w|d) = \sum_{t\in T} p(w|t)p(t|d) = \sum_{t\in T} \phi_{wt}\theta_{td}.

Представление матрицы \|p(w|d)\|_{W\times D} в виде произведения двух матриц меньшего размера {\Phi=\|\phi_{wt}\|_{W\times T}} и {\Theta=\|\theta_{dt}\|_{T\times D}} не единственно: \Phi \Theta = (\Phi S)(S^{-1}\Theta) = \Phi'\Theta' для некоторых невырожденных S. Требуется проверить гипотезу, что, накладывая ограничения на матрицы \Phi, \Theta с помощью регуляризаторов, возможно повысить устойчивость их восстановления.

Данные: Коллекция документов задаётся частотами слов. Поскольку для решения задачи необходимо знать «истинные» матрицы \Phi, \Theta, эксперименты производятся на реалистичных модельных или полумодельных данных, удовлетворяющих гипотезам разреженности, слабой коррелированности тем и наличия фоновых тем.

Литература:

  • Воронцов К. В. Аддитивная регуляризация тематических моделей коллекций текстовых документов // Доклады РАН. 2014. — Т. 455, №3 (в печати).
  • Воронцов К. В. Вероятностное тематическое моделирование. — 2014. http://www.MachineLearning.ru/wiki/images/2/22/Voron-2013-ptm.pdf.

Базовый алгоритм: Для решения оптимизационной задачи используется регуляризованный EM-алгоритм [2014: Воронцов]. Может быть использована рациональная, стохастическая или онлайновая версия EM-алгоритма.

Новизна: Аддитивная регуляризация тематических моделей (ARTM) предложена в [2014: Воронцов] как универсальный способ повышения устойчивости и интерпретируемости тематических моделей. Однако вопрос о том, какое именно сочетание регуляризаторов повышает устойчивость, пока остаётся открытым. Данное исследование направлено на решение этой проблемы.

4. Построение рейтингов вузов: панельный анализ и оценка устойчивости

Консультант: М.П. Кузнецов

Задача: Рейтинг вуза изменяется от года к году. Это изменение может быть вызвано плохим качеством методики подсчета рейтинга, случайными изменениями в показателях вуза и целенаправленным изменением состояния вуза. Требуется предложить такую устойчивую к случайным изменениям методику рейтингования, коотоая бы позволяля интерпретировать изменение состояния вуза.

Данные: Данные по ста ведущим мировым университетам за восемь лет.

Литература:

  • Стрижов В.В. Уточнение экспертных оценок с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2006, 72(7) — 59-64.
  • Стрижов В.В. Уточнение экспертных оценок, выставленных в ранговых шкалах, с помощью измеряемых данных // Заводская лаборатория. Диагностика материалов, 2011, 77(7) — 72-78.
  • Kuznetsov M.P., Strijov V.V. Methods of expert estimations concordance for integral quality estimation // Expert Systems with Applications, 2014.
  • Загрузить черновик JMLR в архив, дать ссылку.

Базовой алгоритм: Методика построения рейтинга RUR и один из избыточно устойчивых алгоритмов для ранговых шкал.

Новизна: Введено понятие интерпретируемости изменения позиции рейтинга. Решена задача выбора и оптимальной локалоно-монотонной коррекции показателей. Предложена методика построения рейтинга, позволяюшевого интерпретировать изменене состояния вуза с целью мониторинга. Вариант: решена обратная задача управления: как изменить показатели вуза, чтобы достичь заданной цели.

5. Обнаружение закономерностей в наборе временных рядов методами структурного обучения

Консультант: А.П. Мотренко

Задача: Для повышения качества прогноза временных рядов хочется использовать экспертные высказывания о наличии причинно-следственной связи между событиями. Для этого необходимо уметь оценивать достоверность экспертных высказываний. Доказать наличие причинно-следственной связи статистическими методами невозможно. Исследователь может лишь проверить наличие определенной структуры связи. Целью задачи является, опираясь на экспертные высказывания о наличии связи между событиями, исследовать временные ряды на наличие различных структурных связей и найти структуру, наиболее согласованную с мнением эксперта.

Литература:

  • R. B. Kline, Principles and Practice of Structural Equation Modeling. New York: Guilford. 2005.
  • J. Pearl, Graphs, Causality and Structural Equation Models. Sociological Methods and Research, 27-2(1998), 226-284.
  • J. Pearl, E. Bareinboim, Transportability of Causal and Statistical Relations: A Formal Approach // Proceedings of the 25th AAAI Conference on Artificial Intelligence, August 7-11, 2011, San Francisco. 247-254
  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: моделирование структурных уравнений, SEM

Новизна: Предложен метод оценки достоверности экспертных высказываний о влиянии биржевых цен на основные инструменты на объем железнодорожных грузоперевозок. Предложены различные структуры связей между временными рядами. Введено понятие сложности структруры. Исследована связь между сложностью структуры и оценкой достоверности высказываня.

19. Использование нелинейного прогнозирования при поиске зависимостей между временными рядами

Консультант: А.П. Мотренко

Задача: (Как часть исследования, посвященного обнаружению закономерностей в наборах временных рядов) Предлагается отказаться при поиске зависимостей между временными рядами от стандартных предположений о стационарности временного ряда и исследовать временные ряды с точки зрения теории динамических систем, в рамках которой рассматриваются нерегулярные временные зависимости, определенные структурой фазового пространства. Требуется изучить набор подходов к анализу динамических? данных и выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей. Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.

Литература:

  • Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
  • Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
  • George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
  • Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. 2012. T. 1, № 4. C. 448-465.

Базовой алгоритм: convergent cross mapping

Новизна: Предложены различные структуры связей между временными рядами и метод проверки наличия связей

6. Последовательное порождение существенно нелинейных моделей в задачах ранзирования текстов.

Консультант: М.П. Кузнецов

Задача: Предложить и протестировать на тестовых и реальных данных алгоритм порождения существенно нелинейных моделей. Алгоритм должен порождать 1) полный набор моделей 2) выбирать оптимальный шаг для фиксированной струтуры модели (добавлене элемента суперпозиции).

Данные: Синтетические даные, данные по текстовым коллекциям LIG.

Литература:

  • Goswami P., Moura1 S., Gaussier E., Amini M.R. Exploring the Space of IR Functions //
  • Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
  • Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
  • Vladislavleva E.,Smith G., Hertog D., Order of Nonlinearity as a Complexity Measure for Models Generated by Symbolic Regression via Pareto Genetic Programming // IEEE Transactions on Evolutionary Computation, 2009. Vol. 13(2). Pp. 333-349.
  • Vladislavleva E. Model-based Problem Solving through Symbolic Regression via Pareto Genetic Programming: PhD thesis, Tilburg University, Tilburg, the Netherlands, 2008.

Базовой алгоритм: Алгорим полного перебора допустимых суперпозиций порождающих функций.

Новизна: Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

7. Обнаружение измоморфных структур существенно нелинейных прогностических моделей

Консультант: М.П. Кузнецов

Задача: Развить алгоритм поиска изоморфных подграфов для деревьев (вариант - для ориентированных ациклических графов). Сравнить сложность алгоритма проверки изоморфности двух суперпозиций для предлагаемого алгоритма и для алгоритма поэлементного сравнения отображений.

Данные: Данные по биржевым опционам: зависимость волатильности опциона от цены и времени его исполнения.

Литература:

  • Рудой Г.И., Стрижов В.В. Алгоритмы индуктивного порождения суперпозиций для аппроксимации измеряемых данных // Информатика и её применения, 2013, 7(1) — 17-26.
  • Рудой Г.И., Стрижов В.В. Упрощение суперпозиций элементарных функций при помощи преобразований графов по правилам // Интеллектуализация обработки информации. Доклады 9-й международной конференции, 2012 — 140-143.
  • Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
  • Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
  • Стрижов В.В., Сологуб Р.А. Индуктивное порождение регрессионных моделей предполагаемой волатильности для опционных торгов // Вычислительные технологии, 2009, 14(5) — 102-113.

Базовой алгоритм: Алгоритм поэлементного сравнения отображений.

Новизна: Предложен быстрый алгоритм упрощения суперпозиций и поиска изоморфных моделей. Используется матрица инцидентности набора порождающих функций.

8. Построение прогностических моделей как суперпозиций экспертно-заданных функций

Консультант: Н.П. Ивкин

Задача: Требуется отнести набор временных рядов к одному из нескольких классов. Предлагается это сделать с помощью процедуры автоматизированного порождения признаков. Для этого экспертно создается набор порождающих функций, которые 1) преобразуют временной ряд (например, сглаживают, раскладывают по главным компонентам), 2) извлекают из временного ряда его агрегированные описания (например, среднее, дисперсию, число экстремумов). Возможно порождение значительного количества признаков путем построения суперпозиций порождающих функций. Полученные признаки используются для классификации набора временных рядов (например, методом ближайших соседей).

Данные: данные с акселерометра мобильного телефона.

Литература:

  • Постановка задачи \MLAlgorithms\Group074\Kuznetsov2013SSAForecasting\doc
  • Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: нейронная сеть (вариант: нейронная сеть глубокого обучения).

Новизна: Предложен способ извлечения признаков с помощью автоматически построенных суперпозиций экспертно-заданных функций.

Сравнение структурной и топологической сложности в задачах классификации. Взять идею Рудакова для случая Лёвы Романова.

9. Обучение многообразий для прогнозирования наборов квазипериодических временных рядов

Консультант: Н.П. Ивкин

Задача: Решается задача классификации человеческой активности на основании данных с акселерометра мобильного телефона. Данные с акселерометра представляются квазипериодическими временными рядами. Требуется отнести временной ряд к одному из видов активности: бег, ходьба и др. Для решения задачи классификации рядов предлагается метод на основе ближайших соседей в пространстве мно Данные: данные с акселерометра мобильного телефона.

Литература:

  • Mi Zhang; Sawchuk, A.A., "Manifold Learning and Recognition of Human Activity Using Body-Area Sensors," Machine Learning and Applications and Workshops (ICMLA), 2011 10th International Conference on , vol.2, no., pp.7,13, 18-21 Dec. 2011

Базовой алгоритм: нейронная сеть

Новизна: предложен способ классификации квазипериодических временных рядов на основе многообразий

10. Интерпретация мультимоделей при обработке социологических данных

Консультант: А.А. Адуенко

Задача: Задача кредитного скоринга заключается в определении уровня кредитоспособности заемщика, подавшего заявку на кредит. Для этого используется анкета заемщика, содержащая как числовые данные (возраст, доход, время проживания в стране), так и категориальные признаки (пол, профессия). Требуется, имея историческую информацию о возвратах кредитов другими заемщиками, определить, вернет ли кредит рассматриваемый клиент. Таким образом, требуется решить задачу классификации. Так как данные могут быть разнородными (например, в случае наличия в стране разных регионов по доходу), данные могут описываться не одной, а несколькими моделями. В данной работе предлагается сравнить два метода построения мультимоделей: смеси логистических моделей и градиентный бустинг.

Данные: данные по потребительским кредитам (\mlalgorithms\BSThesis\Aduenko2013\data).

Литература:

  • смеси моделей (\mlalgorithms\BSThesis\Aduenko2013\doc, Bishop)
  • бустинг (лекция «Композиционные методы классификации и регрессии» Воронцова)

Базовой алгоритм: бустинг.

Новизна: Выявление и объяснение сходств и различий решений, полученных двумя указанными алгоритмами.

11. Выбор оптимальных структур прогностических моделей методами структурного обучения

Консультант: А.А. Варфоломеева

Задача: Предлагается решать задачу прогнозирования в два этапа: сначала историям построения успешный прогнозов восстанавливается структура прогностической модели. Затем параметры модели оптимизируются; с помощью модели строится прогноз временного ряда.

Данные: синтетическая выборка, биомедицинские временные ряды, результаты измерений акселерометра.

Литература:

Базовой алгоритм: алгоритм метапрогнозирования, описанный в дипломной работе.

Новизна: Предложен метод восстановления структур моделей с использованием априорных предположений об этих структурах.

12. Инварианты при прогнозировании квазипериодических рядов

Консультант: А.А. Кузьмин

Задача: Решается задача почасового прогнозирования цен/потребления электроэнегрии на сутки вперед. При построении матрицы плана предлагается использовать не исходный отрезок временного временной ряда, а его инвариантное представление.

Данные: почасовые данные о ценах и объема потребления электроэнергии (вставить ссылку).

Литература:

  • Сандуляну Л.Н., Стрижов В.В. Выбор признаков в авторегрессионных задачах прогнозирования // Информационные технологии, 2012, 7 — 11-15.
  • (взять из последней статьи Фадеева)

Базовой алгоритм: авторегрессионное прогнозирование, описанное в работе Сандуляну.

Новизна: Предложен алгоритм совместной оценки параметров инвариантов и авторегрессионной модели, позволяющий существенно повысить точность прогнозирования.

13. Прогнозирование объемов железнодорожных грузоперевозок по парам веток

Консультант: М.М. Стенина (Медведникова)

Задача: Спрогнозировать объемы перевозок с ветки на ветку, сравнить с базовым алгоритмом прогноза отправления вагонов с ветки. Проверить гипотезу о том, что прогноз перевозок с ветки на ветку точнее, чем прогноз при помощи базового алгоритма. Исследовать ряды на тренд/периодичность. Если тренд/периодичность есть, то включить в модель. Подготовить алгоритм прогнозирования для использования.

Данные: посуточные данные за полтора года о перевозках 38 типов грузов по Омской области.

Литература:

  • Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

Базовый алгоритм: гистограммное прогнозирование, описанное в статье.

Новизна: предлагается повысить качество прогноза путем разделения данных на меньшие части и прогнозирования перевозок по конкретным веткам вместо прогноза отправления вагонов.

14. Выбор оптимальной модели прогнозирования физической активности человека по измерениям акселерометра

Консультант: А.А. Токмакова

Задача: Предложить алгоритм последовательной модификации нейронной сети. Цель - найти наиболее простую, устойчивую и точную конфигурацию сети, позволяющую решить задачу двухклассового (вариант: многоклассового) прогнозирования физической активности.

Данные: Набор временных рядов измерений акселерометра.

Литература:

  • Прореживание нейронных семей на сайте Machinelearning.ru.
  • Хайкин С. Нейронные сети. Вильямс, 2006.

Базовой алгоритм: Optimal Brain Damage/Optimal Brain Surgery.

Новизна: Предложен способ последовательного порождения нейронных сетей оптимальной сложности. Исследована устойчивость порождаемых моделей.

15. Метапрогнозирование временных рядов

Консультант: А.С. Инякин

Задача:

Данные: библиотека квазипериодических и апериодических временных рядов

Литература:

  • Отчет по библиотеке прогнозирования
  • Необходим обширный поиск литературы

Базовой алгоритм: Использовать алгоритм SAS/SPSS, если у них это есть.

Новизна:

16. Распознавание изображений

Консультант: И.А. Матвеев

Задача: В проблеме идентификации человека по изображению радужной оболочки глаза (радужке) важнейшую роль играет выделение области радужки на исходном снимке (сегментация радужки). Однако, изображение радужки как правило частично закрыто (затенено) веками, ресницами, бликами, то есть часть радужки не может быть использована для распознавания и более того, использование данных с затенённых участков может порождать ложные признаки и снижать точность. Поэтому одним из важных этапов сегментации изображения радужки является отбраковка затенённых участков.

Данные: растровое монохромное изображение, типичный размер 640*480 пикселей (однако, возможны и другие размеры) и координаты центров и радиусы двух окружностей, аппроксимирующих зрачок и радужку.

Литература:

  • Pасширенная постановка задачи: http://www.machinelearning.ru/wiki/images/f/fa/TaskIris.pdf
  • Monro D. University of Bath Iris Image Database // http:// www.bath.ac.uk/ elec-eng/ research/ sipg/ irisweb/
  • Chinese academy of sciences institute of automation (CASIA) CASIA Iris image database // http://www.cb-sr.ia.ac.cn/IrisDatabase.htm, 2005.
  • MMU Iris Image Database: Multimedia University // http:// pesonna.mmu.edu.my/ ccteo/
  • Phillips P.J., Scruggs W.T., O’Toole A.J. et al. Frvt2006 and ice2006 large–scale experimental results // IEEE PAMI. 2010. V. 32. № 5. P. 831–846.
  • G.Xu, Z.Zhang, Y.Ma Improving the performance of iris recogniton system using eyelids and eyelashes detection and iris image enhancement // Proc. 5Th Int. Conf. Cognitive Informatics. 2006. P.871-876.

Базовый алгоритм: метод, использующий скользящее окно и текстурные признаки [2006: Xu, Zhang, Ma].

Новизна: построена маска открытой области радужки.

17. Поиск эффективных отображений наблюдений с представлением многоклассовой задачи классификации в виде задачи с двумя классами

Консультант: Ю.Н. Максимов

Задача: Исследовать различные подходы к решению задач классификации с многими классами и сравнить их эффективность.

Данные: Данные с различным числом классов. 0. Toy example: Shuttle dataset. http://archive.ics.uci.edu/ml/datasets/Statlog+(Shuttle). Маленькая выборка, 7 классов. Не надо делать подготовку данных. 1. Текстовые данные коллекции Reuters http://www.daviddlewis.com/resources/testcollections/reuters21578/. 2. Данные нашего конкурса Kaggle от LIG http://www.kaggle.com/c/lshtc

Литература:

Базовые алгоритмы: SVM с различными ядрами, Adaboost. Базовые подходы: one vs all(combined), one vs one(uncombined)

18. Доведение ума до спутников.

Консультант: И.А. Рейер

Задача:

Данные: библиотека квазипериодических и апериодических временных рядов

Литература:

  • Отчет по библиотеке прогнозирования
  • Необходим обширный поиск литературы

Базовой алгоритм: Использовать алгоритм SAS/SPSS, если у них это есть.

Новизна:

Личные инструменты