Обсуждение:Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 274, весна 2015

Материал из MachineLearning.

< Обсуждение:Численные методы обучения по прецедентам (практика, В.В. Стрижов)(Различия между версиями)

Перейти к: навигация, поиск

Текущая версия

Содержание

1 39. Обучение метрик в задачах полного и частичного обучения
2 25. Сравнение эффективности логических методов в задачах анализа данных
3 По мотивам Липатовой
4 Задачи вокруг информационного поиска
- 4.1 Порождение ранжирующих моделей методом Насти (ветвей и границ)
- 4.2 ?? Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения
5 Непараметрическое прогнозирование временных рядов

39. Обучение метрик в задачах полного и частичного обучения

Консультант: Ю.В. Максимов
Задача: состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает высокую точность.
Данные: Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
Литература: Список литературы и описание подробное задачи приведены в файле
Замечания к коду: Замечания по программной реализации
Базовый алгоритм: выпуклая релаксация задачи решаемая внутренней точкой через CVX.

25. Сравнение эффективности логических методов в задачах анализа данных

Консультант: Ю.В. Максимов
Задача: состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
Данные: Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
Литература: приведена в файле
Замечания к коду: Замечания по программной реализации
Базовый алгоритм: Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие приведенные в файлах-описаниях.

По мотивам Липатовой

Название: Supervised rank aggregation with monotone feature transformation.
Задача: Сравниваются подходы к кластеризации временных рядов. Требуется кластеризовать набор временных рядов и приблизить каждый ряд прогностической моделью. Разница рассматриваемых подходов заключается в порядке выполнения шагов: 1) вначале выполнить кластеризацию, а затем приближать ряды/кластеры моделями или 2) вначале приблизить каждый ряд моделей, а затем кластеризовать набор рядов, используя информацию о сходстве моделей. Исследования, проведенные в [1] позволяют предположить, что второй подход точнее. Предлагается также рассмотреть комбинированный подход, при котором выбор модели и кластеризация временных рядов происходят одновременно [2].
Данные: Временные ряды акселерометра, описывающие различные типы человеческой активности.
Литература
- [1] М. Кузнецов. Классификация объектов сложной структуры. pdf
- [2] А. Липатова. Одновременная кластеризация набора временных рядов и соответствующих им прогностических моделей. pdf
Базовой алгоритм: Кластеризация временных рядов на основе набора интегральных признаков: среднее, дисперсия, максимальное значение и другие статистики (см. [1]).
Решение: Предлагается сравнивать модели как векторы их прогнозов. Тогда расстояния между прогнозами всех рядов всеми моделями образуют четырехиндексную матрицу. Среза матрицы, минимизирующего внутрикластерное расстояние между рядами и моделями, выбирается генетическим алгоритмом.
Новизна: Предложен более точный метод кластеризации набора временных рядов.

Задачи вокруг информационного поиска

Порождение ранжирующих моделей методом Насти (ветвей и границ)

Название: Направленный поиск структуры ранжирующей модели.
Задача: Порождение ранжирующих моделей методом Насти (ветвей и границ). Решается задача поиска ранжирующей функции в задачах информационного поиска. В работе [1] поиск осуществляется полным перебором, обеспечивающим оптимальность найденного решения решения. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой G вида: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}.Каждой порождаемой функции выставляется оценка качества, вычисляемая как MAP (mean average precision) на некоторой коллекции документов. На основе этих оценок качества выделяются множества оптимальных ранжирующих структур. Требуется проверить гипотезу о наличии структурных закономерностей среди оптимальных/неоптимальных структур для сокращения полного перебора.
Данные: Списки допустимых сгенерированных функций длины 4-8, список из 100 лучших функций длины 8, список из 500 лучших функций с оценками качества.
Литература
- Описание задачи
- Описание коллекции данных, используемых для оценки функций, и процедуры оценки. pdf
Базовой алгоритм: Алгоритм полного перебора допустимых суперпозиций порождающих функций.
- P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
Решение: (В рамках гипотезы о наличии набора/наборов структурно-близких оптимальных функций) В исходном методе порождаются все структуры заданной длины k с последовательным увеличением длины. Для сокращения полного перебора и упрощения процедуры их оценки предлагается выделить набор структур некоторой длины k, такой что все оптимальные структуры длины k+1 могут быть получены применением правил грамматики G к некоторой структуре из данного набора.
Новизна:
- На данный момент в [1] был проведен поиск структур длины k до 10. Был обнаружен ряд функций, по качеству соперничающих с применяемыми на практике (например - BM25, ранжирующей функцией длины 25). Проведенные в [1] исследования позволяют предположить, что перебор структур с дальнейшим увеличением их длины выявит функции, существенно превосходящие по качеству обнаруженные ранее. Ограничением становится вычислительная сложность полного перебора при увеличении k. Сокращение процедуры перебора структур позволит увеличить сложность рассматриваемых структур.
- Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.

?? Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения

Название: Создание выборки для задачи структурного обучения
Задача: Про разбиение большой коллекции на маленькие подколлекции для задачи стр. обучения/ расстояние между моделями и коллекциями

Для построения ранжирующей модели методами структурного обучения необходимо собрать выборку: набор коллекций документов и полученных на этих коллекциях ранжирующих функций. Коллекции, на которых происходит обучение ранжирующей структуры, традиционно размечаются вручную, что затрудняет процесс сбора выборки для задачи структурного обучения. Варианты: предложить способ разбиения существующих коллекций на подколлекции. Здесь же можно рассмотреть зависимость построенного набора оптимальных функций от коллекции. воспользоваться методом построения псевдо-коллекций (новизны нет)

Данные:
Литература
- Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
- Nima Asadi, Donald Metzler, Tamer Elsayed, Jimmy Lin, “Pseudo Test Collections for Learning Web Search Ranking Functions”, 2011. pdf
Базовой алгоритм: ??.
Решение:
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Непараметрическое прогнозирование временных рядов

Синхронизация рядов

Название: Обнаружение закономерностей в наборах временных рядов
Задача: Разработать метод выявления связей между временными рядами, определяемых структурой фазового пространства. Требуется изучить набор подходов к выявлению связей между ними; описать границы применимости базового алгоритма и предложить новые варианты выявляемых структурных связей.
Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
Литература
- Tools for the Analysis of Chaotic Data. HENRY D. I. ABARBANEL
- Nonlinear forecasting as a way of distinguishing chaos from measurement error in time series, G. Sugihara, R.M. May.
- George Sugihara et al. Detecting Causality in Complex Ecosystems. Science 338, 496 (2012);
- Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
Базовой алгоритм: Алгоритм сходящегося перекрестного отображения (Convergent Cross Mapping, CCM)
Решение:
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Условный прогноз

Название: Про учет экзогенных факторов
Задача: При прогнозировании железнодорожных грузоперевозок предлагается учесть как предысторию самих перевозок, так и экзогенные (внешние) факторы. Для учета экзогенных факторов при прогнозировании железнодорожных грузоперевозок необходимо развить ранее предложенный метод гистограммного прогнозирования Hist, основанный на свертке гистограммы временного ряда с функцией потерь.
Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
Литература
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.
- Model Estimation and Validation by Daniel McFadden, Antti Talvitie, and Associates, 1977
- Density forecasting: обзор гистограммных подходов к прогнозированию временных рядов.
- Экспериментальные исследования свойств алгоритма Hist [1], [2]
Базовой алгоритм: Алгоритм Hist.
Решение: Чтобы включить в модель гистограммного прогнозирования экзогенные переменные, необходимо разработать методы оценки многомерных гистограмм/ условных гистограмм временных рядов при небольшой длине истории. (Длина исследуемого временного не очень велика, что при увеличении размерности гистограммы приводит к ее разреженности).
Новизна: Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).

Выделение тренда и сезонности

Название: Повышение качества непараметрического пронгозирования путем выявления и учета экзогенных факторов (тренд и сезонность при этом выделяются из временного ряда и учитываются как экзогенные факторы)
Задача: Предлагается рассматривать тренд и сезонность как экзогенные факторы при прогнозировании железнодорожных перевозок.
Данные: Синтетические данные, исторические биржевые цены на основные инструменты и данные по железнодорожным грузоперевозкам.
Литература
- Вальков А.С., Кожанов Е.М., Мотренко А.П., Хусаинов Ф.И. Построение кросс-корреляционных зависимостей при прогнозе загруженности железнодорожного узла // Машинное обучение и анализ данных. 2013. T. 1, № 5. C. 505-518.
- Вальков А.С., Кожанов Е.М., Медведникова М.М., Хусаинов Ф.И. Непараметрическое прогнозирование загруженности системы железнодорожных узлов по историческим данным // Машинное обучение и анализ данных. — 2012. — № 4.

временных рядов.

Базовой алгоритм: Метод Грейнджера?
Решение: Для проверки наличия тренда и сезонности используются существующие методы выявления экзогенных факторов. При этом сезонность моделируется тригонометрическими рядами, тренд - экзогенными временными рядами из заданного списка.
Новизна: Новый подход к выделению тренда и сезонности?

Источник — «http://recognition.su/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_274%2C_%D0%B2%D0%B5%D1%81%D0%BD%D0%B0_2015»

@@ Строка 1: / Строка 1: @@
-=== Разработка алгоритма поиска параметров фибринолиза ===
+=== 39. Обучение метрик в задачах полного и частичного обучения ===
-* '''Название''': Разработка алгоритма поиска параметров фибринолиза.
+* '''Консультант:''' Ю.В. Максимов
-* '''Задача''':  Задан набор снимков роста фибринового сгустка, полученных в процессе исследования тромбодинамики и [https://ru.wikipedia.org/wiki/%D0%A4%D0%B8%D0%B1%D1%80%D0%B8%D0%BD%D0%BE%D0%BB%D0%B8%D0%B7| фибринолиза]. Требуется разработать алгоритм поиска координат отрезка и угла наклона линии активатора по серии снимков. Протестировать разработанный алгоритм на разных видах фибринолиза и примерах, где данный процесс отсутствует.
+* '''Задача:''' состоит в программной реализации комплекса методов выпуклой и DC-оптимизации для задачи выбора оптимальной метрики в задачах распознавания. Иными словами, в построении метрики такой, что классификация методом ближайших соседей дает  высокую точность.
-* '''Данные''': Массив снимков для каждого исследования формата tiff 16 бит c моментами времени от начала [сек] (Image_0 соответствует первому кадру, Image_181 - 45 минуте при интервале съемки 15 секунд).
+* '''Данные:''' Birds и Fungus коллекции ImageNet с извлеченными Deep features(предоставляется консультантом).
-*  '''Литература'''
+* '''Литература:''' Список литературы и описание подробное задачи приведены [[Медиа:Maximov_Metric_Learning%28Strijov_Course%29.pdf| в файле]]
-** Описание прикладной задачи и техническое задание: по запросу?<!--[[Медиа:160215_ТЗ_расчет_фибринолиза_от_О.С._Брусова.doc‎ doc]]-->
+* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
-* '''Базовой алгоритм''': Преобразование Хафа [https://www.cs.sfu.ca/~hamarneh/ecopy/compvis1999_hough.pdf| pdf], к примеру.
+* '''Базовый алгоритм:''' выпуклая релаксация задачи решаемая внутренней точкой через CVX.
-* '''Решение''':
-* '''Новизна''': ??
-=== Supervised rank aggregation with monotone feature transformation ===
+=== 25. Сравнение эффективности логических методов в задачах анализа данных ===
-* '''Название''': Supervised rank aggregation with monotone feature transformation.
+* '''Консультант:''' Ю.В. Максимов
-* '''Задача''':  We address the problem of supervised rank aggregation, the task of combining the ranking results of individual rankers at meta-search [Yu-Ting Liu et al].  In supervised learning rank aggregation is formalized as optimization which minimizes disagreements between ranking results and the labeled data. In current research we propose to expand the Borda Fuse rule (linear combination of ranking vectors) by considering monotone transformations of the rankings.
+* '''Задача:''' состоит в сравнительном исследовании качества комбинаторно-логических методов при решении задач анализа данных. В частности, сравнении методов, основанных на построении ДНФ разделяющих классы(редукционный; последовательное перемножение (Дьяконов)) и др.
-* '''Данные''':
+* '''Данные:''' Базы libsvm, uci и imagenet(файл с дип фичерсами для некоторых коллекций будет выдан консультантом).
-*  '''Литература'''
+* '''Литература:''' [http://www.machinelearning.ru/wiki/images/b/b1/Logical_Methods_Maximov%28Strijov_Cource_Proposal%29.pdf приведена в файле]
-** [https://www.dropbox.com/s/e859optapm53p3b/SupervisedRankAggregation.pdf?dl=0| Problem statement]
+* '''Замечания к коду:''' [[Медиа:MaximovProgrammingRequiremets.pdf|Замечания по программной реализации]]
-** Yu-Ting Liu, Tie-Yan Liu, Tao Qin, Zhi-Ming Ma, and Hang Li. Supervised rank aggregation. In Proceedings of the 16th international conference on World Wide Web, pages 481–490. ACM, 2007.
+* '''Базовый алгоритм:''' Базовый алгоритм: Решающие деревья(ID3, ID4.5, CART), построение ДНФ последовательным перемножением(Дьяконов, 2003) и другие приведенные в файлах-описаниях.
-* '''Базовой алгоритм''': Borda Fuse rule: linear combination of ranking vectors without monotone transformation.
-* '''Решение''':
-* '''Новизна''': The proposed class of monotone transformations allows to get any possible transformation of orders in Euclidean space. In the special case of the unit weight vector we get the vector of the Borda Count scores.
-== Задачи от Каневского ==
-=== Взаимозаменямость товаров ===
-* '''Задача''': аналогично задаче о новых товарах. Гипотеза: в продажах наблюдается взаимозаменямость товаров, проявляющаяся в виде:
-*#. Эффекта «каннибализации» - при появлении на рынке нового товара продажи аналогичных товаров (по группе, по цене) начинают падать.
-*# Снижения продаж аналогичных товаров при проведении промо-акции по данному товару;
-*# Повышения продаж аналогичных товаров при проведении-промо-акции по данному товару;
-Необходимо проверить гипотезу и повысить качество прогнозов путем учета эффектов взаимозаменяемости.
-* '''Решение''': Для решения задачи предлагается:
-*# Формализовать понятие «аналог» для новых товаров;
-*# Повысить качество прогнозирования товара в начале его продаж с помощью привлечения аналогов;
-*# Указать период, в течение которого товар следует считать новым и, соответственно, привлекать аналоги для его прогнозирования.
-=== Прогнозирование по группам ===
-* Дано: аналогично задаче о жизненном цикле.
-* Гипотеза: спрос на отдельные товары слишком неустойчив, поэтому прогнозировать непосредственно
-временной ряд продаж товара не имеет смысла. Более качественные прогнозы можно получить,
+=== По мотивам Липатовой ===
-предварительно агрегируя продажи по группам товаров и/или по магазинам, прогнозируя ряд группы, после
+* '''Название''': Supervised rank aggregation with monotone feature transformation.
-чего распределяя прогнозы обратно по товарам.
+* '''Задача''':  Сравниваются подходы к кластеризации временных рядов. Требуется кластеризовать набор временных рядов и приблизить каждый ряд прогностической моделью. Разница рассматриваемых подходов заключается в порядке выполнения шагов: 1) вначале выполнить кластеризацию, а затем приближать ряды/кластеры моделями или 2) вначале приблизить каждый ряд моделей, а затем кластеризовать набор рядов, используя информацию о сходстве моделей. Исследования, проведенные в [1] позволяют предположить, что второй подход точнее. Предлагается также рассмотреть комбинированный подход, при котором выбор модели и кластеризация временных рядов происходят одновременно [2].
-* Задача: повысить качество прогнозов, подобрав подходящую группировку данных.
+* '''Данные''': Временные ряды акселерометра, описывающие различные типы человеческой активности.
-* Внимание! Для прогнозирования группы может понадобиться другой алгоритм, чем для отдельных товаров.
+*  '''Литература'''
+** [1] М. Кузнецов. Классификация объектов сложной структуры. [http://svn.code.sf.net/p/mlalgorithms/code/TSLearning/doc/TSClassification/TSClassification.pdf?format=raw| pdf]
+** [2] А. Липатова. Одновременная кластеризация набора временных рядов и соответствующих им прогностических моделей. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Lipatova2014StructureLearning/doc/Lipatova2014StructureModelling.pdf?format=raw| pdf]
+* '''Базовой алгоритм''': Кластеризация временных рядов на основе набора интегральных признаков: среднее, дисперсия, максимальное значение и другие статистики (см. [1]).
+* '''Решение''': Предлагается сравнивать модели как векторы их прогнозов. Тогда расстояния между прогнозами всех рядов всеми моделями образуют четырехиндексную матрицу. Среза матрицы, минимизирующего внутрикластерное расстояние между рядами и моделями, выбирается генетическим алгоритмом.
+* '''Новизна''': Предложен более точный метод кластеризации набора временных рядов.
 == Задачи вокруг информационного поиска ==
-=== Simplification of the IR models structure ===
-* '''Название''': Simplification of the IR models structure
-* '''Задача''':  To achieve the acceptable quality of the information retrieval models, modern search engines use models of very complex structure. In current research we propose to simplify the model structure and make it interpretable without decreasing the model accuracy. To do this, we follow the idea from (Goswami et al., 2014) of constructing the set of nonlinear IR functions of simple structure and admissible accuracy. However, each of this
-functions is expected to have lower accuracy while comparing with the best IR model of complex structure. Thus, we propose to approximate this complex model with the linear combination of the simple nonlinear functions and expect to obtain the comparable quality of solution.
-* '''Данные''':
-* '''Литература'''
-** P. Goswami et Al. Exploring the Space of IR Functions // Advances in Information Retrieval. Lecture Notes in Computer Science. 8416:372-384, 2014.
-** [https://www.dropbox.com/s/yw7xczcnm8fbymk/StructureSimplification.pdf?dl=0| Problem statement]
-* '''Базовой алгоритм''':  Exaustive search of superpositions from a set of elementary functions.
-* '''Решение''': The optimal functions for the linear combination can be found by the greedy algorithm.
-* '''Новизна''':
 === Порождение ранжирующих моделей методом Насти (ветвей и границ) ===
@@ Строка 63: / Строка 41: @@
 * '''Данные''': Списки допустимых сгенерированных функций длины 4-8, список из 100 лучших функций длины 8, список из 500 лучших функций с оценками качества.
 *  '''Литература'''
-** [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/Group874/Motrenko2014FunctionLearning/doc/Motrenko2014FL.pdf?format=raw| Описание задачи]
+** [http://svn.code.sf.net/p/mlalgorithms/code/Group874/Motrenko2014FunctionLearning/doc/Motrenko2014FL.pdf?format=raw| Описание задачи]
 ** Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw| pdf]
 * '''Базовой алгоритм''': Алгоритм полного перебора допустимых суперпозиций порождающих функций.
@@ Строка 72: / Строка 50: @@
 ** Предложен алгоритм последовательного добавления элементы суперпозиций. Предложена функция расстояния между суперпозициями, исследованы ее свойства. Введено понятие сложности суперпозиции и понятие смежных суперпозиций, отличающихся по сложности на единицу. Предложен алгоритм порождения смежных суперпозиций.
-=== Структурное обучение при порождении моделей ===
-* '''Название''': Структурное обучение при порождении моделей
-* '''Задача''': Решается задача поиска ранжирующей функции в задачах информационного поиска. Поиск проводится среди непараметрических функций (структур), сгенерированныx грамматикой вида  G: g---> B(g, g) | U(g) | S, где B - набор бинарных операций {+, -, *, /}, U - унарных {-(), sqrt, log, exp}, S - переменных и параметров {x, y, k}. Предлагается решать задачу порождения ранжирующей модели в два этапа, используя в качестве обучающей выборки историю восстановления структуры модели.
-* '''Данные''': Подколлекции TREC.
-* Описание коллекции данных, используемых для оценки функций, и процедуры оценки. [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014RankinBySimpleFun/doc/Kulunchakov2014RankingBySimpleFun.pdf?format=raw|pdf]
-* '''Литература'''
-** Jaakkola T. Scaled structured prediction.
-** [http://www.youtube.com/watch?v=LbsBguCUFEc|Лекция Tommi Jaakkola “Scaling structured prediction”]
-** ''Найти все работы учеников TJ по данной тематике.''
-** Варфоломеева А.А. Дипломная работа бакалавра в MLAlgorithms/BSThesis/Varfolomeeva
-* '''Базовой алгоритм''': Парантапа, BM25 - модели для сравнения.
-* '''Решение''':
-* '''Новизна''': Обнаружены ранжирующие функции, не уступающие по качеству используемым на практике.
@@ Строка 102: / Строка 67: @@
 * '''Новизна''': Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
-=== Упрощение суперпозиций, доработка статьи Кулунчакова и Сологуба ===
-* '''Название''': Упрощение суперпозиций, доработка статьи Кулунчакова и Сологуба
-* '''Задача''': Написать обзор по методам упрощения суперпозиции, провести их сравнение (желательно на данных TREC?)
-* '''Данные''':
-* '''Литература'''
-** Ehrig H., Ehrig G., Prange U.,Taentzer. G. Fundamentals of Algebraic Graph Transformation. Springer, 2006.
-** Ehrig H., Engels G. Handbook of Graph Grammars and Computing by Graph Transformation. World Scientific Publishing, 1997.
-** Роман Сологуб. Алгоритмы индуктивного порождения и трансформации моделей. [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Sologub2013GenerationFinal/diss/my_input_2e.pdf?format=raw]
-** [http://svn.code.sf.net/p/mlalgorithms/code/Group174/Kulunchakov2014IsomorphicStructures/doc/Kulunchakov2014IsomorphicStructures.pdf?format=raw| Kulunchakov2014IsomorphicStructures.pdf]
-* '''Базовой алгоритм''': .
-* '''Решение''':
-* '''Новизна''': Обоснование новизны и значимости идей (для редколлегии и рецензентов журнала).
 == Непараметрическое прогнозирование временных рядов ==
@@ Строка 139: / Строка 93: @@
 ** [http://eml.berkeley.edu/wp/utdfp/vol5/iv-3.pdf|Demand Model Estimation and Validation] by Daniel McFadden, Antti Talvitie, and Associates, 1977
 ** [https://docs.google.com/document/d/1rM94pkq9dsq4MJFPlfFA5Me2FPlu8dBDEV7VUckUT9o/pub Density forecasting]: обзор гистограммных подходов к прогнозированию временных рядов.
-** Экспериментальные исследования свойств алгоритма Hist [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Stenina/Stenina2014HistProperties/Stenina2014HistProperties.pdf?format=raw], [http://sourceforge.net/p/mlalgorithms/code/HEAD/tree/PhDThesis/Stenina/Stenina2014HistProperties/Stenina2014HistKernelProperties.pdf?format=raw]
+** Экспериментальные исследования свойств алгоритма Hist [http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/Stenina/Stenina2014HistProperties/Stenina2014HistProperties.pdf?format=raw], [http://svn.code.sf.net/p/mlalgorithms/code/PhDThesis/Stenina/Stenina2014HistProperties/Stenina2014HistKernelProperties.pdf?format=raw]
 * '''Базовой алгоритм''': Алгоритм Hist.
 * '''Решение''': Чтобы включить в модель гистограммного прогнозирования экзогенные переменные, необходимо разработать методы оценки многомерных гистограмм/ условных гистограмм временных рядов при небольшой длине истории. (Длина исследуемого временного не очень велика, что при увеличении размерности гистограммы приводит к ее разреженности).