Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 874, весна 2011
Материал из MachineLearning.
(→Задачи) |
(→Задача 8: Локальные методы прогнозирования, поиск инвариантного преобразования (пример)) |
||
Строка 138: | Строка 138: | ||
временных рядов. Эти методы отказываются от нахождения представления временного | временных рядов. Эти методы отказываются от нахождения представления временного | ||
ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на | ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на | ||
- | основе данных о каком-то участке временного ряда (используется локальная | + | основе данных о каком-то участке временного ряда (используется локальная информация). |
В данной работе подробно исследован следующий метод (обобщение классического | В данной работе подробно исследован следующий метод (обобщение классического | ||
«ближайшего соседа»). | «ближайшего соседа»). | ||
- | Пусть имеется временной ряд, и стоит задача | + | Пусть имеется временной ряд, и стоит задача продолжить его. Предполагается, что такое продолжение определяется |
«предысторией», т.е. в ряде нужно найти часть, которая после | «предысторией», т.е. в ряде нужно найти часть, которая после | ||
некоторого преобразования A «становится похожа» на ту часть, которую мы стремимся прогнозировать. Поиск такого преобразования A и есть цель данного проекта. Для определения степени «похожести» используется метрика B – функция близости двух отрезков | некоторого преобразования A «становится похожа» на ту часть, которую мы стремимся прогнозировать. Поиск такого преобразования A и есть цель данного проекта. Для определения степени «похожести» используется метрика B – функция близости двух отрезков |
Версия 04:58, 3 марта 2011
Перед выполнением заданий рекомендуются к прочтению
- Численные методы обучения по прецедентам
- Отчет о выполнении исследовательского проекта
- Автоматизация и стандартизация научных исследований
Задачи
В конце названия слово "(пример)" является ключевым и означает "пример работы алгоритма". |
Краткое описание задач
Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)
Описание задачи.
Задача 2: Экспоненциальное сглаживание и прогноз (пример)
Прогнозирование методом экспоненциальной регрессии является идейно простым алгоритмом прогнозирования временных рядов. Идея метода основана на учете предшествующих значений ряда с убывающими весами. В своей простейшей реализации алгоритм сильно сглаживает ряд и плохо учитывает тренды, сезонность и резкие изменения в тренде, а также необоснованно заметно реагирует на выбросы в данных. Предполагается изучение и реализация алгоритмов, пытающихся найти оптимальную модель путем минимизации ошибки на известном временном ряду.
Задача 3: Непараметрическое прогнозирование рядов с периодической составляющей (по мотивам работ прогнозирования объемов продаж) (пример)
Целью проекта является нахождение закономерности в определённом процессе и сравнение базового алгоритма, проводящего прогнозирование с помощью скользящего среднего, с алгоритмом, учитывающим цикличность задачи. Также необходимо исследовать различные флуктуации входящих параметров и минимизировать при этом отклонения.
Данный алгоритм можно использовать при прогнозировании цен, объёмов продаж, туристических потоков – любых процессов, подразумевающих наличие временных рядов с периодической составляющей. Алгоритм не предусмотрен для работы в авральных ситуациях, таких как: промо-акции, праздники и т.д. - данные ситуации описываются отдельной задачей. Результатом проекта является оценка эффективности алгоритма, учитывающего цикличность задачи.
Задача 4: Многомерная гусеница, выбор длины и числа компонент гусеницы (сравнение сглаженного и несглаженного временного ряда) (пример)
Требуется исследовать SSA-алгоритм (метод гусеницы) для многомерных временных рядов. Метод заключается в преобразовании ряда с помощью однопараметрической сдвиговой процедуры с последующим исследованием полученной траектории с помощью анализа главных компонент и восстановлением ряда по выбранным главным компонентам. В работе будет исследован вопрос выбора длины гусеницы и числа ее компонент, т.е. то, как определить по полученному разложению на компоненты, какие из них являются неинформативными (шумы). Также метод помогает увидеть и выделить разного рода закономерности в поведении временных рядов.
Результатом работы является выяснение эффективности работы алгоритма в зависимости от длины и числа компонент гусеницы, а также выяснение возможностей алгоритма и его области применимости.
Задача 5: Прогнозирование функциями дискретного аргумента (пример)
Дана функция дискретного аргумента. Требуется найти функцию f из некоторого параметрическую семейства, например, среди алгебраических полиномов заданной степени. Параметры функции f должны доставлять минимум некоторому функционалу.
В работе будут анализироваться монофонические мелодии.
Задача 7: Локальные методы прогнозирования,поиск метрики (пример)
Временной ряд делится на отдельные участки, каждому из которых сопоставляется точка в n-мерном пространстве признаков. Локальная модель рассчитывается в три последовательных этапа. Первый – находит k-ближайших соседей наблюдаемой точки. Второй – строит простую модель, используя только этих k соседей. Третий – используя даную модель, по наблюдаемой точке прогнозирует следующую. Многие исследователи, используют эвклидову метрику для измерения расстояний между точками. Данная работа призвана сравнить точность прогнозирования при использовании различных метрик. В частности, требуется исследовать оптимальный набор весов во взвешенной метрике для максимизации точности прогнозирования.
Задача 8: Локальные методы прогнозирования, поиск инвариантного преобразования (пример)
В проекте используются локальные методы прогнозирования временных рядов. Эти методы отказываются от нахождения представления временного ряда в классе заданных функций от времени. Вместо этого прогноз осуществляется на основе данных о каком-то участке временного ряда (используется локальная информация). В данной работе подробно исследован следующий метод (обобщение классического «ближайшего соседа»).
Пусть имеется временной ряд, и стоит задача продолжить его. Предполагается, что такое продолжение определяется «предысторией», т.е. в ряде нужно найти часть, которая после некоторого преобразования A «становится похожа» на ту часть, которую мы стремимся прогнозировать. Поиск такого преобразования A и есть цель данного проекта. Для определения степени «похожести» используется метрика B – функция близости двух отрезков временного ряда (подробнее об этом см.Локальные методы прогнозирования,поиск метрики (пример)). Так мы находим ближайшего соседа к нашей предыстории. В общем случае ищем несколько ближайших соседей. Продолжение запишется в виде их линейной комбинации.
Задача 9: Выравнивание временных рядов: прогнозирование с использованием DTW (пример)
Временным рядом называется последовательность упорядоченных по времени значений некоторой вещественной переменной . Задача, сопутствующая появлению временных рядов, - сравнение одной последовательности данных с другой. Сравнение последовательностей существенно упрощается после деформации временного ряда вдоль одной из осей и его выравнивания. Dynamic time warping (DTW) представляет собой технику эффективного выравнивая временных рядов. Методы DTW используются при распознавании речи, при анализе информации в робототехнике, в промышленности, в медицине и других сферах.
Цель работы - привести пример выравнивания, ввести функционал сравнения двух временных рядов, обладающий естественными свойствами коммутативности, рефлексивности и транзитивностина. Функционал должен принимать на вход два временных ряда, а на выходе давать число, характеризующее степень их "похожести".
Задача 10: Выбор функции активации при прогнозировании нейронными сетями (пример)
Целью проекта является исследование зависимости качества прогнозирования нейронными сетями без обратной связи (одно- и многослойными перцептронами) от выбранной функции активации нейронов в сети, а также от параметров этой функции, при наличии таковых.
Функция активации определяет сигнал на выходе нейрона в зависимости от результата работы сумматора на входе нейрона. Как правило, функция активации имеет область определения и область значений . В простейшем случае, изначально предложенном и моделирующим биологический нейрон, функция активации представляет собой функцию Хевисайда:
При дальнейшем развитии нейронных сетей оказалось полезным использование непрерывных функций, таких как логистическая функция и другие функции-сигмоиды () и немонотонные функции, такие как тригонометрический синус.
Результатом проекта является оценка качества прогнозирования нейронными сетями в зависимости от типа и параметров функции активации.
Задача 12: Исследование сходимости при прогнозировании нейронными сетями с обратной связью (пример)
Цель проекта - исследовать зависимость сходимости прогнозирования от параметров нейронной сети. Понятие обратной связи характерно для динамических систем, в которых выходной сигнал некоторого элемента cистемы оказывает влияние на входной сигнал этого элемента. Входной cигнал , внутренний сигнал и выходной сигнал связаны соотношениями: ; , где A и B - опреаторы. Предполагается, что A - это фиксированный вес, а B - это оператор единичной задержки . Отсюда , где . Выходной сигнал можно представить в виде бесконечной взвешенной суммы текущего и предыдущих входных сигналов. При выходной сигнал экспоненциально сходится. Нужно исследовать какие факторы с каким весов влияют на w.
Задача 13: Многомерная гусеница, выбор временных рядов при прогнозировании(пример)
Работа посвящена исследованию одного из методов анализа многомерных временных рядов - метода "гусеницы", также известного как Singular Spectrum Analysis или SSA. Метод можно разделить на четыре этапа - представление временного ряда в виде матрицы при помощи сдвиговой процедуры, вычисление ковариационной матрицы выборки и сингулярное ее разложение, отбор главных компонент,относящихся к различным составляющим ряда (от медленно меняющихся и периодических до шумовых), и, наконец, восстановление ряда.
Областью применения алгоритма являются задачи как метеорологии и геофизики, так и экономики и медицины. Целью данной работы является выяснение зависимости эффективности алгоритма от выбора временных рядов, используемых в его работе.
Доклады и экзамен (возможны уточнения)
- Доклад-1 6 апреля
- Контрольная точка 18 мая
- Экзамен 25 мая
Список задач, черновик
- Непараметрическое прогнозирование (выбор ядра из набора, настройка параметров)
- Прогнозирование и экспоненциальное сглаживание (набор временных рядов, исследование современного состояния)
- Непараметрическое прогнозирование рядов с периодической составляющей (по мотивам работ прогнозирования объемов продаж)
- Многомерная гусеница, выбор длины и числа компонент гусеницы (сравнение сглаженного и несглаженного временного ряда)
- Многомерная гусеница, выбор временных рядов при прогнозировании
- Многомерная авторегрессия
- Локальные методы прогнозирования, поиск метрики
- Локальные методы прогнозирования, поиск инвариантного преобразования
- Прогнозирование с использованием пути наименьшей стоимости (DTW)
- Выбор функции активации при прогнозировании нейронными сетями
- Выбор ядра при прогнозировании функциями радиального базиса
- Исследование сходимости при прогнозировании нейронными сетями с обратной связью
- Прогнозирование функциями дискретного аргумента
- Прогнозирование с использованием теста Гренжера
- Прогнозирование и SVN – регрессия
- ARIMA и GARCH при прогнозировании высоковолатильных рядов с периодической составляющей (цен на электроэнергию)
- Прогнозирование и аппроксимация сплайнами