Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, осень 2010

Материал из MachineLearning.

(Различия между версиями)

Версия 12:28, 30 августа 2010

Численные методы обучения по прецедентам (программа курса)
Автоматизация и стандартизация научных исследований (программа курса)

Задачи

Название задачи	Задачу предложил	Комментарии
Классификация пациентов CVD с помощью биомаркеров (пример)	Д. Брей	Данные есть, закрыты
Прогнозирование финансовых пузырей (пример)	Э. Курюм	Данные открыты, но надо найти
Прогнозирование класса третичной структуры белка по первичной (пример)	И.Ю. Торшин	Данные открыты
Поиск нелинейной модели поверхности Мохоровичича (пример)	С.Н. Агеев	Данные будут подготовлены, открытость обсудим
Порождение суперпозиций при выборе модели кредитного скоринга (пример)	В.В. Стрижов	Данные открыты
Долгосрочное прогнозирование ежедневных цен на электроэнергию (пример)	М. Хильдман	Данные есть
Краткосрочное прогнозирование почасовых цен на электроэнергию (пример)	Г.-В. Вебер	Идут переговоры об открытии данных
Макроэкономическое моделирование и модели принятия решений (пример)	В.В. Стрижов	Данные есть
Прогнозирование концентрации кислорода в выхлопных газах дизельного двигателя (пример)	В.В. Стрижов	Данные будут
Прогнозирование управляемых макроэкономических показателей (пример)	В.В. Стрижов	Данные открыты
Оценка эффективности природоохранных программ (пример)	В.В. Стрижов (П. Летмате?)	Данных пока нет (в евр. комм. по энергетике, но неясно, какие использовать)

Классификация пациентов CVD с помощью биомаркеров (пример)

Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что

признаки-биомаркеры имеют множественную линейную зависимость;
пациентов мало: желательно оценить их необходимое число;
признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.

Прогнозирование финансовых пузырей (пример)

Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления финансовых пузырей. Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз. При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков. (Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков. При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.)

Прогнозирование класса третичной структуры белка по первичной (пример)

Требуется предложить алгоритм порождения признаков для восстановления регресии. При выборе признаков класс моделей (RBF, обсуждается) и метод выбора (метод моделей наибольшего правдоподобия) будут фиксированы.

Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]

Структура данных

>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]}
slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk
gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq

d1dlya_ -- идентификатор эксперимента (код файла в PDB),
a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).

Поиск нелинейной модели поверхности Мохоровичича (пример)

Черновик. Исследуется проблема разделения наблюденного (измеренного) поля силы тяжести на две компоненты. Одна должна отражать влияние границы разделяющая земную кору и мантию Земли (так называемая поверхность Мохоровичича или просто Мохо), а вторая собственно влияние самой земной коры. Специалистов, которые занимались и занимаются уточнением глубины до поверхности Мохо и проблемой ИЗОСТАЗИИ много, выполненных сейсмических работ по данной тематике (Глубинные сеймические зондирования ГСЗ) тоже много, опубликованных работ еще больше. Если бы эталоная выборка по данным ГСЗ была хорошей (равноточной и равномерной по площади) тогда построить глубину до Мохо $H=f(x,y)$ по экспериментальным данным с некоторой детальностью (естественно не выше некоторых пространственных частот) проблемы в целом не составляет. Задача состоит в детализации $H=f(x,y)$ используя поле силы тяжести $G$ измеренное с большей детальностью чем эталонная выборка. И тогда надо построить $H=f(x,y,G(x,y))$ . Само поле силы тяжести осложнено влиянием аномалий поля силы тяжести от некоторого количества известных и неизвестных изолированных объектов $A_i$ , и от влияния некоторого количества границ раздела $\Gamma_i$ . Тогда все превращается в $H=f(x,y,G(x,y,A_i,\Gamma_i))$ .

В дополнение ко всему может так получиться, что для некоторых ограниченных областей, несмотря на наши расчеты и полученные зависимости глубины $H$ из геологических данных могут быть такими и только такими, т.е. модели в таких областях будут отличны.

Прогнозирование управляемых макроэкономических показателей (пример)

Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на сайте ЦЭМИ. Исходное описание алгоритма находится [3], [4] и [5]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени.

Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.).

Коллоквиум

Начало октября

Доклад по результатам постановки задач и иссследованию литературы на пять минут. Требуется:

Аннотация работы, 600 знаков
Список литературы и оценка близости используемых методов
Постановка задачи
Пути решения задачи
Ожидаемые результаты

Экзамен

Конец ноября

Источник — «http://recognition.su/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_774%2C_%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2010»

Категория: Учебные курсы

@@ Строка 11: / Строка 11: @@
 ! Задачу предложил
 ! Комментарии
+|-
+| [[Классификация пациентов CVD с помощью биомаркеров (пример)]]
+|
+|
+| Д. Брей
+| Данные есть, закрыты
+|-
+| [[Прогнозирование финансовых пузырей (пример)]]
+|
+|
+| Э. Курюм
+| Данные открыты, но надо найти
 |-
 | [[Прогнозирование класса третичной структуры белка по первичной (пример)]]
@@ Строка 65: / Строка 77: @@
 | В.В. Стрижов (П. Летмате?)
 | Данных пока нет (в евр. комм. по энергетике, но неясно, какие использовать)
-|-
-| [[Выбор моделей прогноза финансовых пузырей (пример)]]
-|
-|
-| Г.-В. В.-?
-| Данных пока нет
 |-
 |}
+=== [[Классификация пациентов CVD с помощью биомаркеров (пример)]] ===
+Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что
+# признаки-биомаркеры имеют множественную линейную зависимость;
+# пациентов мало: желательно оценить их необходимое число;
+# признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
+# один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
+# в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.
+=== [[Прогнозирование финансовых пузырей (пример)]] ===
+Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления [http://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D0%BE%D0%BD%D0%BE%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%83%D0%B7%D1%8B%D1%80%D1%8C финансовых пузырей].
+Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз.
+При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков.
+(Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков.
+При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.)
 === [[Прогнозирование класса третичной структуры белка по первичной (пример)]] ===
@@ Строка 102: / Строка 124: @@
 Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством  авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [http://data.cemi.rssi.ru/graf/| сайте ЦЭМИ]. Исходное описание алгоритма находится [http://strijov.com/papers/macro1.pdf|здесь], [http://strijov.com/papers/mmro11.pdf|здесь] и [http://strijov.com/papers/Strijov2005ActualnyeProblemy.pdf|здесь]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени.
 Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.).
-=== [[Выбор моделей прогноза финансовых пузырей (пример)]] ===
-Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков.
-При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.
 == Коллоквиум ==

Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, осень 2010

Материал из MachineLearning.

Версия 12:28, 30 августа 2010

Задачи

Классификация пациентов CVD с помощью биомаркеров (пример)

Прогнозирование финансовых пузырей (пример)

Прогнозирование класса третичной структуры белка по первичной (пример)

Поиск нелинейной модели поверхности Мохоровичича (пример)

Прогнозирование управляемых макроэкономических показателей (пример)

Коллоквиум

Экзамен

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты