Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 774, осень 2010
Материал из MachineLearning.
м |
(→Задачи) |
||
Строка 11: | Строка 11: | ||
! Задачу предложил | ! Задачу предложил | ||
! Комментарии | ! Комментарии | ||
+ | |- | ||
+ | | [[Классификация пациентов CVD с помощью биомаркеров (пример)]] | ||
+ | | | ||
+ | | | ||
+ | | Д. Брей | ||
+ | | Данные есть, закрыты | ||
+ | |- | ||
+ | | [[Прогнозирование финансовых пузырей (пример)]] | ||
+ | | | ||
+ | | | ||
+ | | Э. Курюм | ||
+ | | Данные открыты, но надо найти | ||
|- | |- | ||
| [[Прогнозирование класса третичной структуры белка по первичной (пример)]] | | [[Прогнозирование класса третичной структуры белка по первичной (пример)]] | ||
Строка 65: | Строка 77: | ||
| В.В. Стрижов (П. Летмате?) | | В.В. Стрижов (П. Летмате?) | ||
| Данных пока нет (в евр. комм. по энергетике, но неясно, какие использовать) | | Данных пока нет (в евр. комм. по энергетике, но неясно, какие использовать) | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
|- | |- | ||
|} | |} | ||
+ | |||
+ | |||
+ | === [[Классификация пациентов CVD с помощью биомаркеров (пример)]] === | ||
+ | Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что | ||
+ | # признаки-биомаркеры имеют множественную линейную зависимость; | ||
+ | # пациентов мало: желательно оценить их необходимое число; | ||
+ | # признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех; | ||
+ | # один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1); | ||
+ | # в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу. | ||
+ | |||
+ | === [[Прогнозирование финансовых пузырей (пример)]] === | ||
+ | Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления [http://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D0%BE%D0%BD%D0%BE%D0%BC%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%83%D0%B7%D1%8B%D1%80%D1%8C финансовых пузырей]. | ||
+ | Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз. | ||
+ | При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков. | ||
+ | (Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков. | ||
+ | При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.) | ||
=== [[Прогнозирование класса третичной структуры белка по первичной (пример)]] === | === [[Прогнозирование класса третичной структуры белка по первичной (пример)]] === | ||
Строка 102: | Строка 124: | ||
Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [http://data.cemi.rssi.ru/graf/| сайте ЦЭМИ]. Исходное описание алгоритма находится [http://strijov.com/papers/macro1.pdf|здесь], [http://strijov.com/papers/mmro11.pdf|здесь] и [http://strijov.com/papers/Strijov2005ActualnyeProblemy.pdf|здесь]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени. | Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на [http://data.cemi.rssi.ru/graf/| сайте ЦЭМИ]. Исходное описание алгоритма находится [http://strijov.com/papers/macro1.pdf|здесь], [http://strijov.com/papers/mmro11.pdf|здесь] и [http://strijov.com/papers/Strijov2005ActualnyeProblemy.pdf|здесь]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени. | ||
- | Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.). | + | Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.). |
- | + | ||
- | + | ||
- | + | ||
- | + | ||
- | + | ||
== Коллоквиум == | == Коллоквиум == |
Версия 12:28, 30 августа 2010
- Численные методы обучения по прецедентам (программа курса)
- Автоматизация и стандартизация научных исследований (программа курса)
Задачи
Классификация пациентов CVD с помощью биомаркеров (пример)
Даны пациенты cardiovascular disease нескольких классов: A1, A2, A3, B1, B2, B3. Требуется в пространстве двадцати признаков выполнить классификацию "один против всех" и статистически показать адекватность полученной модели. Задача осложняется тем, что
- признаки-биомаркеры имеют множественную линейную зависимость;
- пациентов мало: желательно оценить их необходимое число;
- признаков много, однако классифицировать нужно по (линейной-?) комбинации двух-трех;
- один класс можно выделить с помощью нескольких разных наборов признаков (см. п. 1);
- в связи с важностью правильной классификации (речь идет о здоровье конкретных людей) необходимо подготовить эмпирическую доказательную базу.
Прогнозирование финансовых пузырей (пример)
Даны временные ряды - цены биржевых инструментов. Требуется выполнить ранний прогноз появления финансовых пузырей. Задача посвящена синтезу и выбору наиболее информативных признаков, извлеченных из временных рядов, позволяющих выполнять прогноз. При этом требуется формализовать само понятие "пузырь", например, посредством автоматической или экспертной разметки и придумать набор правил порождения признаков. (Черновик. Использовать тест Гренджера для статистического обоснования зависимости предсказываемого события от порождаемых признаков. При порождении в первую очередь использовать алгоритмы разметки временных рядов. Так как события могут быть отнесены к одному из нескольких классов, требуется предложить алгоритм определения классов на основании анализа объединения и пересечения порожденных множеств признаков.)
Прогнозирование класса третичной структуры белка по первичной (пример)
Требуется предложить алгоритм порождения признаков для восстановления регресии. При выборе признаков класс моделей (RBF, обсуждается) и метод выбора (метод моделей наибольшего правдоподобия) будут фиксированы.
Предлагается использовать базу данных "ASTRAL SCOP Genetic Domain Sequences 1.75"[1], архив PDB SEQRES records: astral-scopdom-seqres-gd-all-1.75.fa[2]
Структура данных
>d1dlya_ a.1.1.1 (A:) Protozoan/bacterial hemoglobin {Green alga (Chlamydomonas eugametos) [TaxId: 3054]} slfaklggreaveaavdkfynkivadptvstyfsntdmkvqrskqfaflayalggasewk gkdmrtahkdlvphlsdvhfqavarhlsdtltelgvppeditdamavvastrtevlnmpq
- d1dlya_ -- идентификатор эксперимента (код файла в PDB),
- a.1.1.1 -- классификатор белка, иерархическая структура разделена точками,
- slfaklggreavea... -- последовательность аминокислот (без пробелов и переносов до символа >).
Поиск нелинейной модели поверхности Мохоровичича (пример)
Черновик. Исследуется проблема разделения наблюденного (измеренного) поля силы тяжести на две компоненты. Одна должна отражать влияние границы разделяющая земную кору и мантию Земли (так называемая поверхность Мохоровичича или просто Мохо), а вторая собственно влияние самой земной коры. Специалистов, которые занимались и занимаются уточнением глубины до поверхности Мохо и проблемой ИЗОСТАЗИИ много, выполненных сейсмических работ по данной тематике (Глубинные сеймические зондирования ГСЗ) тоже много, опубликованных работ еще больше. Если бы эталоная выборка по данным ГСЗ была хорошей (равноточной и равномерной по площади) тогда построить глубину до Мохо по экспериментальным данным с некоторой детальностью (естественно не выше некоторых пространственных частот) проблемы в целом не составляет. Задача состоит в детализации используя поле силы тяжести измеренное с большей детальностью чем эталонная выборка. И тогда надо построить . Само поле силы тяжести осложнено влиянием аномалий поля силы тяжести от некоторого количества известных и неизвестных изолированных объектов , и от влияния некоторого количества границ раздела . Тогда все превращается в .
В дополнение ко всему может так получиться, что для некоторых ограниченных областей, несмотря на наши расчеты и полученные зависимости глубины из геологических данных могут быть такими и только такими, т.е. модели в таких областях будут отличны.
Прогнозирование управляемых макроэкономических показателей (пример)
Требуется построить управляемую векторную авторегрессионную модель макроэкономический системы и предложить способ управления переменными этой системы. Дан набор временных рядов. Каждый из рядов соответствует управляющей или управляемой переменной. Прогноз выполняется посредством авторегрессионной матрицы, а управление выполняется посредством обращенной матрицы. Данные находятся на сайте ЦЭМИ. Исходное описание алгоритма находится [3], [4] и [5]. Требуется обратить внимание на две проблемы. Первая: при управлении системой требуется обоснованно использовать принцип Беллмана. Вторая: требуется показать, что результат управления системой статистически значимо отличается от случайного блуждания состояния системы во времени.
Внимание! Ссылка на данные на 19.08.10 не открывается. Но старые данные есть, а новые данные являются открытыми (буду благодарен за список переменных и за ссылку - В.С.).
Коллоквиум
- Начало октября
Доклад по результатам постановки задач и иссследованию литературы на пять минут. Требуется:
- Аннотация работы, 600 знаков
- Список литературы и оценка близости используемых методов
- Постановка задачи
- Пути решения задачи
- Ожидаемые результаты
Экзамен
Конец ноября