Численные методы обучения по прецедентам (практика, В.В. Стрижов)/Группа 974, осень 2012

Материал из MachineLearning.

(Различия между версиями)

Версия 17:44, 24 декабря 2012

Основная статья: Численные методы обучения по прецедентам (практика, В.В. Стрижов)

Курс "Математические методы прогнозирования"

Список задач

Название задачи	Автор	Рецензент	Ссылка на работу	Комментарии
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации	Медведникова Мария	Цыганова Светлана	[1]	Принято
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений	Целых Влада			Подать
Иерархическая тематическая кластеризация тезисов и визуализация	Кузьмин Арсентий		[2]	Завершение
Совместный выбор объектов и признаков в задачах многоклассовой классификации.	Адуенко Александр	Иванова Алина	[3]	Редакция
Построение иерархических тематических моделей	Цыганова Светлана	Медведникова Мария		Редакция
Выбор признаков в задачах структурной регрессии	Варфоломеева Анна		[4]	Редакция
Проверка адекватности тематической модели	Степан Лобастов		[5]	Редакция
Построение логических правил при разметке текстов	Иванова Алина	Адуенко Александр	[6]	Неясно
	Александр Шульга			Неизвестно
Методы извлечения признаков из текстовой информации	Егор Клочков			Неизвестно

Расписание

Дата		Что делаем	Результат для обсуждения	Код
Сентябрь	10	Выбрана задача, рецензент	Запись в ML
	17	Выбрана задача, найдены базовые публикации.	Аннотация, 600 знаков.	Annotation
	24	Собрана литература, она в bib; найдены данные.	Введение, примерно одна страница.	Introduction
Октябрь	8	Поставлена задача, собраны все Литература по работе. Найдены публикации.	Постановка задачи, полстраницы.	Problem
	15	Поставлен вычислительный эксперимент, получены первые результаты.	Визуализация данных.	Visualizing
	22	Описание алгоритма.	Алгоритмическая часть (третий раздел).	Document
	29	Теоретическая часть.	Второй раздел.	Theory
Ноябрь	5	Завершение вычислительного эксперимента.	Описание эксперимента и анализ ошибок.	Comp
	12	Контрольная точка - показ статьи в целом.	Статья.	cHeck
	19	Доработка статьи; доклад, первая группа.	Доклад.	Show
	26	Доклад, вторая группа.	Подача статьи в журнал.	Journal
Декабрь	3	Доклад, третья группа.	Рецензия написана, [r]-рецензенту	Review, [r]
	10	Последний день для претендентов на оценки 10,9,8.	Экзамен	(score)

Черновой список задач

1. 2012CoRegression

Название: Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации.
Тизер: Построение интегральной оценки эффективности научной деятельности.
Данные: Синтетические. ПРНД сотрудников. Таблица авторы-журналы и число статей выбранных авторов в журналах.
Литература: К.В.Воронцов «Коллаборативная фильтрация».
Ключевые слова: индекс Хирша, ко-кластеризация, коллаборативная фильтрация.
Предлагаемый алгоритм Совместная регрессия (придумать или найти готовую).
Базовый алгоритм: Вычисленный IF журналов и h-index авторов. (Кокластеризация или адаптивная фильтрация для сравнения на годится).
Проблема: Описание в файле. Дополнительно: при создании рейтинга встает проблема разбиения множества авторов и журналов на кластеры. Размер кластера требуется соотнести с "Оценкой вовлеченности автора/журнала в научное сообщество". Эта оценка должна войти в рейтинг (в крайнем случае, должна быть представлена отдельно).

2. 2012ExpertRanking

Название: Согласование ранговых экспертных оценок.
Тизер: Методы ранжирования при голосовании (выборе литературных произведений, выборе ограниченного комитета).
Данные: Интернет-голосование за список книг, голосование без кооптации.
Литература: Статья в Notices AMS, 2008, 55(4). Нужно будет сделать обзор литературы по этой проблеме.
Предлагаемый алгоритм: Нахождение пересечения конусов и оценка эффективной размерности пространства или другой алгоритм.
Базовый алгоритм: Медиана Кемени и другие алгоритмы.
Проблема: Требуется проиллюстрировать и изучить свойства алгоритма выбора комитета. В частности, осветить следующую проблему. Рейтинг n выбранных кандидатов отличается от рейтинга n+k выбранных кандидатов, при единственном голосовании с выбором из N кандидатов. Возможно, требуется осветить парадокс Эрроу.

3. 2012StructureRegression

Название: Выбор признаков в задачах структурной регрессии
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
Данные: библиографические записи из BibTeX collection on CS.
Литература: работы Jaakkola и его команды, возможно, код.
Предлагаемый алгоритм: Структурная регрессия.
Базовый алгоритм: описан Валентином.
Требуется: сегментировать входной текст и поставить в соответствие каждому сегменту поле, а каждой группе полей - тип библиографической записи.

4. 2012LogicClassification

Название: Построение логических правил при разметке текстов
Тизер: Алгоритм структурной регрессии для разметки библиографических списков, тезисов и других структурированных текстов.
Данные: библиографические записи из BibTeX collection on CS / тезисы конференций, другие размеченные тексты.
Литература: работы Инякина, Чувилина, Кудинова.
Предлагаемый алгоритм: Решающие деревья, тупиковые покрытия.
Базовый алгоритм: описан Валентином.
Требуется: обучить модель, разметки текста, используя решающие правила над RegExp - строками.

5. 2012RankClustering

Название: Ранговая кластеризация и алгоритмы динамического выравнивания.
Тизер: Поиск дубликатов в библиографических записях. Динамическое выравнивание при нахождении дубликатов библиографических записей.
Данные: Испорченные и некорректные библиографические записи (базы студенческих рефератов). Более 1000 библиографических записей из статей/книг по анализу данных.
Литература: Стрижов et al. «Метрическая кластеризация последовательностей», работы по быстрой кластеризации k-Means.
Ключевые слова: DTW — модификации, k-Means.
Предлагаемый алгоритм: Алгоритм ранговой кластеризации.
Базовый алгоритм: k-Means и его высокопроизводительные вариации.
Проблема: Требуется модифицировать процедуру вычисления стоимости пути выравнивания так, чтобы обнаруживать и учитывать инварианты перестановок (и допустимых модицикаций) частей библиографической записи.

6. 2012ThematicClustering

Название: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
Литература: по кластеризации, и введению расстояний между текстами как мешками слов.
Ключевые слова: иерархическая кластеризация, метрики сходства текстов.
Предлагаемый алгоритм: алгоритм иерархической кластеризации k-means + классификация k-NN.
Базовый алгоритм: k-Means
Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

7. 2012ThematicHierarchy

Название: Построение иерархических тематических моделей.
Тизер: Иерархическая тематическая кластеризация тезисов. Построение тематической модели на материалах конференции.
Данные: Тексты тезисов.
Литература: иерархические модели, topic modelling.
Ключевые слова: иерархическое тематическое моделирование.
Предлагаемый алгоритм: иерархические модели, оценка распределения по темам.
Базовый алгоритм: PLSA--LDA.
Проблема: Требуется построить иерархическую тематическую модель путем вычисления статистических оценок функций распределения слов по темам.

8. 2012ThematicVisualizing

Название: Визуализация иерархических тематических моделей.
Тизер: На материалах конференции EURO.
Данные: Тексты тезисов конференции Евро-2012.
Литература: многомерное шкалирование, кластеризация.
Ключевые слова: визуализация графов.
Предлагаемый алгоритм:
Базовый алгоритм: --
Проблема: Требуется визуализировать матрицу парных расстояний таким образом, чтобы можно было принять решение о
- корректировки названий тем/подтем конференции,
- переносе тезиса из одной темы в другую,
- адекватности соответствия модельной и фактический кластеризации.

9. 2012CovSelection

Название: Совместный выбор объектов и признаков в задачах многоклассовой классификации.
Тизер: Ранжирование поисковых выдач Яндекса.
Данные: Яндекс – математика.
Литература: Бишоп, Стрижов.
Ключевые слова: логистическая регрессия, выбор признаков, фильтрация объектов.
Предлагаемый алгоритм: Совместный выбор путем анализа ковариационных матриц.
Базовый алгоритм: SVM.
Проблема: Взять матрицу T, с. 209 Бишопа, сделать многоклассовую классификацию (с. 208). Проверить на синтетической выборке того же формата, что и данные Яндекса. (Для сравнения запустить алгоритм SVM на этой же выборке.Связать с выбором признаков.) Оценить матрицы гиперпараметров многоклассовой регрессионной модели. Предложить пошаговый алгоритм совместного выбора с максимизацией правдоподобия модели.

10. 2012ThematicMatching

Название: Определение соответствия документа тематике на основе выделения ключевых фраз.
Тизер: Соответствует ли диссертация объявленному паспорту диссертации? Какова фактическая специальность диссертации?
Данные: Авторефераты диссертаций (SugarSync). Паспорта специальностей.
Литература: (Статья С. Царькова «Морфологические и статистические методы выделения ключевых фраз для построения вероятностных тематических моделей коллекций текстовых документов» - проверить).
Ключевые слова: ключевые фразы, тематические модели, N-граммы, морфологические и статистические признаки.
Предлагаемый алгоритм:
Базовый алгоритм: C-Value и TF-IDF.
Проблема: Требуется проверить каждый автореферат из коллекции на формальное соответствие паспорту декларируемой в автореферате специальности. При этом пункты паспорта рассматриваются как описания тем. Реферат считается соответствующим данной теме, если в совокупная вероятность принадлежности заданного числа терминов к одному из описаний темы данной специальности выше, чем принадлежность описаниям темы других специальностей.
Проблема, еще раз: Выделяем ключевые слова из документа. Считаем, что паспорт специальности состоит из ключевых слов. Находим расстояния от одного набора ключевых слов до другого. В итоге
- пополняем паспорт известной специальности новыми ключевыми словами, либо
- находим ближайший паспорт специальности.
Варианты решения: Введение функции расстояния от совокупности терминов до описания темы, построение матрицы таких расстояний.

11. 2012FeatureGen

Название: Последовательное порождение и выбор признаков в задаче многоклассовой классификации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Данные: синтетические, интернет-коллекция.
Литература: Стрижов, Рудой.
Ключевые слова: порождение признаков, поиск изоморфных моделей.
Предлагаемый алгоритм: алгоритм последовательного порождения суперпозиций.
Базовый алгоритм: решающие деревья.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

12. 2012TypeDetection

Название: Методы извлечения признаков из текстовой информации
Тизер: Научно ли данное произведение? Определение типа произведения (определение научной области произведения). Определение социальной роли автора текста.
Данные: синтетические, интернет-коллекция.
Литература Найти.
Ключевые слова: иерархическая кластеризация, structural learning, метрики сходства текстов.
Предлагаемый алгоритм.
Базовый алгоритм.
Проблема: Требуется построить набор признаков, по которым можно классифицировать текст.

Темы К.В. Воронцова

2012SparceDistribution Статистические критерии однородности и согласия для сильно разреженных дискретных распределений (В.Ц.)

2012LatentModels

Название: Проверка адекватности тематической модели.
Тизер: Методы выявления некорректной тематической классификации на материалах конференции. Методы построения тематической модели, сходной с заданной. Кластеризация статей, иерархические тематические модели с тематической интерпретируемостью. Иерархическая тематическая кластеризация тезисов.
Данные: Тексты тезисов конференции Евро-2012, 1862 тезиса.
Литература: по латентным моделям.
Ключевые слова: мягкая кластеризация, латентные модели.
Предлагаемый алгоритм: hHDP.
Базовый алгоритм: HDP.
Проблема: Требуется построить тематическую модель методом кластеризации и проверить корректность текущей классификации текстов. Для этого выполняется (иерархическая) кластеризация текстов, каждому кластеру ставится в соответствие название темы, соответствующее большинству статей из кластера. После построения модели каждая статья проверяется и относится к своей или к чужой теме.

Ссылки

https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/utilities В SugarSync/remarks находится документ с одной из возможных функций расстояния между текстами.

Литература

https://www.sugarsync.com Файлохранилище, где находятся материалы по проекту. Доступ к соответствующей папке предоставлен по адресу электронной почты. Материалы включают публикации по каждой теме.

Публикация работ

Название задачи	Автор	Ссылка на журнал	Исходный текст работы	Дата подачи	Состояние
Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации	Медведникова Мария	Известия ТулГу	[7]	15.11.2012	Принято
Статистические критерии однородности и согласия для сильно разреженных дискретных распределений	Целых Влада		[8]		Подать
Иерархическая тематическая кластеризация тезисов и визуализация	Кузьмин Арсентий	Программная инженерия	[9]	17.12.2012	Подано
Совместный выбор объектов и признаков в задачах многоклассовой классификации	Адуенко Александр	Инфокоммуникационные технологии	[10]	18.12.2012	Подано
Построение иерархических тематических моделей	Цыганова Светлана	Прикладная информатика	[11]		Редакция
Выбор признаков в задачах структурной регрессии	Варфоломеева Анна	Научно-технические ведомости С.-Пб.ПГУ	[12]		Редакция
Проверка адекватности тематической модели	Степан Лобастов		[13]		Редакция
Выбор признаков и оптимизация метрики при кластеризации коллекции документов	Адуенко А.А., Кузьмин А.А., Стрижов В.В.	Известия ТулГу	[14]	12.10.2012	Опубликовано
Визуализация матрицы парных расстояний между документами	Адуенко А.А., Стрижов В.В.	Научно-технические ведомости С.-Пб.ПГУ	[15]	29.10.2012	Принято
Алгоритм оптимального расположения названий коллекции документов	Адуенко А.А., Стрижов В.В.	Программная инженерия	[16]	13.11.2012	Принято
Оценивание вероятностей появления строк в коллекции документов	Будников Е.А., Стрижов В.В.	Информационные технологии	[17]	24.09.2012	Принято
Построение логических правил при разметке текстов (добавлено)	?	?			Нужно сделать

Список принятых к публикации работ

1. Адуенко А. А., Стрижов В. В. Визуализация матрицы парных расстояний между документами // Научно-технический вестник С.-Пб. ПГУ. Информатика. Телекоммуникации. Управление, 2013, 1 — ?.
2. Адуенко А. А., Кузьмин А. А., Стрижов В. В. Выбор признаков и оптимизация метрики при кластеризации коллекции документов // Известия Тульского государственного университета, Естественные науки, 2012, 3 — ?
3. Адуенко А. А., Стрижов В. В. Алгоритм оптимального расположения названий коллекции документов // Программная инженерия, 2013. 3 - ?
4. Будников Е. А., Стрижов В. В. Оценивание вероятностей появления строк в коллекции документов // Информационные технологии, 2013.
5. Медведникова М. М., Стрижов В. В. Вычисление интегральных индикаторов в ранговых шкалах методами ко-кластеризации // Известия Тульского государственного университета, Естественные науки, 2012, № 3.

Источник — «http://recognition.su/wiki/index.php?title=%D0%A7%D0%B8%D1%81%D0%BB%D0%B5%D0%BD%D0%BD%D1%8B%D0%B5_%D0%BC%D0%B5%D1%82%D0%BE%D0%B4%D1%8B_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D1%8F_%D0%BF%D0%BE_%D0%BF%D1%80%D0%B5%D1%86%D0%B5%D0%B4%D0%B5%D0%BD%D1%82%D0%B0%D0%BC_%28%D0%BF%D1%80%D0%B0%D0%BA%D1%82%D0%B8%D0%BA%D0%B0%2C_%D0%92.%D0%92._%D0%A1%D1%82%D1%80%D0%B8%D0%B6%D0%BE%D0%B2%29/%D0%93%D1%80%D1%83%D0%BF%D0%BF%D0%B0_974%2C_%D0%BE%D1%81%D0%B5%D0%BD%D1%8C_2012»

@@ Строка 351: / Строка 351: @@
 |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.pdf Построение иерархических тематических моделей]
 |Цыганова Светлана
-|
+|[http://www.appliedinformatics.ru/r/authors/ Прикладная информатика]
 |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Tsyganova2012TopicIerarhy/Tsyganova2012TopicIerarhy_copy.tex]
 |
@@ Строка 358: / Строка 358: @@
 |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.pdf Выбор признаков в задачах структурной регрессии]
 |Варфоломеева Анна
-|
+|[http://ntv.spbstu.ru/index4.html Научно-технические ведомости С.-Пб.ПГУ]
 |[https://mlalgorithms.svn.sourceforge.net/svnroot/mlalgorithms/Varfolomeeva2012StructureLearning/doc/Varfolomeeva2012StrcLearning.tex]
 |