Математические методы прогнозирования (кафедра ВМиК МГУ)/Спецкурсы-спецсеминары
Материал из MachineLearning.
(Различия между версиями)
м |
|||
Строка 119: | Строка 119: | ||
}} | }} | ||
{{Курс|Режим = {{{1}}}|Название = | {{Курс|Режим = {{{1}}}|Название = | ||
- | + | [[Методы_автоматической_обработки_текстов_%28курс_лекций%2C_В.В.Китов%29/2016|Математические методы анализа текстов]], В.В. Китов, проходит по четвергам в ауд. 510, начало в 18-00. Первое занятие 25 февраля. | |
|Описание = | |Описание = | ||
В курсе даются математические подходы к автоматическому анализу и извлечению информации из текстов. Изучается обработка и парсинг текста: 1) на уровне слов (определение морфологических характеристик, частей речи), 2) на уровне предложений (определение субъекта, объекта, действия, дополнений), 3) на уровне фрагмента текста (определение именованных сущностей) и 4) на уровне коллекции документов (извлечение основных тем, представленных в коллекции). Далее изученные методы обработки текстов используются для классификации текстов по категориям, эффективной визуализации содержимого больших текстовых коллекций, извлечения фактов из текстов для наполнения баз данных фактов, представленных онтологиями. Спецкурс предполагает знание теории вероятностей, линейной алгебры, математического анализа и основ машинного обучения. В качестве основных инструментов работы с текстами будет использоваться язык программирования питон с научными библиотеками, модуль по обработке текстов NLTK, а также публично доступная онтология WordNet. | В курсе даются математические подходы к автоматическому анализу и извлечению информации из текстов. Изучается обработка и парсинг текста: 1) на уровне слов (определение морфологических характеристик, частей речи), 2) на уровне предложений (определение субъекта, объекта, действия, дополнений), 3) на уровне фрагмента текста (определение именованных сущностей) и 4) на уровне коллекции документов (извлечение основных тем, представленных в коллекции). Далее изученные методы обработки текстов используются для классификации текстов по категориям, эффективной визуализации содержимого больших текстовых коллекций, извлечения фактов из текстов для наполнения баз данных фактов, представленных онтологиями. Спецкурс предполагает знание теории вероятностей, линейной алгебры, математического анализа и основ машинного обучения. В качестве основных инструментов работы с текстами будет использоваться язык программирования питон с научными библиотеками, модуль по обработке текстов NLTK, а также публично доступная онтология WordNet. |
Версия 15:19, 10 марта 2016
|
|
| Тел. +7-495-939-4202 e-mail: Ученый секретарь: Д.А. Кропотов Все контакты |
Содержание[убрать] |
Расписание спецкурсов и спецсеминаров в весеннем семестре 2015/2016 уч.г.
Пара | Понедельник | Вторник | Среда | Четверг | Пятница |
---|---|---|---|---|---|
8:45 – 10:20 | |||||
10:30 – 12:05 | |||||
12:15 – 13:50 | |||||
14:35 – 16:10 | |||||
16:20 – 17:55 | С/К ЛАДР, Е.В. Дюкова, 645 | С/К ММИАД, А.И. Майсурадзе, 523 | |||
18:05 – 19:40 | С/С ААЭПЗ, А.Г. Дьяконов, 606 | С/К ЗАВГ, Л.М. Местецкий, 510 С/К НАД, В.В. Рязанов, 505 | С/К ММОПЗД, О.В. Сенько, 605 С/К ММАТ, В.В. Китов, 510 | С/С БММО, Д.П. Ветров, П-13 С/К ВТМ, К.В. Воронцов, 607 | |
20:00 – 21:35 |
Спецкурсы
- Вероятностное тематическое моделирование, К.В. Воронцов, проходит по пятницам в ауд. 607, начало в 18-00. Первое занятие 19 февраля.
- В спецкурсе изучаются методы тематического моделирования (topic modeling) коллекций текстовых документов. Тематические модели предназначены для выявления латентной семантики текстов. Развивается не-байесовский многокритериальный подход к решению некорректно поставленной задачи стохастического матричного разложения — аддитивная регуляризация тематических моделей. Рассматриваются тематические модели для решения прикладных задач разведочного информационного поиска (exploratory search) в коллекциях научных статей и в социальных сетях, задач классификации, категоризации, сегментации и суммаризации текстов естественного языка, задач коллаборативной фильтрации и рекомендательных систем, а также задач анализа и классификации дискретизированных биомедицинских сигналов. Особое внимание будет уделено методам дистрибутивной семантики типа word2vec и комбинированию статистических и лингвистических методов анализа текстов. Предполагается проведение студентами численных экспериментов на модельных и реальных данных, в том числе с использованием параллельной библиотеки с открытым кодом для онлайнового тематического моделирования BigARTM.
- Методы машинного обучения и поиск закономерностей в данных, О.В. Сенько, проходит по четвергам в ауд. 605, начало в 18-00. Первое занятие 18 февраля.
- В курсе обсуждаются основные проблемы, возникающие при использовании методов обучения по прецедентам (машинного обучения). Даётся краткий обзор существующих методов распознавания и регрессионного анализа. Рассказывается о способах оценки точности на генеральной совокупности (обобщающей способности). Обсуждаются различные способы повышения обобщающей способности методов машинного обучения.
- Задачи и алгоритмы вычислительной геометрии, Л.М. Местецкий, проходит по вторникам в ауд. 510, начало в 18-00. Первое занятие 16 февраля.
- Эффективные алгоритмы работы с геометрической информацией являются непременным атрибутом всех современных систем машинного зрения, анализа и распознавания изображений, компьютерной графики и геоинформатики. Геометрические алгоритмы предоставляют хорошее поле для развития алгоритмического мышления, необходимого в прикладной математике. В первой части спецкурса будут рассмотрены классические темы вычислительной геометрии: геометрический поиск, выпуклые оболочки, пересечение и близость объектов, диаграммы Вороного, триангуляции Делоне. Вторая часть курса посвящена скелетам, обобщениям диаграмм Вороного для многоугольников и задачам медиального анализа формы изображений.
- Логический анализ данных в распознавании, Е.В. Дюкова, проходит по понедельникам в ауд. 645, начало в 16-20. Первое занятие 29 февраля.
- В спецкурсе излагаются общие принципы, лежащие в основе дискретных методов анализа информации в задачах распознавания, классификации и прогнозирования. Рассматриваются подходы к конструированию процедур распознавания на основе использования аппарата логических функций и методов построения покрытий булевых и целочисленных матриц. Изучаются основные модели и рассмотрены вопросы, связанные с исследованием сложности их реализации и качества решения прикладных задач.
- Метрические методы интеллектуального анализа данных, А.И. Майсурадзе, проходит по вторникам в ауд. 523, начало в 16-20. Первое занятие 16 февраля.
- Рассматриваются методы и технологии, применяющиеся в интеллектуальном анализе данных (ИАД, data mining) и базирующиеся на понятиях сходства, близости, аналогии. Идея сходства свойственна человеческому мышлению, это породило целый комплекс подходов для всех фундаментальных задач ИАД, среди которых основное внимание в курсе уделено классификации, восстановлению регрессии, кластеризации, восстановлению пропущенных данных.
- Нестатистический анализ данных, В.В. Рязанов, проходит по вторникам в ауд. 505, начало в 18-00. Первое занятие 16 февраля.
- В спецкурсе рассматриваются проблемы и методы кластерного анализа (подходы и алгоритмы кластеризации с известным и неизвестным числом кластеров, критерии кластеризации, вопросы устойчивости, построение оптимальных решений), дискретные методы для решения задач классификации множествами алгоритмов, новые подходы и алгоритмы в регрессионном анализе и анализе данных (решение задач восстановления зависимостей на основе решения задач классификации). Рассматриваются практические задачи классификации и поиска зависимостей по прецедентам, применения в медицине, бизнесе и технике.
- Математические методы анализа текстов, В.В. Китов, проходит по четвергам в ауд. 510, начало в 18-00. Первое занятие 25 февраля.
- В курсе даются математические подходы к автоматическому анализу и извлечению информации из текстов. Изучается обработка и парсинг текста: 1) на уровне слов (определение морфологических характеристик, частей речи), 2) на уровне предложений (определение субъекта, объекта, действия, дополнений), 3) на уровне фрагмента текста (определение именованных сущностей) и 4) на уровне коллекции документов (извлечение основных тем, представленных в коллекции). Далее изученные методы обработки текстов используются для классификации текстов по категориям, эффективной визуализации содержимого больших текстовых коллекций, извлечения фактов из текстов для наполнения баз данных фактов, представленных онтологиями. Спецкурс предполагает знание теории вероятностей, линейной алгебры, математического анализа и основ машинного обучения. В качестве основных инструментов работы с текстами будет использоваться язык программирования питон с научными библиотеками, модуль по обработке текстов NLTK, а также публично доступная онтология WordNet.
- Неклассические математические модели обработки данных, А.И. Майсурадзе.
- В большинстве случаев анализ данных проводится с целью последующего принятия некоторого решения. Решение должно быть принято в результате некоторых рассуждений с использованием доступной информации о предметной области вообще и конкретной ситуации в частности. Цель курса состоит в том, чтобы продемонстрировать различные способы представления информации и формализации знаний, соответственно, различные способы проведения рассуждений и различные виды представления результатов, к которым указанные рассуждения приводят. Результаты анализа данных требуется транслировать в рамки того же самого формализма, который используется при рассуждениях. И наоборот, каждая модель предполагает свои способы перехода от формализма к окончательному решению. В курсе для каждой модели рассматриваются способы включения данных и рассуждений в общую стратегию принятия решений. В частности, будет продемонстрировано, как можно сравнивать конкурентов, и как каждый из конкурентов способен показать, что его предложение – лучшее.
- Восстановление зависимостей в больших массивах данных, О.В. Красоткина.
- Целью данного курса является систематическое изучение распределённых файловых систем (таких, как например, Hadoop) как инструмента для создания параллельных реализаций алгоритмов машинного обучения на больших массивах данных. В ходе курса студенты получат навык использования возможностей модели распределённых вычислений MapReduce для параллельных вычислений над очень большими наборами данных в компьютерных кластерах. В ходе курса рассматриваются параллельные реализации таких основных алгоритмов машинного обучения как регрессия, классификация, кластеризация, коллаборативная фильтрация, классификация в метрических пространствах и т.д. Так же в рамках курса студентам будет предложено разработать собственные параллельные реализации алгоритмов восстановления зависимостей. Курс ориентирован на студентов, знакомых с основными концепциями и алгоритмами машинного обучения.
- Методы оптимизации в машинном обучении, Д.А. Кропотов.
- В спецкурсе рассматриваются классические и современные методы непрерывной оптимизации, а также особенности их применения для задач оптимизации, возникающих в машинном обучении. Основной упор в изложении делается на практические аспекты реализации и использования методов. Спецкурс поддерживается практическими заданиями.
- Нестатистические методы анализа данных и классификации, В.В. Рязанов.
- Основная цель спецкурса состоит в изложении основанных на оптимизационных, дискретных и эвристических подходах методов анализа данных. Будут рассмотрены логические модели распознавания (классификации с учителем) и анализа разнотипных многомерных данных, методы оптимизации моделей распознавания, алгоритмы поиска скрытых логических закономерностей и связей по признаковым описаниям, методы создания качественных моделей объектов, ситуаций, явлений или процессов. Будут рассмотрены практические численные методы решения данных задач, и их применения в медицине, бизнесе, химии, технике и других областях.
- Прикладные задачи анализа данных, А.Г. Дьяконов, читайте информацию на странице курса.
- Непрерывные морфологические модели и алгоритмы, Л.М. Местецкий.
- В курсе рассматриваются основы непрерывного подхода к анализу формы объектов в дискретных изображениях. Сюда входит аппроксимация бинарных растровых изображений многоугольными фигурами, представление фигур циркулярными графами, вычисление скелетов, сравнение и преобразование формы на основе циркулярных графов. Рассматриваются приложения непрерывных моделей формы в распознавании изображений.
- Шаманство в анализе данных (для студентов 2 курса ВМК МГУ), А.Г. Дьяконов.
- Первая лекция: "Что такое машинное обучение и анализ данных?" Понедельник 02.03.2015 16:20 ауд.504 Курс читается для второкурсников, которые выбирают кафедру и научного руководителя, знакомит с некоторыми направлениями исследований, которые выполняются на кафедре математических методов прогнозирования. В первой лекции даётся обзор основных задач машинного обучения, рассматриваются приложения, описываются потребности современных компаний в решении подобных задач.
- Анализ информации, В.К. Леонтьев.
- Компьютерные методы обработки сигналов, О.В. Красоткина.
- Целью данного курса является систематическое изучение задач, теоретических методов и алгоритмов компьютерного анализа экспериментальных данных, упорядоченных вдоль некоторой оси. Курс лекций включает изучение базовых вопросов дискретизации сигналов по времени, получения их цифрового представления, цифровой фильтрации, спектрально-корреляционного анализа. Большое внимание уделяется вопросам построения и оценивания моделей нестационарных сигналов на основе марковской теории случайных процессов. Задачей курса является предоставить студентам уникальные инструменты, позволяющие решать конкретные прикладные задачи из различных областей знаний: миробиоологии, экономики, финансов, техники и технологии.
- Модели распознавания, Козлов Вадим Никитович.
- В курсе представлены как классические подходы к распознаванию образов (дискриминантный подход в детерминированной и вероятностной ипостасях, структурно-лингвистический, тестовый и алгебраический подходы), так и разработки последнего времени, включая те, которые делались в МГУ. Курс является существенно расширенным и усложненным вариантом курса Распознающие системы, прочитанного автором в интернете на сайтах образовательной организации Универсариум. Приглашаются студенты 2-4 курсов, все желающие.
- Исчисления высказываний классической и интуиционистской логик, С.И. Гуров.
- В спецкурсе рассматриваются основные понятия пропозициональной логики. Даются методы характеризации формул алгебры логики, в частности, метод резолюций и метод семантических таблиц. Изучаются логические исчисления гильбертовского и генценовского типов и общие свойства формальных теорий. Рассматриваются свойства метатеории логических исчислений: корректность и непротиворечивость, семантическая полнота, полнота по Посту, разрешимость и независимость. Спецкурс поддерживается практическими занятиями.
- Логико-статистические модели в распознавании, прогнозировании и интеллектуальном анализе данных, О.В. Сенько.
- Рассматриваются методы интеллектуального анализа данных, основанные на выделении в многомерном пространстве прогностических переменных областей, в которых значения прогнозируемой переменной достоверно отличаются от средних значений по всей выборке. Верификация выявленных закономерностей проводится с помощью рандомизированных перестановочных тестов. Приводятся примеры использования рассматриваемых методов при решении разнообразных прикладных задач.
- Извлечение информации из изображений, И.Б. Гуревич.
- В спецкурсе представлены постановки и методы решения математических и вычислительных задач, возникающих в связи с анализом и оцениванием информации, представляемой в виде изображений.
- Теория надёжности обучения по прецедентам, К.В. Воронцов.
- Спецкурс знакомит студентов с современным состоянием теории вычислительного обучения, исследующей проблему качества восстановления зависимостей по эмпирическим данным. Подробно рассматривается комбинаторная теория, позволяющая получать точные оценки вероятности переобучения.
- Задачи распознавания в биоинформатике, К.В. Рудаков, И.Ю. Торшин.
- Данный курс рассчитан на будущих специалистов в области математики и информатики. На примере биоинформатики иллюстрируется, как математик мог бы вникать в специфику предметной области, чтобы суметь успешно приспособить известные ему методы для решения прикладных и исследовательских задач.
Спецсеминары
- Алгебра над алгоритмами и эвристический поиск закономерностей, А.Г.Дьяконов, проходит по понедельникам в ауд. 606, начало в 18-00. Первое занятие 29 февраля.
- Байесовские методы машинного обучения, Д.П.Ветров, Д.А.Кропотов, М.В.Фигурнов, проходит по пятницам в ауд. П-13, начало в 18-10. Первое занятие 12 февраля.
- Учебно-научный семинар «Интеллектуальный анализ данных: новые задачи и методы», С.И.Гуров, А.И.Майсурадзе, проходит по вторникам в ауд. 704, начало в 18-05. Первое занятие 16 февраля.
- Проблемы обобщающей способности алгоритмов классификации, регрессии и прогнозирования, К.В.Воронцов.
- Комбинаторные основы теории информации, В.К.Леонтьев.
Ссылки
http://vmk.somee.com — страница со спецкурсами и спецсеминарами факультета ВМК.