Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК

Материал из MachineLearning.

Версия от 22:13, 11 сентября 2019; Vokov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Программа курса
2 Отчетность по курсу
3 Литература
4 Ссылки

Программа спецкурса, прочитанного весной 2019 года студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ.

Программа курса

Введение

Презентация: (PDF, 1,7 МБ) — обновление 14.02.2019.

Цели и задачи тематического моделирования.

Понятие «темы», цели и задачи тематического моделирования.
Вероятностные модели порождения текста.
EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
Принцип максимума правдоподобия.

Аддитивная регуляризация тематических моделей.

Понятие некорректно поставленной задачи по Адамару. Регуляризация.
Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM. Условия Каруша–Куна–Таккера.
Классические тематические модели PLSA и LDA как частные случаи ARTM.
Мультимодальные тематические модели.

Библиотека BigARTM.

Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
Оффлайновый регуляризованный EM-алгоритм.
Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
Проект с открытым кодом BigARTM.

Аддитивная регуляризация тематических моделей

Презентация: (PDF, 1,6 МБ) — обновление 14.02.2019.

Часто используемые регуляризаторы.

Регуляризаторы сглаживания и разреживания.
Регуляризатор декоррелирования.
Регуляризатор отбора тем.

Внутренние метрики качества модели.

Правдоподобие и перплексия.
Интерпретируемость и когерентность.
Разреженность и различность.

Эксперименты с регуляризаторами.

Сглаживание, разреживание, декоррелирование.
Существует ли оптимальное число тем?
Семантическая однородность тем.

Обзор базовых инструментов

Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.

Предварительная обработка текстов

Парсинг "сырых" данных.
Токенизация, стемминг и лемматизация.
Выделение энграмм.
Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.

Библиотека BigARTM

Методологические рекоммендации по проведению экспериментов.
Установка BigARTM.
Формат и импорт входных данных.
Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.

Дополнительный материал:

Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
Видео — обновление 22.03.2017.
Воркшоп по BigARTM на DataFest'4. Видео.

Тематические иерархии и разведочный информационный поиск

Презентация: (PDF, 4,5 МБ) — обновление 21.03.2019.

Разведочный информационный поиск

Концепция разведочного поиска.
Концепция distant reading и идеи визуализации.
Сценарии использования разведочного поиска.

Иерархические тематические модели.

Визуализация тематических иерархий.
Метод нисходящего послойного построения иерархии.
Спектр тем.

Эксперименты с тематическим поиском.

Методика измерения качества поиска.
Тематическая модель для документного поиска.
Оптимизация гиперпараметров.

Модель LDA и ЕМ-алгоритм

Презентация: (PDF, 1,5 МБ) — обновление 21.03.2019.

Классические модели PLSA, LDA.

Модель PLSA.
Модель LDA. Максимизация апостериорной вероятности для модели LDA.
Начала байесовского подхода. Распределение Дирихле и его свойства. Сопряжённость с мультиномиальным распределением.

Общий EM-алгоритм.

EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
Регуляризованный EM-алгоритм.
Альтернативный вывод формул ARTM.

Эксперименты с PLSA и LDA.

Неустойчивость на синтетических данных.
Неустойчивость на реальных данных.
Переобучение и робастность.

Байесовское обучение тематических моделей

Презентация: (PDF, 1,5 МБ) — обновление 21.03.2019.

Вариационный байесовский вывод.

Основная теорема вариационного байесовского вывода.
Вариационный байесовский вывод для модели LDA.
VB ЕМ-алгоритм для модели LDA.

Сэмплирование Гиббса.

Основная теорема о сэмплировании Гиббса.
Сэмплирование Гиббса для модели LDA.
GS ЕМ-алгоритм для модели LDA.

Замечания о байесовском подходе.

Оптимизация гиперпараметров в LDA.
Графическая нотация (plate notation). Stop using plate notation.
Сравнение байесовского подхода и ARTM.
Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.

Дополнительный материал:

Потапенко А. А. Байесовское обучение тематических моделей. 2016.

Мультимодальные тематические модели

Презентация: (PDF, 1,4 МБ) — обновление 28.03.2019.

Мультиязычные тематические модели.

Параллельные и сравнимые коллекции.
Регуляризаторы для учёта двуязычных словарей.
Кросс-язычный информационный поиск.

Трёхматричные и гиперграфовые модели.

Модели трёхматричных разложений. Понятие порождающей модальности.
Автор-тематическая модель (author-topic model).
Модель для выделения поведений объектов в видеопотоке.

Тематические модели транзакционных данных.

Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
Гиперграфовая модель ARTM. Теорема о необходимом условии максимума регуляризованного правдоподобия.
Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
Анализ банковских транзакционных данных для выявления видов деятельности компаний.

Тематические модели совстречаемости слов

Презентация: (PDF, 1,9 МБ) — обновление 13.04.2019.

Мультиграммные модели.

Модель BigramTM.
Модель Topical N-grams (TNG).
Мультимодальная мультиграммная модель.

Автоматическое выделение терминов.

Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
Критерии тематичности фраз.
Комбинирование синтаксической, статистической и тематической фильтрации фраз.

Тематические модели дистрибутивной семантики.

Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
Регуляризаторы когерентности.

Дополнительный материал:

Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.

Тематическая сегментация

Презентация: (PDF, 2,4 МБ) — обновление 25.04.2019.

Модели связного текста.

Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
Контекстная документная кластеризация (CDC).
Метод лексических цепочек.

Тематическая сегментация.

Метод TopicTiling. Критерии определения границ сегментов.
Критерии качества сегментации. Оптимизация параметров модели TopicTiling.

Позиционный регуляризатор в ARTM.

Гипотеза о сегментной структуре текста.
Регуляризация и пост-обработка Е-шага. Формулы М-шага.
Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.

Анализ зависимостей

Презентация: (PDF, 1,9 МБ) — обновление 25.04.2019.

Зависимости, корреляции, связи.

Тематические модели классификации и регрессии.
Модель коррелированных тем CTM (Correlated Topic Model).
Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.

Время и пространство.

Регуляризаторы времени.
Обнаружение и отслеживание тем.
Гео-пространственные модели.

Социальные сети.

Сфокусированный поиск в социальных медиа (пример: поиск этно-релевантного контента).
Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
Регуляризаторы для выявления социальных ролей пользователей.

Визуализация и суммаризация тем

Презентация: (PDF, 6,2 МБ) — обновление 25.04.2019.

Средства визуализации тематических моделей.

Визуализация матричного разложения.
Визуализация кластерных структур, динамики, иерархий, сегментации.
Проект VisARTM.

Методы суммаризации текстов.

Задачи автоматической суммаризации текстов. Подходы к суммаризации: extractive и abstractive.
Оценивание и отбор предложений для суммаризации. Релаксационный метод для многокритериальной дискретной оптимизации.
Тематическая модель предложений для суммаризации.
Критерии качества суммаризации. Метрики ROUGE, BLUE.

Автоматическое именование тем (topic labeling).

Формирование названий-кандидатов.
Релевантность, покрытие, различность.
Оценивание качества именования тем.

Отчетность по курсу

Рекомендуемая структура отчёта об исследовании по индивидуальному заданию:

Постановка задачи: неформальное описание, ДНК (дано–найти–критерий), структура данных
Описание простого решения baseline
Описание основного решения и его вариантов
Описание набора данных и методики экспериментов
Результаты экспериментов по подбору гиперпараметров основного решения
Результаты экспериментов по сравнению основного решения с baseline
Примеры визуализации модели
Выводы: что работает, что не работает, инсайты
Ссылка на код

Примеры отчётов:

Литература

Воронцов К. В. Обзор вероятностных тематических моделей. 2019.
Hamed Jelodar, Yongli Wang, Chi Yuan, Xia Feng. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.

Ссылки

Источник — «http://recognition.su/wiki/index.php?title=%D0%92%D0%B5%D1%80%D0%BE%D1%8F%D1%82%D0%BD%D0%BE%D1%81%D1%82%D0%BD%D1%8B%D0%B5_%D1%82%D0%B5%D0%BC%D0%B0%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B5_%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D0%B8_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29/2019%2C_%D0%92%D0%9C%D0%9A»

Категория: Учебные курсы

Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК

Материал из MachineLearning.

Содержание

Программа курса

Введение

Аддитивная регуляризация тематических моделей

Обзор базовых инструментов

Тематические иерархии и разведочный информационный поиск

Модель LDA и ЕМ-алгоритм

Байесовское обучение тематических моделей

Мультимодальные тематические модели

Тематические модели совстречаемости слов

Тематическая сегментация

Анализ зависимостей

Визуализация и суммаризация тем

Отчетность по курсу

Литература

Ссылки

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты