Вероятностные тематические модели (курс лекций, К.В.Воронцов)/2019, ВМК
Материал из MachineLearning.
Программа спецкурса, прочитанного весной 2019 года студентам 2—5 курсов на кафедре «Математические методы прогнозирования» ВМиК МГУ.
Программа курса
Введение
Презентация: (PDF, 1,7 МБ) — обновление 14.02.2019.
Цели и задачи тематического моделирования.
- Понятие «темы», цели и задачи тематического моделирования.
- Вероятностные модели порождения текста.
- EM-алгоритм и его элементарная интерпретация. Формула Байеса и частотные оценки условных вероятностей.
- Принцип максимума правдоподобия.
Аддитивная регуляризация тематических моделей.
- Понятие некорректно поставленной задачи по Адамару. Регуляризация.
- Теорема о необходимом условии максимума регуляризованного правдоподобия для ARTM. Условия Каруша–Куна–Таккера.
- Классические тематические модели PLSA и LDA как частные случаи ARTM.
- Мультимодальные тематические модели.
Библиотека BigARTM.
- Рациональный ЕМ-алгоритм (встраивание Е-шага внутрь М-шага).
- Оффлайновый регуляризованный EM-алгоритм.
- Онлайновый регуляризованный EM-алгоритм. Распараллеливание.
- Проект с открытым кодом BigARTM.
Аддитивная регуляризация тематических моделей
Презентация: (PDF, 1,6 МБ) — обновление 14.02.2019.
Часто используемые регуляризаторы.
- Регуляризаторы сглаживания и разреживания.
- Регуляризатор декоррелирования.
- Регуляризатор отбора тем.
Внутренние метрики качества модели.
- Правдоподобие и перплексия.
- Интерпретируемость и когерентность.
- Разреженность и различность.
Эксперименты с регуляризаторами.
- Сглаживание, разреживание, декоррелирование.
- Существует ли оптимальное число тем?
- Семантическая однородность тем.
Обзор базовых инструментов
Александр Романенко, Мурат Апишев. Презентация: (zip, 0,6 МБ) — обновление 17.02.2017.
Предварительная обработка текстов
- Парсинг "сырых" данных.
- Токенизация, стемминг и лемматизация.
- Выделение энграмм.
- Законы Ципфа и Хипса. Фильтрация словаря коллекции. Удаление стоп-слов.
Библиотека BigARTM
- Методологические рекоммендации по проведению экспериментов.
- Установка BigARTM.
- Формат и импорт входных данных.
- Обучение простой модели (без регуляризации): создание, инициализация, настройка и оценивание модели.
- Инструмент визуализации тематических моделей VisARTM. Основные возможности, демонстрация работы.
Дополнительный материал:
- Презентация: (PDF, 1,5 МБ) — обновление 17.03.2017.
- Видео — обновление 22.03.2017.
- Воркшоп по BigARTM на DataFest'4. Видео.
Тематические иерархии и разведочный информационный поиск
Презентация: (PDF, 4,5 МБ) — обновление 21.03.2019.
Разведочный информационный поиск
- Концепция разведочного поиска.
- Концепция distant reading и идеи визуализации.
- Сценарии использования разведочного поиска.
Иерархические тематические модели.
- Визуализация тематических иерархий.
- Метод нисходящего послойного построения иерархии.
- Спектр тем.
Эксперименты с тематическим поиском.
- Методика измерения качества поиска.
- Тематическая модель для документного поиска.
- Оптимизация гиперпараметров.
Модель LDA и ЕМ-алгоритм
Презентация: (PDF, 1,5 МБ) — обновление 21.03.2019.
Классические модели PLSA, LDA.
- Модель PLSA.
- Модель LDA. Максимизация апостериорной вероятности для модели LDA.
- Начала байесовского подхода. Распределение Дирихле и его свойства. Сопряжённость с мультиномиальным распределением.
Общий EM-алгоритм.
- EM-алгоритм для максимизации неполного правдоподобия. Сходимость в слабом смысле.
- Регуляризованный EM-алгоритм.
- Альтернативный вывод формул ARTM.
Эксперименты с PLSA и LDA.
- Неустойчивость на синтетических данных.
- Неустойчивость на реальных данных.
- Переобучение и робастность.
Байесовское обучение тематических моделей
Презентация: (PDF, 1,5 МБ) — обновление 21.03.2019.
Вариационный байесовский вывод.
- Основная теорема вариационного байесовского вывода.
- Вариационный байесовский вывод для модели LDA.
- VB ЕМ-алгоритм для модели LDA.
Сэмплирование Гиббса.
- Основная теорема о сэмплировании Гиббса.
- Сэмплирование Гиббса для модели LDA.
- GS ЕМ-алгоритм для модели LDA.
Замечания о байесовском подходе.
- Оптимизация гиперпараметров в LDA.
- Графическая нотация (plate notation). Stop using plate notation.
- Сравнение байесовского подхода и ARTM.
- Как читать статьи по баейсовским моделям и строить эквивалентные ARTM-модели.
Дополнительный материал:
- Потапенко А. А. Байесовское обучение тематических моделей. 2016.
Мультимодальные тематические модели
Презентация: (PDF, 1,4 МБ) — обновление 28.03.2019.
Мультиязычные тематические модели.
- Параллельные и сравнимые коллекции.
- Регуляризаторы для учёта двуязычных словарей.
- Кросс-язычный информационный поиск.
Трёхматричные и гиперграфовые модели.
- Модели трёхматричных разложений. Понятие порождающей модальности.
- Автор-тематическая модель (author-topic model).
- Модель для выделения поведений объектов в видеопотоке.
Тематические модели транзакционных данных.
- Примеры транзакционных данных в рекомендательных системах, социальных и рекламных сетях.
- Гиперграфовая модель ARTM. Теорема о необходимом условии максимума регуляризованного правдоподобия.
- Анализ транзакционных данных для выявления паттернов экономического поведения клиентов банка. Видео.
- Анализ банковских транзакционных данных для выявления видов деятельности компаний.
Тематические модели совстречаемости слов
Презентация: (PDF, 1,9 МБ) — обновление 13.04.2019.
Мультиграммные модели.
- Модель BigramTM.
- Модель Topical N-grams (TNG).
- Мультимодальная мультиграммная модель.
Автоматическое выделение терминов.
- Алгоритм TopMine для быстрого поиска частых фраз. Критерии выделения коллокаций.
- Синтаксический разбор. Нейросетевой синтаксический анализатор SyntaxNet.
- Критерии тематичности фраз.
- Комбинирование синтаксической, статистической и тематической фильтрации фраз.
Тематические модели дистрибутивной семантики.
- Дистрибутивная гипотеза. Модели CBOW и SGNS в программе word2vec.
- Модель битермов BTM (Biterm Topic Model) для тематизации коллекций коротких текстов.
- Модели WNTM (Word Network Topic Model) и WTM (Word Topic Model). Связь с моделью word2vec.
- Понятие когерентности (согласованности). Экспериментально установленная связь когерентности и интерпретируемости.
- Регуляризаторы когерентности.
Дополнительный материал:
- Потапенко А. А. Векторные представления слов и документов. DataFest'4. Видео.
Тематическая сегментация
Презентация: (PDF, 2,4 МБ) — обновление 25.04.2019.
Модели связного текста.
- Тематическая модель предложений и модель коротких сообщений Twitter-LDA.
- Контекстная документная кластеризация (CDC).
- Метод лексических цепочек.
Тематическая сегментация.
- Метод TopicTiling. Критерии определения границ сегментов.
- Критерии качества сегментации. Оптимизация параметров модели TopicTiling.
Позиционный регуляризатор в ARTM.
- Гипотеза о сегментной структуре текста.
- Регуляризация и пост-обработка Е-шага. Формулы М-шага.
- Примеры регуляризаторов Е-шага. Разреживание распределения p(t|d,w). Сглаживание тематики слов по контексту.
Анализ зависимостей
Презентация: (PDF, 1,9 МБ) — обновление 25.04.2019.
Зависимости, корреляции, связи.
- Тематические модели классификации и регрессии.
- Модель коррелированных тем CTM (Correlated Topic Model).
- Регуляризаторы гиперссылок и цитирования. Выявление тематических влияний в научных публикациях.
Время и пространство.
- Регуляризаторы времени.
- Обнаружение и отслеживание тем.
- Гео-пространственные модели.
Социальные сети.
- Сфокусированный поиск в социальных медиа (пример: поиск этно-релевантного контента).
- Выявление тематических сообществ. Регуляризаторы для направленных и ненаправленных связей.
- Регуляризаторы для выявления социальных ролей пользователей.
Визуализация и суммаризация тем
Презентация: (PDF, 6,2 МБ) — обновление 25.04.2019.
Средства визуализации тематических моделей.
- Визуализация матричного разложения.
- Визуализация кластерных структур, динамики, иерархий, сегментации.
- Проект VisARTM.
Методы суммаризации текстов.
- Задачи автоматической суммаризации текстов. Подходы к суммаризации: extractive и abstractive.
- Оценивание и отбор предложений для суммаризации. Релаксационный метод для многокритериальной дискретной оптимизации.
- Тематическая модель предложений для суммаризации.
- Критерии качества суммаризации. Метрики ROUGE, BLUE.
Автоматическое именование тем (topic labeling).
- Формирование названий-кандидатов.
- Релевантность, покрытие, различность.
- Оценивание качества именования тем.
Отчетность по курсу
Рекомендуемая структура отчёта об исследовании по индивидуальному заданию:
- Постановка задачи: неформальное описание, ДНК (дано–найти–критерий), структура данных
- Описание простого решения baseline
- Описание основного решения и его вариантов
- Описание набора данных и методики экспериментов
- Результаты экспериментов по подбору гиперпараметров основного решения
- Результаты экспериментов по сравнению основного решения с baseline
- Примеры визуализации модели
- Выводы: что работает, что не работает, инсайты
- Ссылка на код
Примеры отчётов:
Литература
- Воронцов К. В. Обзор вероятностных тематических моделей. 2019.
- Hamed Jelodar, Yongli Wang, Chi Yuan, Xia Feng. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.
- Hofmann T. Probabilistic latent semantic indexing // Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval. — New York, NY, USA: ACM, 1999. — Pp. 50–57.
- Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet allocation // Journal of Machine Learning Research. — 2003. — Vol. 3. — Pp. 993–1022.
- Asuncion A., Welling M., Smyth P., Teh Y. W. On smoothing and inference for topic models // Proceedings of the International Conference on Uncertainty in Artificial Intelligence. — 2009.
- Янина А. О., Воронцов К. В. Мультимодальные тематические модели для разведочного поиска в коллективном блоге // Машинное обучение и анализ данных. 2016. T.2. №2. С.173-186.