Математические методы анализа текстов (ВМиК МГУ) / 2018

Материал из MachineLearning.

Версия от 20:31, 27 марта 2018; VKozlov (Обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Содержание

1 Контакты
2 Программа курса
3 Лекции
4 Семинары
5 Задания
- 5.1 Результаты проверки
6 Литература
- 6.1 Питон и библиотеки
- 6.2 Инструменты для работы с текстами

Курс посвящен методам анализа текстов на основе статистики и машинного обучения.

Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.

Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.

Контакты

Лекции и семинары проходят по пятницам 12-50 - 14-25, 14-35 - 16-10 в ауд.505.
Лектор: Виктор Китов
Семинарист: Мурат Апишев
Почта курса (семинары, задания): nlp.msu@gmail.com.
Здесь вы в любой момент можете оставить анонимный отзыв или предложение.

Программа курса

Токенизация, коллокации, регулярные выражения, языковые модели
Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
Тематические модели.
Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
Детали обучения нейросетей: дропаут, батч-нормализация, рекуррентные нейронные сети; задача NER.
RNN, LSTM, GRU; CNN
Вопросно-ответные системы, автоматическая суммаризация, PageRank
WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии

Лекции

Токенизация, коллокации, регулярные выражения.

Языковые модели.

Скрытая марковская модель для дискретных признаков.

Разметка частей речи.

Семинары

	Дата	Тема	Материалы
Семинар 1	9.02.2018	Правила курса, получение данных, предобработка текста, извлечение коллокаций.	Слайды
Семинар 2	17.02.2018	Языковые модели, статистический машинный перевод, задача выравнивания.	Слайды
Семинар 3	12.03.2018	Классификация текстов, инструменты (Vowpal Wabbit, FastText), задача анализа тональности.	Слайды
Семинар 4	23.03.2018	Тематическое моделирование.	Слайды

Задания

	Дедлайн	Баллы	Тема	Материалы
Лабораторная 1	21:00 8 марта 2018	10 баллов	Языковое моделирование и распознавание языка.	Ipython-ноутбук с заданием + данные.
Лабораторная 2	21:00 29 марта 2018	10 баллов	Определение частей речи и выделение именованных сущностей.	Ipython-ноутбук с заданием.

Результаты проверки

Студенты	Лабораторная № 1	Лабораторная № 2	Лабораторная № 3	Лабораторная № 4	Итог
Амир Мирас	6.5
Белобородов Дмитрий	9
Бобров Евгений	7
Бобров Роман	4.5
Гарипов Тимур	8
Драпак Степан	8
Каюмов Эмиль	7.8
Коваленко Павел	6.5
Лунин Дмитрий	5.4
Николаев Владимир	4
Пиджакова Анна	4.5
Полыковский Даниил	8
Попов Артём	9
Таскынов Ануар	5
Трубицын Юрий	2.5
Ходырева Виктория	8
Шолохова Татьяна	8