Математические методы анализа текстов (ВМиК МГУ) / 2017
Материал из MachineLearning.
(→Домашние задания) |
(→Домашние задания) |
||
Строка 58: | Строка 58: | ||
| Лабораторная 1 | | Лабораторная 1 | ||
| 13.03.2017 (9.00 MSK) | | 13.03.2017 (9.00 MSK) | ||
- | | Определение частей речи и выделение | + | | Определение частей речи и выделение именованных сущностей. |
- | именованных сущностей | + | |
| [https://drive.google.com/open?id=0B2cCJQ2_aOwjaWZSOFpkRE5tbnM Ipython-ноутбук с заданием]. | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjaWZSOFpkRE5tbnM Ipython-ноутбук с заданием]. | ||
- | | | + | | Английский датасет для NER |
можно взять из CoNLL любого года. | можно взять из CoNLL любого года. | ||
|- | |- | ||
+ | | Лабораторная 2 | ||
+ | | 26.03.2017 (9.00 MSK) | ||
+ | | Языковое моделирование и распознавание языка. | ||
+ | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjSE9xX2E4TWdTQlU Задание и данные]. | ||
+ | | | ||
+ | |- | ||
+ | | Лабораторная 3 | ||
+ | | 9.04.2017 (9.00 MSK) | ||
+ | | Задача выравнивания в машинном переводе. | ||
+ | | [https://drive.google.com/open?id=0B2cCJQ2_aOwjYWcxc1BOVXh0bEU Задание и данные]. | ||
+ | | Задание творческое, будут бонусные баллы. | ||
+ | |- | ||
+ | |||
|} | |} | ||
Версия 00:23, 13 марта 2017
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
- Лектор: Виктор Китов
- Семинаристы: Анна Потапенко, Мурат Апишев
- Почта курса: nlp.msu@gmail.com.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Правила игры
- Оценка за курс: 70% домашние работы + 30% экзамен. Точные критерии будут опубликованы позднее.
- Виды активностей:
- Практические работы (ориентировочно 4 задания)
- Конкурс на Kaggle в рамках группы
- Разбор научной статьи в области NLP (выступление или реферат)
- Практические задания выполняются на языке Python с использованием внешних библиотеки. Помимо кода ожидается отчет c подробными выводами. Задания, присланные позже дедлайнов, не принимаются. При обнаружении плагиата все участники получают 0 баллов.
- Выбрать статью для разбора можно самому (и написать об этом на почту курса!) или взять одну из списка (будет пополняться).
Программа курса
- Предварительная обработка текста
- Токенизация, лемматизация, выделение коллокаций, регулярные выражения
- Модели для работы с последовательностями
- Скрытая марковская модель, модели максимальной энтропии и условные случайные поля
- Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
- Синтаксический анализ
- Классификация текстов
- Вероятностные модели
- Модель языка, N-граммы, сглаживание, концепция шумного канала
- Применение в задачах исправления опечаток и машинного перевода
- Тематические модели, дистрибутивная семантика, векторные представления слов.
- Глубокие нейронные сети в анализе текстов.
- Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
- Определение тональности текстов.
Домашние задания
Дедлайн | Тема | Материалы | Дополнительно | |
---|---|---|---|---|
Лабораторная 1 | 13.03.2017 (9.00 MSK) | Определение частей речи и выделение именованных сущностей. | Ipython-ноутбук с заданием. | Английский датасет для NER
можно взять из CoNLL любого года. |
Лабораторная 2 | 26.03.2017 (9.00 MSK) | Языковое моделирование и распознавание языка. | Задание и данные. | |
Лабораторная 3 | 9.04.2017 (9.00 MSK) | Задача выравнивания в машинном переводе. | Задание и данные. | Задание творческое, будут бонусные баллы. |
Лекции
Дата | Тема | Материалы | Дополнительно | |
---|---|---|---|---|
Лекция 1 | 10.02.2017 | Токенизация. Коллокации. Регулярные выражения. | Презентация | Глава книги |
Лекция 2 | 17.02.2017 | Морфологический анализ. Скрытая марковская модель. | Презентация 1 | Глава книги |
Лекция 3 | 03.03.2017 | Морфологический анализ. MEMM модель. | Презентация | Глава книги |
Лекция 4 | 10.03.2017 | Классификация текстов и отбор признаков. | Презентация |
Семинары
Дата | Тема | Материалы | Дополнительно | |
---|---|---|---|---|
Семинар 1 | 13.02.2017 | Правила курса, предобработка и векторизация текстов,
применение в задаче классификации. | Презентация | |
Семинар 2 | 20.02.2017 | Модели для разметки последовательностей, прикладные задачи. | Презентация | Хороший обзор |
Семинар 3 | 06.03.2017 | Языковое моделирование и машинный перевод. | Материалы семинара |
Материалы по курсу
Литература
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Juravsky, Manning - Video lectures on natural language processing.
Питон и библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn