Математические методы анализа текстов (ВМиК МГУ) / 2017
Материал из MachineLearning.
(→Лекции) |
|||
Строка 2: | Строка 2: | ||
{{TOCright}} | {{TOCright}} | ||
- | Курс посвящен методам | + | Курс посвящен методам анализа текстов на основе статистики и машинного обучения. Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим. |
- | + | Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например: классификация текстов, сентимент-анализ, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике. | |
+ | ==== Контакты ==== | ||
- | ==Примерная программа курса | + | * Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882. |
+ | * Лектор: Виктор Китов | ||
+ | * Семинаристы: Анна Потапенко, Мурат Апишев | ||
+ | * Почта курса: nlp.hse@gmail.com | ||
+ | |||
+ | |||
+ | |||
+ | === Примерная программа курса === | ||
* Токенизация. Коллокации. Регулярные выражения. | * Токенизация. Коллокации. Регулярные выражения. |
Версия 19:25, 16 февраля 2017
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения. Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например: классификация текстов, сентимент-анализ, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
- Лектор: Виктор Китов
- Семинаристы: Анна Потапенко, Мурат Апишев
- Почта курса: nlp.hse@gmail.com
Примерная программа курса
- Токенизация. Коллокации. Регулярные выражения.
- Скрытые марковские модели.
- Определение частей речи.
- Оценка скрытых марковских моделей.
- N-граммы.
- Классификация текстов.
- Синтаксический анализ.
- Модель языка, шумный канал, задача исправления опечаток.
- Тематические модели.
- Онтологии, тезаурусы, выделение семантических связей.
- Работа с википедией.
- Определение тональности текстов.
Материалы лекций
Токенизация. Коллокации. Регулярные выражения.
Материалы
Учебники
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Juravsky, Manning - Video lectures on natural language processing.
Питон и необходимые библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- библиотека NLTK по работе с текстами
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn