Математические методы анализа текстов (ВМиК МГУ) / 2017
Материал из MachineLearning.
Строка 2: | Строка 2: | ||
{{TOCright}} | {{TOCright}} | ||
- | Курс посвящен методам анализа текстов на основе статистики и машинного обучения. | + | Курс посвящен методам анализа текстов на основе статистики и машинного обучения. |
- | Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например | + | Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим. |
+ | |||
+ | Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике. | ||
Строка 12: | Строка 14: | ||
* Лектор: Виктор Китов | * Лектор: Виктор Китов | ||
* Семинаристы: Анна Потапенко, Мурат Апишев | * Семинаристы: Анна Потапенко, Мурат Апишев | ||
- | * Почта курса: nlp.hse@gmail.com | + | * Почта курса: nlp.hse@gmail.com. По всем вопросам туда. |
+ | * [https://goo.gl/forms/D7u2xNqHsYSZU4D52 Здесь] вы в любой момент можете оставить анонимный отзыв или предложение. | ||
- | === | + | ====Примерное содержание курса ==== |
- | * Токенизация | + | * Предварительная обработка текста |
- | * | + | ** Токенизация, лемматизация, выделение коллокаций, регулярные выражения, полезные библиотеки. |
- | * | + | * Модели для работы с последовательностями |
- | * | + | ** Скрытая марковская модель, модели максимальной энтропии и условные случайные поля (HMM, MEMM, CRF) |
- | + | ** Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии. | |
- | * Классификация текстов | + | * Синтаксический анализ |
- | * | + | * Классификация текстов |
- | * Модель языка, | + | * Вероятностные модели |
- | * Тематические модели. | + | ** Модель языка, N-граммы, сглаживание |
- | * Онтологии, тезаурусы, выделение семантических связей. | + | ** Концепция шумного канала |
- | + | ** Применение в задачах исправления опечаток и машинном переводе | |
+ | * Тематические модели, дистрибутивная семантика, векторные представления слов. | ||
+ | * Глубокие нейронные сети в анализе текстов. | ||
+ | * Онтологии, тезаурусы, выделение семантических связей. Работа с википедией. | ||
* Определение тональности текстов. | * Определение тональности текстов. | ||
Версия 19:56, 16 февраля 2017
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ, а также всем желающим.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
- Лектор: Виктор Китов
- Семинаристы: Анна Потапенко, Мурат Апишев
- Почта курса: nlp.hse@gmail.com. По всем вопросам туда.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Примерное содержание курса
- Предварительная обработка текста
- Токенизация, лемматизация, выделение коллокаций, регулярные выражения, полезные библиотеки.
- Модели для работы с последовательностями
- Скрытая марковская модель, модели максимальной энтропии и условные случайные поля (HMM, MEMM, CRF)
- Применение в задачах определения частей речи, выделения именованных сущностей, снятия омонимии.
- Синтаксический анализ
- Классификация текстов
- Вероятностные модели
- Модель языка, N-граммы, сглаживание
- Концепция шумного канала
- Применение в задачах исправления опечаток и машинном переводе
- Тематические модели, дистрибутивная семантика, векторные представления слов.
- Глубокие нейронные сети в анализе текстов.
- Онтологии, тезаурусы, выделение семантических связей. Работа с википедией.
- Определение тональности текстов.
Материалы лекций
Токенизация. Коллокации. Регулярные выражения.
Материалы
Учебники
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Juravsky, Manning - Video lectures on natural language processing.
Питон и необходимые библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- библиотека NLTK по работе с текстами
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn