Математические методы анализа текстов (ВМиК МГУ) / 2018
Материал из MachineLearning.
(Новая: Категория:Учебные курсы {{TOCright}} Курс посвящен методам анализа текстов на основе статистики и машин...) |
(→Программа курса) |
||
Строка 19: | Строка 19: | ||
== Программа курса == | == Программа курса == | ||
- | + | * Токенизация, коллокации, регулярные выражения, языковые модели | |
- | + | * Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла. | |
- | + | * Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности. | |
- | + | * Тематические модели. | |
- | * | + | * Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove. |
- | + | * Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами | |
- | * Классификация текстов | + | * Детали обучения нейросетей: дропаут, batch normalization, RNN; задача NER. |
- | + | * RNN, LSTM, GRU; CNN | |
- | + | * Вопросно-ответные системы, автоматическая суммаризация, PageRank | |
- | + | * WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии | |
- | + | ||
- | * Тематические модели, | + | |
- | * | + | |
- | * | + | |
- | + | ||
==== Литература ==== | ==== Литература ==== |
Версия 20:26, 8 февраля 2018
|
Курс посвящен методам анализа текстов на основе статистики и машинного обучения.
Курс читается магистрам 1го года кафедры «Математические методы прогнозирования» ВМК МГУ.
Обработка естественного языка (Natural Language Processing) - широкая область на стыке лингвистики и компьютерных технологий. Сегодня здесь решается огромное число задач, например, классификация текстов, определение тональности, машинный перевод, распознавание речи, обработка запросов в поиске. В ходе курса слушатели познакомятся с основными методами и применят их на практике.
Контакты
- Лекции проходят по пятницам в 16.20 в ауд. 609. Семинары проходят по понедельникам в 12.15 в ауд. 882.
- Лектор: Виктор Китов
- Семинарист: Мурат Апишев
- Почта курса: nlp.msu@gmail.com.
- Здесь вы в любой момент можете оставить анонимный отзыв или предложение.
Программа курса
- Токенизация, коллокации, регулярные выражения, языковые модели
- Определение частей речи, скрытая марковская модель, модель максимальной энтропии, тэггер Брилла.
- Классификация текстов, tf-idf, метод ближайших центроидов, модели Бернулли и мультиномиальная; регуляризация, отбор признаков; анализ тональности.
- Тематические модели.
- Нейросети (обратное распространение ошибки, функции активации, инициализация весов, оптимизация); векторные представления слов: word2vec (CBOW, skip-gram), glove.
- Регулярные языки, transduser, типы грамматик, контекстно-свободные грамматики; синтаксические анализаторы; алгоритм Кока-Янгера-Касами, вероятностные грамматики, вероятностный алгоритм Кока-Янгера-Касами
- Детали обучения нейросетей: дропаут, batch normalization, RNN; задача NER.
- RNN, LSTM, GRU; CNN
- Вопросно-ответные системы, автоматическая суммаризация, PageRank
- WordNet, проблема лексической неоднозначности, алгоритм Леска; проверка орфографии
Литература
Stanford: Deep learning in natural language processing. Spring 2016.
Stanford: Deep learning in natural language processing. Winter 2017.
Juravsky, Manning - Video lectures on natural language processing.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 3-rd edition, draft.
Speech and Language Processing. Dan Jurafsky and James H. Martin. 2-nd edition. 2009.
Natural Language Processing with Python. Stewen Bird et. al. 2-nd edition. 2016.
Питон и библиотеки
- Anaconda - дистрибутив питона с предустановленными научными библиотеками
- A Crash Course in Python for Scientists
- Numpy
- Matplotlib
- Scipy Lecture Notes
- Pandas
- Scikit-learn