Спецкурс «Прикладные задачи анализа данных» (2014 год)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна))
(ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна))
 
Строка 253: Строка 253:
 +
 +
 +
== Ссылки ==
 +
 +
# Книга [http://www.mmds.org/ Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets] * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
 +
# Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice)] по визуализации данных
 +
# Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
 +
# Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей].
 +
# Книга [http://lib.mexmat.ru/books/9210 Ту Дж., Гонсалес Р. Принципы распознавания образов] * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
 +
# [http://alexanderdyakonov.narod.ru/uptimes.pdf Прогнозирование рядов соревнования «Tourism Forecasting Part Two»] (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
 +
# Статья [http://www.springerlink.com/content/73g4kl50m6112420/ A Blending of Simple Algorithms for Topical Classification] * Описание метода классификации текстов. Содержание рассказывалось на лекции.
 +
# Книга [http://www.ozon.ru/context/detail/id/5497130/ К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск»] * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
 +
# Статья [http://bijournal.hse.ru/2012--1%2819%29/53535879.html Алгоритмы для рекомендательной системы: технология LENCOR].
 +
# Книга [http://alexanderdyakonov.narod.ru/intro2datamining.pdf Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб)] * Вводная лекция, которая написана для [[Математические методы прогнозирования (кафедра ВМиК МГУ)/Просеминар|просеминара]].
 +
# [[Публикация:Дьяконов 2010 Учебное пособие ММП| Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования)]] * Глава 12 «Шаманство в анализе данных».
 +
# [http://alexanderdyakonov.narod.ru/lpotdyakonov.pdf Научно-популярная лекция «Шаманство в анализе данных»] (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
 +
# [http://alexanderdyakonov.narod.ru/lpot4emu.pdf Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении»] * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.

Текущая версия

Содержание

Общая информация

Спецкурс начал работу в сентябре 2014 года.

Лектор: Дьяконов Александр

Страница курса (текущего года): Спецкурс «Прикладные задачи анализа данных»

Таблица участников

ЗАПИСАЛИСЬ группа 08.10 - соцсети
email/LB
15.10 - соцсети
преодоление порога
05.11 - что за данные 06.11 - отчёты по соцсетям 03.12 - click
kaggle
Семёнов Станислав Георгиевич ВШЭ - / 0 [-7] + + [-5] (2 место) [-10]
Арбузова Дарья Андреевна 517 + / + + + + +
Гущин Александр Евгеньевич МФТИ + / + + + + +
Потапенко Анна Александровна 617 + / + + + + +
Фенстер Александра Михайловна НИУ ВШЭ 172мАИД + / + + + + [-10]
Вихрева Мария Викторовна 315 + / + + + + +
Бахтин Антон Вячеславович МГУ, Яндекс + / - [-5] [-5] + [-10] +
Ульянов Дмитрий Владимирович 517 + / 0 [-2] + + + +
Шапулин Андрей Валентинович 417 + / + + + + (3 место) [-10]
Сиверский Михаил Николаевич физфак [-10] [-5] + + (1 место) +
Игнатов Алексей Николаевич 516 [-10] + + + [-10]
Сокурский Юрий Валентинович 517 + / + + [-10] [-10] Seizure
Дойков Никита Владимирович 417 + / + + + + +
Лукашкина Юлия Николаевна 417 [-10] + 0 [-10] [-10]
Байбурин Валерий Тагирович м118 + / - [-5] [-5] 0 [-10]
Дымов Григорий Андреевич Stockholm university + / + [-5] + + +
Чинаев Николай Николаевич DELETED [-10] [-5] [-10] [-10] [-10]
Хальман Михаил Анатольевич 417 + / + + + [-5] +
Нижибицкий Евгений аспВМК - / 0 [-7] + + + +
Остапец Андрей аспВМК - / + [-5] + + + +

Лекции

Число Лекция Материалы, замечания
24.09.14 Matrix Laboratory (эффективное программирование): системы и языки для анализа малых данных, интерпретатор Matlab (достоинства и недостатки), типы данных (массивы ячеек, структуры, строки, логические массивы, NaN), матрицы (порождение, конкатенация, индексация, разреженные матрицы), операции над ними, фокусы с размерностями, файловый ввод и вывод, m-файлы (функции и скрипты), графика (начало), анонимные функции, поэлементные функции, основы эффективного программирования, возможности работы с большими данными слайды лекции 1, рекомендованное учебное пособие: Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab
01.10.14 Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.

Домашнее задание №1: Соревнование Learning Social Circles in Networks по определению кругов в эго-подграфах графа социальной сети (задача, данные, их загрузка, редакторское расстояние), приложения анализа социальных сетей.

Анализ социальных сетей, определение кругов пользователей: динамические графы, приложения анализа социальных сетей, погружение графов в признаковое пространство, сходство вершин, важность вершин.

слайды лекции 2 (zip, jpg 8Mb), книга [1], код для загрузки данных
08.10.14 Анализ социальных сетей, определение кругов пользователей (продолжение): прогнозирование появления рёбер в динамическом графе, решение задачи соревнования IJCNN Social Network Challenge, признаки рёбер, алгоритм PageRank и его модификации, сообщества в графах и их выделение, спектральные методы на графах, генерация случайных графов.

Домашнее задание №1: мозговой штурм.

слайды лекции 2 (zip, jpg 8Mb), статья Learning to Discover Social Circles in Ego Networks, обзор Community Detection in Graphs, обзор Случайные графы, модели и генераторы.
15.10.14 Искусство визуализации данных: игра "Что за данные", признаки в задаче [bioresponse], выделение групп признаков, что можно увидеть в данных, оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений, результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. слайды лекции 3 (zip, jpg 7.6Mb), книга [2]
22.10.14 Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.: проблема оценки среднего, выбросы, разные целевые функционалы, оценка минимального контраста, среднее по Колмогорову, SMAPE-минимизация, двухэтапные алгоритмы и их настройка, пересчёт вероятности и прямая оценка, введение весовых схем, устойчивость весовых схем, ансамблирование, непараметрическое восстановление плотности, весовые схемы при оценке плотности. Задача [dunnhumby's Shopper Challenge]. Задача [пробки]. слайды лекции 4 (zip, jpg 9.3Mb), книга [3], статья [4]
29.10.14 Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. (продолжение)
05.11.14 Линейная классификация и регрессия: персептронный алгоритм, режимы обучения, концепция поощрение-наказание, концепция минимизации функционала, линейная регрессия, SGD, хэширование признаков, регуляризация, обобщения регрессии, прогноз раскупаемости, прогноз методом kNN, прогноз линейным оператором, линейный алгоритм над SVD, признаковое прогнозирование спроса, профили товаров, сезонность, LibSVM, LibLinear. Задачи: [JRS12], [NN5], [tourism2].

Разбор решения задачи соревнования Learning Social Circles in Networks.

слайды разборов (zip, jpg 4Mb), отчёты участников высланы по почте, см. [5], [6], [7]
12.11.14 Линейная классификация и регрессия: продолжение.

Разбор решения задачи соревнования Tradeshift Text Classification.

слайды лекции 5 (zip, jpg 7Mb) Разбор решений С.Семёнова и А.Гущина представлен авторами на занятии. слайды А.Гущина (pdf)
19.11.14 Анализ текстов: классификация и регрессия - этапы работы с текстом, токенизация, стоп-слова, векторное представление документа, n-граммы, стемминг, алгоритм Портера, TF*IDF, оценки качества (точность, полнота, F-мера), классификация спама, Local and Global Consistency, этапные алгоритмы, устойчивые признаки, иерархическая классификация текстов, основные методы (Роше, kNN, SVM), приведение к шаблону, обнаружение оскорблений, распределение по топикам (задача со многими классами), блендинг алгоритмов, фонетические алгоритмы. Задачи: [spam], [LSHTC], [JRS12]. книга [8], слайды лекции 6 (rar, jpg)
26.11.14 Анализ текстов: классификация и регрессия - (продолжение). Представление программы Vowpal Wabbit. слайды vw (zip, jpg)
03.12.14 Случайные леса: универсальные методы анализа данных, бэггинг и бустинг, построение одного дерева, OOB(out of bag)-проверка, параметры случайного леса (random forest: mtry, nodesize, samplesize) и их настройка, рейтинг признаков (importance). Программирование случайного леса. Области устойчивости функционалов. Искусство генерации признаков: географические и временные признаки. Концепция чёрного ящика на примере GBM. Настройка параметров GBM, суммирование. Нестандартные функционалы и настройка на них. Калибровка ответов алгоритмов. Сведение задачи рекомендации к регрессии. Критерии расщепления.

Разбор задач [see-click-predict-fix], [wikimart].

слайды лекции 7 (zip, jpg)
10.12.13 k ближайших соседей, настройка комбинаций алгоритмов: Сглаживание функционалов качества при использовании весовых схем. Ограничение методов типа kNN (тренд, некорректность метрики).

Примитивная настройка линейных комбинаций алгоритмов и метрик. Технология LENKOR (синтез близостей, составление комбинации близостей, настройка коэффициентов, добавление нелинейностей). Подробный разбор задачи детектирования оскорблений. Задачи [PhotoQualityPrediction] (определение качества фотографии по метаданным), [unimelb] (предсказывание успешности выполнения гранта), [VLNetChallenge] (рекомендация видеолекций для просмотра).

статья [9]
17.12.13 k ближайших соседей, настройка комбинаций алгоритмов - (продолжение): деформация ответов, теоремы Колмогорова, Горбаня и Пинкуса, алгебраический подход к коррекции и его правильное применение на практике.

Обсуждение некоторых скоринговых данных.

слайды лекции 8 (zip, jpg)



Ссылки

  1. Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
  2. Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
  3. Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
  4. Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
  5. Книга Ту Дж., Гонсалес Р. Принципы распознавания образов * Уже чуть устаревшая книга. Но полистать стоит! Первая «энциклопедия по методам классификации».
  6. Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
  7. Статья A Blending of Simple Algorithms for Topical Classification * Описание метода классификации текстов. Содержание рассказывалось на лекции.
  8. Книга К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» * Простая, но хорошая книга по основам работы с текстом (прочитать обязательно).
  9. Статья Алгоритмы для рекомендательной системы: технология LENCOR.
  10. Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
  11. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
  12. Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
  13. Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.


ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна)

В сентябре 2014 года будет объявлен новый набор слушателей спецкурса.

Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.

Для участия в отборе необходимо:

  • освоить (если его не было в учебной программе) курс Машинное обучение,
  • выступить хотя бы в одном соревновании по анализу данных (см. ниже),
  • Пройти анкетирование (или собеседование в сентябре).

Список допустимых соревнований:

Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!

В новой версии спецкурса будет серия лекций по системам Matlab и R.

Кроме того, будут рассмотрены новые темы: например, анализ соцсетей.


Объявлен набор слушателей на спецкурс (5 сентября 2014 года). Необходима регистрация! Для этого надо прислать на почту djakonov (собака) mail (точка) ru

Тема письма: [ПЗАД] Фамилия студента

Текст: в первой строке через точку с запятой указываются

  • Фамилия Имя Отчество,
  • группа (вуз, если из другого вуза),
  • в скольких соревнования на сайте Kaggle участвовали (число),
  • какие курсы по машинному обучению прослушаны,
  • желаемые дни и часы (в формате ПТН, 18-00),
  • знакомые языки и системы программирования, включая программы и библиотеки для машинного обучения,
  • страница на Kaggle,
  • сколько часов в неделю готовы уделять выполнению практических заданий.

В других строчках (начиная со второй) можно по желанию дать пояснения.

Пример: Дьяконов Александр Геннадьевич; 617; 25; ММРО Воронцов; ВТ 18-00, СР 16-20; R, Matlab, Python, Weka, RapidMiner, Liblinear, VW; https://www.kaggle.com/users/3090/alexander-d-yakonov; 8

Посещение спецкурса закрытое, число мест ограничено, регистрация скоро будет закрыта – спешите…