Спецкурс «Прикладные задачи анализа данных»
Материал из MachineLearning.
(→Правила) |
(→Лекции) |
||
Строка 218: | Строка 218: | ||
Разбор решения задачи соревнования [http://www.kaggle.com/c/learning-social-circles Learning Social Circles in Networks]. | Разбор решения задачи соревнования [http://www.kaggle.com/c/learning-social-circles Learning Social Circles in Networks]. | ||
| [[Медиа:PZAD2014_slides_social_mymethods.zip|слайды разборов (zip, jpg 4Mb)]], отчёты участников высланы по почте | | [[Медиа:PZAD2014_slides_social_mymethods.zip|слайды разборов (zip, jpg 4Mb)]], отчёты участников высланы по почте | ||
+ | |- | ||
+ | | 12.11.14 | ||
+ | | '''Линейные алгоритмы.''' | ||
+ | Разбор решения задачи соревнования [http://www.kaggle.com/c/tradeshift-text-classification]. | ||
+ | | Разбор решений С.Семёнова и А. | ||
|} | |} | ||
Версия 20:34, 17 ноября 2014
Регистрация на спецкурс завершена. Кто не успел - ждите следующего года.
|
Содержание[убрать] |
Аннотация
Данный курс стал победителем конкурса инновационных учебных технологий. |
Лектор: Дьяконов Александр
Основная цель: практика решения современных задач классификации, прогнозирования, регрессии, рекомендации и т.п., подготовка участников к соревнованиям на платформах Kaggle и Algomost.
Мероприятие проходит в двух режимах:
- спецкурса – лекции о решении прикладных задач, обучение некоторым системам анализа данных (например R, Matlab, Python+ и т.п.
- спецсеминара – обсуждение решаемых задач, выработка общих стратегий, разделение работы в рамках участия в соревновании одной командой, мозговой штурм и т.п.
Важно: от участников потребуется выполнение нетривиальных практических заданий!
Правила
- Рассылки материалов делаются только зарегистрированным слушателям курса (перечислены в таблице слушателей).
- Слушатели, которые перестают делать домашние задания, удаляются из таблицы.
- За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.
ЗАПИСАЛИСЬ | группа | 08.10 - соцсети email/LB | 15.10 - соцсети преодоление порога | 05.11 - что за данные | 06.11 - отчёты по соцсетям |
---|---|---|---|---|---|
Семёнов Станислав Георгиевич | ВШЭ | - / 0 [-7] | + | + | [-5] (2 место) |
Арбузова Дарья Андреевна | 517 | + / + | + | + | + |
Гущин Александр Евгеньевич | МФТИ | + / + | + | + | + |
Потапенко Анна Александровна | 617 | + / + | + | + | + |
Фенстер Александра Михайловна | НИУ ВШЭ 172мАИД | + / + | + | + | + |
Вихрева Мария Викторовна | 315 | + / + | + | + | + |
Бахтин Антон Вячеславович | МГУ, Яндекс | + / - [-5] | [-5] | + | [-10] |
Ульянов Дмитрий Владимирович | 517 | + / 0 [-2] | + | + | + |
Шапулин Андрей Валентинович | 417 | + / + | + | + | + (3 место) |
Сиверский Михаил Николаевич | физфак | [-10] | [-5] | + | + (1 место) |
Игнатов Алексей Николаевич | 516 | [-10] | + | + | + |
Сокурский Юрий Валентинович | 517 | + / + | + | [-10] | [-10] |
Дойков Никита Владимирович | 417 | + / + | + | + | + |
Лукашкина Юлия Николаевна | 417 | [-10] | + | 0 | [-10] |
Байбурин Валерий Тагирович | м118 | + / - [-5] | [-5] | 0 | [-10] |
Дымов Григорий Андреевич | Stockholm university | + / + | [-5] | + | + |
Чинаев Николай Николаевич | DELETED | [-10] | [-5] | [-10] | [-10] |
Хальман Михаил Анатольевич | 417 | + / + | + | + | [-5] |
Нижибицкий Евгений | аспВМК | - / 0 [-7] | + | + | + |
Остапец Андрей | аспВМК | - / + [-5] | + | + | + |
Лекции
Здесь будет выложена программа нового (2014 года) - по мере чтения курса.
Число | Лекция | Материалы, замечания |
---|---|---|
24.09.14 | Matrix Laboratory (эффективное программирование): системы и языки для анализа малых данных, интерпретатор Matlab (достоинства и недостатки), типы данных (массивы ячеек, структуры, строки, логические массивы, NaN), матрицы (порождение, конкатенация, индексация, разреженные матрицы), операции над ними, фокусы с размерностями, файловый ввод и вывод, m-файлы (функции и скрипты), графика (начало), анонимные функции, поэлементные функции, основы эффективного программирования, возможности работы с большими данными | слайды лекции 1, рекомендованное учебное пособие: Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab |
01.10.14 | Вводное занятие: цели курса, материалы, правила, участие в соревнованиях.
Домашнее задание №1: Соревнование Learning Social Circles in Networks по определению кругов в эго-подграфах графа социальной сети (задача, данные, их загрузка, редакторское расстояние), приложения анализа социальных сетей. Социальные сети: динамические графы, приложения анализа социальных сетей, погружение графов в признаковое пространство, сходство вершин, важность вершин. | слайды лекции 2 (zip, jpg 8Mb), книга [1], код для загрузки данных |
08.10.14 | Социальные сети (продолжение): прогнозирование появления рёбер в динамическом графе, решение задачи соревнования IJCNN Social Network Challenge, признаки рёбер, алгоритм PageRank и его модификации, сообщества в графах и их выделение, спектральные методы на графах, генерация случайных графов.
Домашнее задание №1: мозговой штурм. | слайды лекции 2 (zip, jpg 8Mb), статья Learning to Discover Social Circles in Ego Networks, обзор Community Detection in Graphs, обзор Случайные графы, модели и генераторы. |
15.10.14 | Искусство визуализации данных: игра "Что за данные", признаки в задаче [bioresponse], выделение групп признаков, что можно увидеть в данных, оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений, результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. | слайды лекции 3 (zip, jpg 7.6Mb), книга [2] |
22.10.14 | Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы.: проблема оценки среднего, выбросы, разные целевые функционалы, оценка минимального контраста, среднее по Колмогорову, SMAPE-минимизация, двухэтапные алгоритмы и их настройка, пересчёт вероятности и прямая оценка, введение весовых схем, устойчивость весовых схем, ансамблирование, непараметрическое восстановление плотности, весовые схемы при оценке плотности. Задача [dunnhumby's Shopper Challenge]. Задача [пробки]. | слайды лекции 4 (zip, jpg 9.3Mb), книга [3], статья [4] |
29.10.14 | Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. (продолжение) | |
05.11.14 | Линейные алгоритмы.
Разбор решения задачи соревнования Learning Social Circles in Networks. | слайды разборов (zip, jpg 4Mb), отчёты участников высланы по почте |
12.11.14 | Линейные алгоритмы.
Разбор решения задачи соревнования [1]. | Разбор решений С.Семёнова и А. |
Старую программу см. на странице Спецкурс «Прикладные задачи анализа данных» (2013 год).
Отчётность
- отчёты по решению конкурсных задач (доклады с презентацией + исходники)
- зачёт с оценкой в конце семестра
Страницы курсов прошлых лет
Спецкурс «Прикладные задачи анализа данных» (2013 год)
Ссылки
- Книга Jure Leskovec, Anand Rajaraman, Jeff Ullman Mining of Massive Datasets * Неплохая книга на английском языке с обзором основных задач и методов в анализе данных (уровень сложности - средний).
- Книга Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) по визуализации данных
- Книга Шурыгин А.М. Математические методы прогнозирования * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
- Статья Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей.
- Книга Научно-популярная лекция «Введение в анализ данных» (PDF, 1.4 Мб) * Вводная лекция, которая написана для просеминара.
- Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования) * Глава 12 «Шаманство в анализе данных».
- Научно-популярная лекция «Шаманство в анализе данных» (1.21Мб) * Переработка предыдущего источника в научно-популярную лекцию.
- Научно-популярная лекция «Чему не учат в анализе данных и машинном обучении» * Рассказываются тонкости решения задач, которые умалчиваются в основных курсах.
- Прогнозирование рядов соревнования «Tourism Forecasting Part Two» (414Кб) * Подробное описание некоторых простых алгоритмов для прогнозирования туристических временных рядов.
- Data Science * Аналогичный (по духу) гарвардский курс
- Страница спецсеминара «Алгебра над алгоритмами и эвристический поиск закономерностей» * Приведены ссылки на сайты с данными реальных задач анализа данных.
Ещё ссылки
Неплохая короткая демка про соревнования в анализе данных, платформы для соревнований и возможности системы R.
ДОВОДИМАЯ РАНЕЕ ИНФОРМАЦИЯ (уже не актуальна)
В сентябре 2014 года будет объявлен новый набор слушателей спецкурса.
Поскольку обычно желающих очень много, а работа на спецкурсе подразумевает сильную вовлечённость студентов и небольшое число слушателей, то будет произведён отбор.
Для участия в отборе необходимо:
- освоить (если его не было в учебной программе) курс Машинное обучение,
- выступить хотя бы в одном соревновании по анализу данных (см. ниже),
- Пройти анкетирование (или собеседование в сентябре).
Список допустимых соревнований:
- Display Advertising Challenge завершён
- Liberty Mutual Group - Fire Peril Loss Cost завершён
- The Hunt for Prohibited Content завершён
- Higgs Boson Machine Learning Challenge завершён
- ecMeg2014 - Decoding the Human Brain завершён
- Detect seizures in intracranial EEG recordings завершён
- KDD Cup 2014 - Predicting Excitement at DonorsChoose.org завершён
- Acquire Valued Shoppers Challenge завершён
- Greek Media Monitoring Multilabel Classification (WISE 2014) завершён
Результат будет учитываться при отборе. Участие в соревновании не гарантирует отбор!
В новой версии спецкурса будет серия лекций по системам Matlab и R.
Кроме того, будут рассмотрены новые темы: например, анализ соцсетей.
Объявлен набор слушателей на спецкурс (5 сентября 2014 года).
Необходима регистрация! Для этого надо прислать на почту djakonov (собака) mail (точка) ru
Тема письма: [ПЗАД] Фамилия студента
Текст: в первой строке через точку с запятой указываются
- Фамилия Имя Отчество,
- группа (вуз, если из другого вуза),
- в скольких соревнования на сайте Kaggle участвовали (число),
- какие курсы по машинному обучению прослушаны,
- желаемые дни и часы (в формате ПТН, 18-00),
- знакомые языки и системы программирования, включая программы и библиотеки для машинного обучения,
- страница на Kaggle,
- сколько часов в неделю готовы уделять выполнению практических заданий.
В других строчках (начиная со второй) можно по желанию дать пояснения.
Пример:
Дьяконов Александр Геннадьевич; 617; 25; ММРО Воронцов; ВТ 18-00, СР 16-20; R, Matlab, Python, Weka, RapidMiner, Liblinear, VW; https://www.kaggle.com/users/3090/alexander-d-yakonov; 8
Посещение спецкурса закрытое, число мест ограничено, регистрация скоро будет закрыта – спешите…