Спецкурс «Прикладные задачи анализа данных» (2013 год)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Общая информация)
Строка 1: Строка 1:
== Общая информация ==
== Общая информация ==
-
Спецкурс начал работу {{Важно|16 сентября (понедельник) в 16:20 (5я пара)}}.
+
Спецкурс начал работу 16 сентября (понедельник) 2013 года в 16:20 (5я пара).
Лектор: [[Участник:Dj|Дьяконов Александр]]
Лектор: [[Участник:Dj|Дьяконов Александр]]

Версия 18:40, 23 мая 2014

Общая информация

Спецкурс начал работу 16 сентября (понедельник) 2013 года в 16:20 (5я пара).

Лектор: Дьяконов Александр

Страница курса (текущего года): Спецкурс «Прикладные задачи анализа данных»

Слушатели

За каждое задание можно было получить от 0 до 10 штрафных баллов. 10 штрафных баллов понижают итоговую оценку на один балл.

Условные обозначения:

LB - есть в таблице конкурса (при конкурсном задании), LB-k - занято высокое k-е место (среди слушателей спецкурса), +r - сдан отчёт, {-n} - n штрафных баллов, Deleted - слушатель «удалён».


ФИО регистрация задание 1

(kaggle)

задание 2

(venture)

задание 3

(kaggle)

задание 4

(wikimart)

задание 5

(game)

штраф(сумма на 26.10)
Рыжков Александр Михайлович 417 LB+r +r LB+r LB +-+00 0 отлично
Харациди Олег 417 LB+r +r LB+r LB --+00 0 отлично
Шаповалов Никита Анатольевич 201 LB+r {-10} LB {-7} {-7} 00000 -24
Адимов Арсений Владимирович 205 LB+r {-10} LB {-7} {-7} 00000 -24
Рысьмятова Анастасия Александровна 214 LB+r +r LB+r LB -+000 0 отлично
Тавыриков Юрий Евгеньевич 205 LB-2+r +r LB+r LB 00000 0
Трофимов Михаил Игоревич МФТИ4 LB+r {-10} LB-3+r LB-2 00000 -10
Шадриков Андрей 417 LB+r +r {-10} LB 00000 -10
Кудрявцев Георгий Алексеевич 206 LB-1+r +r LB-2+r LB-3 ++000 0 отлично
Софиюк Константин Сергеевич 206 LB+r +r LB-1+r LB-1 ++++0 0 отлично
Долганов Станислав Викторович 206 LB+r +r LB+r {-7} 00000 -7
Тихонов Глеб Николаевич 513 LB+r +r LB+r {-7} +++++ -7 отлично
Купляков Денис 203 LB+r +r LB+r {-7} 00000 -7
Шабашев Фёдор Маркович 417 LB+r {-7} (п.з.) {-7}+r {-7} +++++ -21 удовлетворительно
Ломов Никита 417 LB+r +r LB {-7} {-7} +++00 -14 хорошо
Алёшин Илья 417 LB+r +r {-1} LB+r LB ++000 -1 отлично
Славнов Константин Анатольевич 317 LB+r +r {-7}+r {-7} +нннн -22 удовлетворительно
Шевцова (Подлевских) Алена ВМКвып LB+r {-10} LB {-7} {-7} 00000 -24
Гавриков Михаил Игоревич 517 +r {-6} +r LB {-7} {-7} ++++0 -20 удовлетворительно
Фонарев Александр Юрьевич 517 +r {-3} +r LB {-7} {-7} ннннн -27 удовлетворительно
Дорофеев Николай Юрьевич Яндекс {-10} {-10} LB {-7} {-7} 00000 -34
Игнатов Алексей Николаевич 416 +r {-3} {-10} Deleted(03.12) Deleted
Ромов Петр Алексеевич 517 {-10} {-10} Deleted(20.11) Deleted
Файзи Вахиб маг LB+r Deleted(30.10) Deleted
Кульпинов Владимир Константинович 202 LB {-3} Deleted(30.10) Deleted
Бырдин Александр Владимирович МФТИ4 LB-3 {-3} Deleted(30.10) Deleted
Зак Евгений 517 LB {-3} Deleted(30.10) Deleted

Лекции

Число Лекция Материалы, замечания
16.09.13 Решение задачи [The Big Data Combine Engineered by BattleFin] - прогноз цены на основе многомерного ряда и анонимизированных признаков. Загрузка данных, простые модели, линейная регрессия и случайный лес, сравнение R и MATLAB. Домашнее задание: решить задачу (отчёт). Материалы см. в [ветке форума] соревнования.
07.10.13 Разбор первого домашнего задания. Искусство визуализации данных: признаки в задаче [bioresponse], оценка признаков и фолдов, деформация ответов, устойчивость закономерностей, профили лет (в прогнозировании вр.рядов), плотности, оценка качества признаков с помощью RF и удалений Слайды и материалы высланы по почте участникам.
14.10.13 Продолжение Искусство визуализации данных: Результаты алгоритмов и их линейные комбинации, ручная деформация пространств, визуализация и сглаживание плотностей, построение профилей. Что надо знать о признаках. Визуализация по-вертикали и по-горизонтали. Шумы и шумовые признаки. Задачи [cause-effect-pairs], [GiveMeSomeCredit], [DarkWorlds]. Как начать решать второе домашнее задание. Слайды и материалы высланы по почте участникам.
21.10.13 Вторая задача: мозговой штурм. Оценка среднего, оценка вероятности, оценка плотности. Весовые схемы. Задача [dunnhumby]. Слайды и материалы высланы по почте участникам.
28.10.13 Продолжение Оценка плотности. Весовые схемы. Задача [пробки]. Слайды и материалы высланы по почте участникам.
04.11.13 Праздничный день.
11.11.13 Напоминание: линейные классификаторы и линейная регрессия. Задачи: [JRS12], [NN5], [tourism2]. Мозговой штурм по задаче [see-click-predict-fix]. Слайды и материалы высланы по почте участникам.
18.11.13 Анализ текста: классификация и регрессия. Задачи: [spam]. Ежегодное соревнование [LSHTC]. Слайды и материалы высланы по почте участникам.
25.11.13 Продолжение: Анализ текста: классификация и регрессия. Задачи: [JRS12]. Слайды и материалы высланы по почте участникам.
02.12.13 Случайные леса: программирование, настройка, использование. Построение отдельных деревьев. Параметры стандартных пакетов. Области устойчивости функционалов. Способы генерации новых признаков. Разбор задачи [see-click-predict-fix]. Новая задача [wikimart]. Слайды и материалы высланы по почте участникам.
09.12.13 Продолжение: Случайные леса. Параметры градиентного бустинга. Настройка на нестандартные функционалы. Простые решения задач скоринга. Калибровка ответов алгоритмов. Сведение задач рекомендации к задачам регрессии. Задачи [bioresponse], [WhatDoYouKnow] (предсказывание правильности ответов на вопросы тестов). Слайды и материалы высланы по почте участникам.
16.12.13 Весовые схемы kNN. Примитивные способы настройки линейных комбинаций алгоритмов на нестандартные функционалы качества. Эффективная технология решения задач с разнородными данными и нестандартными функционалами качества. Задачи [PhotoQualityPrediction] (определение качества фотографии по метаданным), [unimelb] (предсказывание успешности выполнения гранта), [VLNetChallenge] (рекомендация видеолекций для просмотра).
Самостоятельное решение прикладных задач на [Кэгле].
17.03.14 Решение задач с категориальными (номинальными, факторными) признаками. Стандартные кодировки признаков, кодировки через факторные признпки (новые методы). Обобщения байесовских алгоритмов. Линейные алгоритмы над разреженными матрицами. SVD-разложение разреженных матриц. Многомерное SVD-разложение (тензоров). Обобщение алгоритмов, основанных на вычислении близости (kNN+АВО). Задача [Аmazon employee access] (разработка рекомендательной системы для службы безопасности). Лекция выслана по почте участникам.
Личные инструменты