|
|
(156 промежуточных версий не показаны.) |
Строка 1: |
Строка 1: |
- | == АЛГОРИТМЫ, МОДЕЛИ, АЛГЕБРЫ (название условное, курс посвящён анализу данных) == | + | == ПРИКЛАДНЫЕ ЗАДАЧИ АНАЛИЗА ДАННЫХ (курс для магистров ММП ВМК МГУ) == |
- | | + | |
- | {{notice|
| + | |
- | '''Внимание магистрам 2го, которые хотят пересдавать АМА'''
| + | |
- | | + | |
- | Система оценки на пересдаче идентична системе, которая была при чтении курса. <br>
| + | |
- | Вы должны вместе с текущими слушателями АМА выполнять все задания, <br>
| + | |
- | чтобы гарантировать себе оценку, отличную от '''неуд'''!!! <br>
| + | |
- | Сроки сдачи заданий и штрафные баллы такие же, как и у магистров 517 группы.
| + | |
- | }}
| + | |
| | | |
| * Обязательный курс для магистров каф. [[ММП]] 1 г/о, читается в 1-м (9-м) семестре. | | * Обязательный курс для магистров каф. [[ММП]] 1 г/о, читается в 1-м (9-м) семестре. |
- | * Лекции — 32 часа, семинаров - 32 часа. | + | * Лекции — 36 часов, семинаров - 36 часов. |
| * Экзамен. | | * Экзамен. |
| * За курс отвечает кафедра Математических методов прогнозирования. | | * За курс отвечает кафедра Математических методов прогнозирования. |
Строка 20: |
Строка 11: |
| | | |
| {{notice| | | {{notice| |
- | '''Как в прошлом году проходил экзамен:''' | + | '''Как будет проходить экзамен:''' |
| | | |
| * Есть система штрафных баллов, по ней формируется итоговая оценка. | | * Есть система штрафных баллов, по ней формируется итоговая оценка. |
| * Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов. | | * Пороги для конкретных оценок (по сумме баллов) объявлены изначально, но могут быть откорректированы лектором в пользу студентов. |
| * Сам экзамен проводится письменно - на нём (при желании) можно улучшить итоговую оценку | | * Сам экзамен проводится письменно - на нём (при желании) можно улучшить итоговую оценку |
| + | |
| + | хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла. |
| + | |
| + | * Итоговая "отлично" ставится автоматом. |
| + | * Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене). Перечень заданий для допуска определяется персонально с учётом заданий, сданных во время семестра. |
| + | |
| | | |
| '''Содержание экзамена:''' задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях) | | '''Содержание экзамена:''' задания эквивалентные заданиям со всех контрольных и семинаров (плюс задания по спектральной теории графов, плюс задания на знания теории и определений, если они были на лекциях и продублированы в списке рекомендуемой литературы, плюс задания на знания языков/библиотек, если они обсуждались на семинарах и лекциях) |
| | | |
- | '''Исправление:''' хорошее написание письменного экзамена увеличивает итоговую оценку на 1 балл (порог будет заранее объявлен), безупречное написание - на 2 балла.
| |
| | | |
- | * Итоговая "отлично" ставится автоматом.
| + | |
- | * Итоговая "неудовлетворительно" также ставится автоматом и означает недопуск к экзамену, чтобы получить допуск надо сдать все несданные задания (итоговая оценка при этом не меняется и может быть исправлена только на самом экзамене).
| + | |
| * Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче! | | * Экзамен проходит по жёсткой схеме: нельзя пользоваться ничем (кроме ручки и листка бумаги). Аналогично контроль сдаваемых заданий после окончания семестра жёсткий: лектор уже не консультирует по самим заданиям, презентации оцениваются по формальным критериям: наличие постановки задачи, описание предложенных методов, их обоснование, подробное изложение экспериментов (с графиками и таблицами), формирование итоговой модели, выводы. Оценивается и сам доклад по задаче! |
| | | |
Строка 39: |
Строка 34: |
| Курс посвящён решению прикладных задач анализа данных. | | Курс посвящён решению прикладных задач анализа данных. |
| Разбираются реальные задачи и бизнес-кейсы. | | Разбираются реальные задачи и бизнес-кейсы. |
- | Студенты пишут и настраивают алгоритмы на языках Python, R, M (Matlab). | + | Студенты пишут и настраивают алгоритмы на языке Python. |
| | | |
| Семинары посвящены | | Семинары посвящены |
Строка 66: |
Строка 61: |
| | | |
| | | |
- | Итоговая оценка формируется следующим образом: | + | Итоговая (базовая) оценка формируется следующим образом: |
| * до 10 штрафных баллов включительно - отлично, | | * до 10 штрафных баллов включительно - отлично, |
| * до 20 штрафных баллов включительно - хорошо, | | * до 20 штрафных баллов включительно - хорошо, |
Строка 72: |
Строка 67: |
| | | |
| == Содержание курса == | | == Содержание курса == |
- | Наполняется по мере необходимости.
| |
| | | |
- | {| class="wikitable"
| + | В этом году все материалы выкладываются здесь: https://github.com/Dyakonov/PZAD. |
- | |-
| + | |
- | ! Число
| + | |
- | ! Занятие
| + | |
- | ! Тема
| + | |
- | ! Замечания
| + | |
- | |-
| + | |
- | | 01.09.16
| + | |
- | | лекция
| + | |
- | | '''Вводное занятие''': цели курса, материалы, правила, участие в соревнованиях.
| + | |
- | | [[Медиа:AMA2016_00_intro.pdf|презентация (pdf)]]
| + | |
- | |-
| + | |
- | | 01.09.16
| + | |
- | | семинар
| + | |
- | | Тест на знание основ машинного обучения.
| + | |
- | |
| + | |
- | |-
| + | |
- | | 01.09.16
| + | |
- | | дз
| + | |
- | | Регистрация на платформе kaggle.com (каждый участник в четверг должен иметь действующий логин), регистрация на данном ресурсе (по возможности), исследование платформы kaggle (уметь назвать несколько задач с платформы, их постановку, функционал качества, методы, которые использовали участники).
| + | |
- | |
| + | |
- | |-
| + | |
- | | 08.09.16
| + | |
- | | лекция
| + | |
- | | '''Оценка среднего и вероятности'''
| + | |
- | | + | |
- | материалы:
| + | |
- | # Книга [http://www.ozon.ru/context/detail/id/4526400/ Шурыгин А.М. Математические методы прогнозирования // М., Горячая линия — Телеком, 2009, 180 с.] * Неплохие идеи для решения некоторых практических задач статистики (но в целом, специфична)
| + | |
- | # Статья [http://bijournal.hse.ru/2014--1%20%2827%29/120486363.html Дьяконов А.Г. Прогноз поведения клиентов супермаркетов с помощью весовых схем оценок вероятностей и плотностей // Бизнес-информатика. 2014. № 1 (27). С. 68–77.].
| + | |
- | # Видео [https://vimeo.com/119925869 Оценка вероятности: когда к нам придёт клиент?]
| + | |
- | | [[Медиа:PZAD2016_01_probweights.pdf|презентация (pdf)]]
| + | |
- | |-
| + | |
- | | 08.09.16
| + | |
- | | лекция
| + | |
- | |
| + | |
- | |
| + | |
- | |-
| + | |
- | | 08.09.16
| + | |
- | | дз
| + | |
- | | '''Первое домашнее задание:'''
| + | |
- | | + | |
- | Решение задачи [[https://inclass.kaggle.com/c/msusums]].
| + | |
- | Срок - '''до 21 сентября 2016 23:59''' (с выкладкой отчёта в [[https://inclass.kaggle.com/c/msusums/forums/t/23145/2016/132732 этой ветке форума]]).
| + | |
- | | + | |
- | Все вопросы задаются в [[https://inclass.kaggle.com/c/msusums/forums/ форуме]].
| + | |
- | | + | |
- | Поощряется активность: выкладывание скриптов общего назначения (загрузка данных, перевод в нужный формат), бенчмарков (примитивные алгоритмы), ответы на вопросы в форуме.
| + | |
- | | + | |
- | '''до 14 сентября 2016 23:59 ''' - преодолеть порог 278.17435 в [[https://inclass.kaggle.com/c/msusums/leaderboard Public Liderboard]].
| + | |
- | | + | |
- | Напоминание: команды называть по шаблону '''''Ivan Ivanov (MMP, MSU, Russia)'''''.
| + | |
- | | max штраф за задание -10.
| + | |
- | Но дополнительно, за непреодоление бенчмарка -5.
| + | |
- | | + | |
- | | + | |
- | | + | |
- | |-
| + | |
- | | 15.09.16
| + | |
- | | лекция
| + | |
- | | '''Система для анализа данных Matlab'''
| + | |
- | материалы:
| + | |
- | | + | |
- | # [[Публикация:Дьяконов 2010 Учебное пособие ММП| Дьяконов A.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и MatLab (практикум на ЭВМ кафедры математических методов прогнозирования), МАКСПресс, 2010, 278с.]]
| + | |
- | # [https://blogs.mathworks.com/loren/ Блог Лоурен "Loren on the Art of MATLAB"]
| + | |
- | | [[Медиа:PZAD2016_02_matlab.pdf|презентация (pdf)]]
| + | |
- | |-
| + | |
- | | 15.09.16
| + | |
- | | семинар
| + | |
- | | Разбор первого проверочного теста
| + | |
- | |
| + | |
- | |-
| + | |
- | | 15.09.16
| + | |
- | | дз
| + | |
- | | Быть в будущем готовым к контрольной
| + | |
- | |
| + | |
- | |-
| + | |
- | | 22.09.16
| + | |
- | | лекция
| + | |
- | | '''Визуализация данных'''
| + | |
- | материалы:
| + | |
- | | + | |
- | * Книга [http://www.amazon.com/Beautiful-Visualization-Looking-through-Practice/dp/1449379869 Beautiful Visualization: Looking at Data through the Eyes of Experts (Theory in Practice) // Edited by Julie Steele and Noah Iilinsky. Sebastopol, CA: O‘Reilly 2010, pp. 227-254. ISBN: 978-1-4493-7986-5] по визуализации данных
| + | |
- |
| + | |
- | | [[Медиа:PZAD2016_03_visualize.pdf|презентация (pdf)]]
| + | |
- | |-
| + | |
- | | 22.09.16
| + | |
- | | семинар
| + | |
- | | Разбор решений задачи [[https://inclass.kaggle.com/c/msusums MSUsums]]
| + | |
- | |
| + | |
- | |-
| + | |
- | | 22.09.16
| + | |
- | | дз
| + | |
- | |
| + | |
- | | + | |
- | '''Второе домашнее задание:'''
| + | |
- | | + | |
- | 0. Найти интересную визуализацию, выложить в [[https://inclass.kaggle.com/c/msusums/forums/t/23884/ ветке форума]] (кратко обосновать, чем интересна).
| + | |
- | | + | |
- | Не обязательно на тему анализа данных (главное: интересная тематика и/или стиль визуализации).
| + | |
- | | + | |
- | Если кто-то выкладывает визуализацию, то источник (например, какой-то блог) уже не может быть использован остальными магистрами!
| + | |
- | | + | |
- | 1. Выбрать набор данных на kaggle.com в разделе [[https://www.kaggle.com/datasets Kaggle/Datasets]].
| + | |
- | | + | |
- | Будьте внимательны: смотрите на данные. Ограничение: не более двух магистров на один датасет.
| + | |
- | Выбор надо '''сразу же''' "застолбить" в [[https://inclass.kaggle.com/c/msusums/forums/t/23884/ ветке форума]].
| + | |
- | | + | |
- | 2. Сделать визуализацию по этой задаче (по каждой уже есть какие-то визуализации - см. раздел "Kernels"). Вот [[https://www.kaggle.com/adhok93/d/deepmatrix/imdb-5000-movie-dataset/eda-with-plotly/notebook пример]] одной из уже сделанных визуализаций.
| + | |
- | | + | |
- | 3. Оформить её в виде скрипта на сайте (предпочтительно) и / или в виде отдельного pdf-отчёта. Вот пример [[https://inclass.kaggle.com/blobs/download/forum-message-attachment-files/3096/Senderovich517VisualReport.pdf отчёта прошлого года]].
| + | |
- | | + | |
- | 4. В любом случае - сделать по своей работе презентацию.
| + | |
- | | + | |
- | 5. Что будет оцениваться (точнее, не штрафоваться)
| + | |
- | * красота картинок
| + | |
- | * нетривиальность данных для визуализации (необходимость получить их по представленным таблицам)
| + | |
- | * непохожесть на другие визуализации
| + | |
- | * качество выводов
| + | |
- | * подробность описания своей работы над задачей
| + | |
- | * лайки на сайте kaggle
| + | |
- | | + | |
- | Срок - до '''12.10.2016 23:59'''.
| + | |
- | | + | |
- | Максимальный штраф: '''-10''' (плюс отдельный штраф '''-5''' за найденную визуализацию).
| + | |
- | | + | |
- | |-
| + | |
- | | 29.09.16
| + | |
- | | лекция
| + | |
- | | продолжение '''Визуализация данных'''
| + | |
- | |
| + | |
- | |-
| + | |
- | | 29.09.16
| + | |
- | | лекция
| + | |
- | | '''Функционалы качества и ошибки'''
| + | |
- | | + | |
- | материалы: | + | |
- | * [https://ccrma.stanford.edu/workshops/mir2009/references/ROCintro.pdf Tom Fawcett An introduction to ROC analysis // Pattern Recognition Letters Volume 27 Issue 8, 2006, P. 861-874.]
| + | |
- | * [http://strijov.com/papers/Strijov2012ErrorFn.pdf Стрижов В.В. Функция ошибки в задачах восстановления регрессии // Заводская лаборатория, 2013, 79(5): 65-73.]
| + | |
- | * [http://www.ozon.ru/context/detail/id/5497130/ К.Д. Маннинг, П. Рагхаван, Х. Шютце «Введение в информационный поиск» // . — Вильямс, 2011.]
| + | |
- | * видео [https://vimeo.com/119926468 Функционалы качества и функции потерь: Константы тоже бывают разные]
| + | |
- | * видео [https://vimeo.com/119926489 Функционалы качества и функции потерь: Какие множества похожи?]
| + | |
- | * видео [https://vimeo.com/119926504 Функционалы качества и функции потерь: AUC ROC - путь из (0,0) в (1,1)]
| + | |
- | | [[Медиа:PZAD2016_04_errors.pdf|презентация (pdf)]]
| + | |
- | |-
| + | |
- | | 29.09.16
| + | |
- | | дз
| + | |
- | |
| + | |
- | |
| + | |
- | | + | |
- | |-
| + | |
- | | 05.10.16 <br> среда
| + | |
- | | лекция
| + | |
- | | '''Язык программирования Python'''
| + | |
- | | [[Медиа:PZAD2016_05_python.pdf|презентация (pdf)]]
| + | |
- | |-
| + | |
- | | 05.10.16 <br> среда
| + | |
- | | лекция
| + | |
- | | '''Язык программирования Python''' (продолжение)
| + | |
- | |
| + | |
- | |-
| + | |
- | | 05.10.16 <br> среда
| + | |
- | | дз
| + | |
- | | Готовиться к к/р по языку Python.
| + | |
- | |
| + | |
- | | + | |
- | | + | |
- | |-
| + | |
- | | 13.10.16
| + | |
- | | лекция
| + | |
- | | продолжение '''Функционалы качества и ошибки'''
| + | |
- | |
| + | |
- | |-
| + | |
- | | 13.10.16
| + | |
- | | лекция
| + | |
- | | '''Минимизация ошибок'''
| + | |
- | | + | |
- | | + | |
- | | [[Медиа:PZAD2016_05_minfunc.pdf|презентация (pdf)]]
| + | |
- | |-
| + | |
- | | 13.10.16
| + | |
- | | дз
| + | |
- | | [https://alexanderdyakonov.files.wordpress.com/2016/10/dj2016_sdsj_vis.pdf Визуализация по конкурсу]
| + | |
- | | + | |
- | [https://github.com/Dyakonov/case_sdsj/blob/master/dj_sdsj01_visual.ipynb код]
| + | |
- | |
| + | |
- | | + | |
- | | + | |
- | |-
| + | |
- | | 2do
| + | |
- | | 2do
| + | |
- | |
| + | |
- | * новое задание SB
| + | |
- | * кр Python
| + | |
- | * досмотреть визуализации
| + | |
- | * семинар + кр функции ошибок
| + | |
- | * Pandas (+sklearn + vis?)
| + | |
- | |
| + | |
- | | + | |
- | |}
| + | |
| | | |
| == Успеваемость == | | == Успеваемость == |
- |
| |
- | {|class = "standard sortable"
| |
- | ! № п/п !! Студент !! тест !! покупки (1) !! покупки (2) !! визуализация !!
| |
- | |-
| |
- | | align="center"|1 || Амелин Владислав Владимирович || 19 || + || +0 <br> report|| vis+/+ ||
| |
- | |-
| |
- | | align="center"|2 || Андрейцев Антон Игоревич || 13 || - || -6 <br> report|| vis+/+ ||
| |
- | |-
| |
- | | align="center"|3 || Викулин Всеволод Александрович || 28 || + || +3 <br> report || vis+/+ ||
| |
- | |-
| |
- | | align="center"|4 || Вихрева Мария Викторовна || Н || - || -5 <br> || vis+/+ ||
| |
- | |-
| |
- | | align="center"|5 || Гетоева Аида Артуровна || 11 || + || +0 <br> report || vis+/+ ||
| |
- | |-
| |
- | | align="center"|6 || Журавлёв Вадим Игоревич || 19 || + || +3 <br> report || vis+/+ ||
| |
- | |-
| |
- | | align="center"|7 || Иванов Олег Юрьевич || 32 || + || +5 <br> || /+ ||
| |
- | |-
| |
- | | align="center"|8 || Камалов Руслан Рамилевич || 11 || + || +0 <br> || vis+/+ ||
| |
- | |-
| |
- | | align="center"|9 || Кудрявцев Георгий Алексеевич || 25 || + || -1 <br> report || vis+/+ ||
| |
- | |-
| |
- | | align="center"|10 || Оспанов Аят Махатович || 17 || + || +0 <br> report || vis+/+ ||
| |
- | |-
| |
- | | align="center"|11 || Попов Николай Олегович || 10 || + || +0 <br> || vis+/+ ||
| |
- | |-
| |
- | | align="center"|12 || Романов Никита Алексеевич || 8 || + || +0 <br> report|| vis+/+ ||
| |
- | |-
| |
- | | align="center"|13 || Рысьмятова Анастасия Александровна || 37 || + || +10 (1st) <br> report|| vis+/+ ||
| |
- | |-
| |
- | | align="center"|14 || Садекова Таснима || 10 || + || +0 <br> || vis+/+ ||
| |
- | |-
| |
- | | align="center"|15 || Скробот Дмитрий Владиславович || Н || - || -10 || -5 -10
| |
- | |-
| |
- | | align="center"|16 || Стёпина Александра Михайловна || 18 || + || -3 <br> || vis+/+ ||
| |
- | |-
| |
- | | align="center"|17 || Тлеубаев Адиль Талгатович || 16 || + || +0 <br> || vis+ ||
| |
- | |-
| |
- | | align="center"|18 || Чиркова Надежда Александровна || 24 || + || +0 <br> report || vis+ ||
| |
- | |-
| |
- | | align="center"|19 || Шаповалов Никита Анатольевич || 39 || + || +0 <br> report || vis+/+ ||
| |
- | |-
| |
- | | align="center"|-- || Даулбаев Талгат Кайратулы|| 30 || + || +0 <br> || vis+/+ ||
| |
- | |-
| |
- | | align="center"|-- || Теплов Алексей (НИВЦ)|| Н ||
| |
- | |-
| |
- | | align="center"|-- || Гёри Алексей (Германия)|| Н || + || +5 <br> report|| vis+/+ ||
| |
- | |-
| |
- | | align="center"|-- || Чабаненко Владислав Дмитриевич || 28 || + ||
| |
- | |-
| |
- | |}
| |
| | | |
| == Литература == | | == Литература == |
- | Указана локально - в сетке расписания. | + | Указана локально - в слайдах / сетке расписания. |
| | | |
| == История == | | == История == |
| Программы прошлых лет см. здесь: | | Программы прошлых лет см. здесь: |
| + | * [[Прикладные задачи анализа данных (курс на ВМК 2018 года)]] |
| + | * [[Прикладные задачи анализа данных (курс на ВМК 2017 года)]] |
| + | * [[Прикладные задачи анализа данных (курс на ВМК 2016 года)]] |
| * [[Алгоритмы, модели, алгебры (курс на ВМК 2015 года)]] | | * [[Алгоритмы, модели, алгебры (курс на ВМК 2015 года)]] |
| * [[Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)]] | | * [[Алгоритмы, модели, алгебры (курс на ВМК до 2015 года)]] |
Курс посвящён решению прикладных задач анализа данных.
Разбираются реальные задачи и бизнес-кейсы.
Студенты пишут и настраивают алгоритмы на языке Python.
В течение семестра студенты получают задания.
В противном случае - он получает от 1 до 10 штрафных баллов.
Штраф в 10 баллов допустим за позднюю сдачу (даже если решение верное)
в случае отсутствия уважительных причин (болезнь, подтверждаемая справкой, и т.п. -
см. требования учебной части).
В некоторых случаях (на усмотрение лектора), магистру, который лучше всех выполнил конкретное задание,
списываются штрафные баллы (до 10).
На экзамене также за неверные ответы студент получает штрафные баллы.
Указана локально - в слайдах / сетке расписания.
Программы прошлых лет см. здесь: