Коллекция учебных задач
Материал из MachineLearning.
Коллекция учебных задач анализа данных собирается с целью повысить эффективность преподавания дисциплин, связанных с анализом данных. Эти задачи могут использоваться как в практикумах, так и при подготовке лекционного материала. Для каждой задачи отводится отдельная страница в категории Учебные задачи.
Содержание[убрать] |
Классы задач
- Проверка статистических гипотез
- Выборочный анализ
- Классификация
- Кластеризация
- Регрессионный анализ
- Прогнозирование
- Анализ изображений
- Анализ сигналов
- Анализ текстов
- Анализ веба
- Коллаборативная фильтрация
Список будет расширяться...
Мотивация
Цель создания данной коллекции — помочь преподавателям вузов воспитать у студентов «культуру анализа данных» и показать разнообразие возможных приложений.
- Проблема в том, что каждый преподаватель подбирает задачи, которые он решал, или о которых он слышал от коллег, или которые кочуют из учебника в учебник. В любом случае у студентов формируется довольно узкое представление о спектре приложений.
- Студентам надо показывать, что наука анализа данных и сферы её приложений огромны, нетривиальны и приносят ощутимую пользу. Ни одному отдельно взятому преподавателю такое нед силу. Вики-ресурс позволяет организовать обмен опытом.
- От решения прикладных задач должно быть сразу две пользы: (1) студент узнаёт о тонкостях анализа данных и (2) студент узнаёт об интересных реальных приложениях и расширяет свой кругозор.
- Это должны быть реальные прикладные задачи, которые кем-то уже решены; этим кем-то накоплен ценный опыт; и этот кто-то нашёл достаточно времени и энтузиазма, чтобы описать свой путь решения, включая как подтвердившиеся, так и отвергнутые гипотезы. При этом что-то можно упрощать и идеализировать, но не в ущерб реалистичности и поучительности.
- Каждый преподаватель, создавая хороший практикум, всё равно делает нечто подобное, но наработанные материалы остаются неизвестными и недоступными широкому кругу коллег, даже если институт выпустил методичку. Коллективный вики-Ресурс позволяет сконцентрировать разрозненные наработки в одном месте.
- Искусственные модельные задачи мало интересуют. Они только всё запутывают. Под любой принцип в машинном обучении можно легко подобрать пример и контрпример. Жалко терять время на изучение практически не встречающихся ситуаций, когда есть возможность учиться живому Делу.
Рекомендуемая структура страницы учебной задачи
== Постановка задачи == == Исходные данные == == Способы решения == == Ссылки == == См. также == == Литература ==
В разделе Постановка задачи даются необходимые сведения о предметной области, описывается как содержательная, так и формальная постановка задачи. Даются критерии качества решения. Возможно привести несколько постановок задач, относящихся к одним и тем же данным.
В разделе Исходные данные приводятся ссылки для загрузки файлов исходных данных и подробное описание формата этих файлов. Возможно размещение как сырых, так и предобработанных данных.
Раздел Способы решения является наиболее важным. Описываются особенности данной задачи, гипотезы, идеи, наводящие соображения, возможные методы решения, «подводные камни», приёмы анализа данных. Описания решений могут включать фрагменты программ, историю проб и ошибок, промежуточные данные, отчёты, выводы. Желательно, чтобы это был проработанный методический материал, опирающийся на опыт уже проводимых практических занятий.
Эти материалы предназначены, главным образом, для преподавателей. Однако студенты также могут свободно знакомиться с ними. С целью контроля выполнения заданий преподаватель может изменить исходные данные по своему усмотрению, например, добавить аддитивный шум, взять только часть признаков, или только часть наблюдений.
См. также
Ссылки
Сайты с ссылками на прикладные задачи
- UCI Machine Learning Repository — домашняя страница репозитория UCI
- KDnuggets — крупнейший портал по интеллектуальному анализу данных, поддерживаемый Григорием Пятецким-Шапиро, одним из идеологов Data Mining
- IAPR Education Committee & Resources — коллекция ссылок на образовательные ресурсы по распознаванию образов, машинному обучению, обработке сигналов, обработке изображений и компьютерному зрению, поддерживаемая Международной ассоциацией распознавания образов
Конкурсы
- KDnuggets/Datasets/Competitions — объявления о конкурсах на сайте KDnuggets
- ACM KDD Cup — ежегодный кубок по интеллектуальному анализу данных (Data Mining and Knowledge Discovery)
- Интернет-математика — стипендия Яндекс
- ML challenges — соревнования в решении задач машинного обучения
- Netflix — знаменитый конкурс американской компании видеопроката Netflix с главным призом в один миллион долларов