Байесовские методы машинного обучения (Спецсеминар)
Материал из MachineLearning.
(Ссылка на другой метод выбора числа кластеров в ЕМ) |
|||
Строка 24: | Строка 24: | ||
Классический ЕМ-алгоритм восстановления смеси нормальных распределений не позволяет определять количество компонент смеси. В работе предлагается алгоритм автоматического определения числа компонент ARD EM, основанный на методе релевантных векторов. Идея алгоритма состоит в использовании на начальном этапе заведомо избыточного количества компонент смеси с дальнейшим определением релевантных компонент с помощью максимизации обоснованности. Эксперименты на модельных задачах показывают, что количество найденных кластеров либо совпадает с истинным, либо немного превосходит его. Кроме того, кластеризация с помощью ARD EM оказывается ближе к истинной, чем у аналогов, основанных на скользящем контроле и принципе минимальной длины описания. | Классический ЕМ-алгоритм восстановления смеси нормальных распределений не позволяет определять количество компонент смеси. В работе предлагается алгоритм автоматического определения числа компонент ARD EM, основанный на методе релевантных векторов. Идея алгоритма состоит в использовании на начальном этапе заведомо избыточного количества компонент смеси с дальнейшим определением релевантных компонент с помощью максимизации обоснованности. Эксперименты на модельных задачах показывают, что количество найденных кластеров либо совпадает с истинным, либо немного превосходит его. Кроме того, кластеризация с помощью ARD EM оказывается ближе к истинной, чем у аналогов, основанных на скользящем контроле и принципе минимальной длины описания. | ||
- | [[Media:Vetrov-ArdEm-JVMMF-2009.pdf | Статья , PDF [670Кб]]]. | + | [[Media:Vetrov-ArdEm-JVMMF-2009.pdf | Статья, PDF [670Кб]]]. |
+ | |||
+ | ==== См. также ==== | ||
+ | [[EM-алгоритм с последовательным добавлением компонент (пример)|EM-алгоритм с последовательным добавлением компонент]] | ||
[[Категория:Научные школы]] | [[Категория:Научные школы]] |
Версия 14:14, 17 сентября 2009
Основные направления работы семинара
Семинар (рук. н.с. каф. ММП ф-та ВМК МГУ, к.ф.-м.н. Д.П. Ветров, м.н.с. ВЦ РАН Д.А. Кропотов) проводится для студентов каф. ММП, ф-та ВМК МГУ, но открыт для всех желающих. Основным направлением работы семинара является исследование и применение т.н. байесовского подхода к теории вероятностей в решении задач машинного обучения и компьютерного зрения. Байесовские методы получили большое распространение в мире в течение последних 15 лет. Их основными достоинствами является
- возможность автоматической настройки структурных параметров алгоритмов машинного обучения (выбор количества кластеров, определение коэффициента регуляризации, отбор релевантных признаков и объектов, определение топологии нейросети и пр.);
- корректная работа с фактами, достоверность которых точно неизвестна, позволяющая обобщить методы классической булевой логики на ситуации, содержащие значительный элемент неопределенности, которая позволяет успешно применить байесовские методы в экспертных системах;
- возможность учета структурных и вероятностных взаимосвязей в массивах данных, опирающаяся на активно развиваемый в настоящее время аппарат графических моделей;
- представление данных и настраиваемых параметров, позволяющее объединять результаты наблюдений косвенных показателей неизвестной величины с априорными представлениями о ее характерных значениях.
Участники спецсеминара активно участвуют в теоретической работе по разработке новых методов настройки структурных параметров и алгоритмов машинного обучения для нестандартных задач, а также занимаются прикладными исследованиями в области когнитивных технологий.
Методическая поддержка спецсеминара осуществляется спецкурсами «Байесовские методы машинного обучения» и «Структурные методы анализа изображений и сигналов», читаемых на факультете ВМК.
Прикладные проекты
Построение трехмерной модели мозга мыши и статистический анализ экспрессии генов в мозге
Множественный трекинг лабораторных животных
Определение поведенческих актов животного по данным видеонаблюдения
Нахождение скрытых закономерностей в поведении
Анализ изображений клеточных структур
Теоретическая работа
Непрерывное обобщение информационного критерия Акаике в задачах регрессии и классификации
Недиагональная регуляризация обобщенных линейных моделей
Автоматическое определение количества компонент в EM-алгоритме восстановления смеси нормальных распределений
Классический ЕМ-алгоритм восстановления смеси нормальных распределений не позволяет определять количество компонент смеси. В работе предлагается алгоритм автоматического определения числа компонент ARD EM, основанный на методе релевантных векторов. Идея алгоритма состоит в использовании на начальном этапе заведомо избыточного количества компонент смеси с дальнейшим определением релевантных компонент с помощью максимизации обоснованности. Эксперименты на модельных задачах показывают, что количество найденных кластеров либо совпадает с истинным, либо немного превосходит его. Кроме того, кластеризация с помощью ARD EM оказывается ближе к истинной, чем у аналогов, основанных на скользящем контроле и принципе минимальной длины описания.