Описание окрестности точки наибольшего правдоподобия моделей (пример)
Материал из MachineLearning.
Содержание |
Постановка задачи
Пусть,
- множество из m свободных переменных (объектов),
, где n - размерность пространства,
- зависимая переменная.
Индекс признака
.
- множество активных признаков.
Рассмотрим следующую линейную модель регрессии, описывающую связь между свободными и зависимой переменными
где - нормальное распределение.
Множество задаёт регрессионную модель
и вектор весов
.
Требуется найти такую модель оптимальной структуры признаков , которая доставляет наименьшее значение функционалу качества (?).
Порождение свободных переменных
Множества измеряемых признаков бывает недостаточно для построения модели удовлетворительного качества. Требуется расширить множество признаков с помощью функциональных преобразований.
Предлагается следующий способ порождения новых признаков:
Пусть задано множество свободных переменных и конечное множество порождающих функций
.
Обозначим , где индекс
.
Рассмотрим декартово произведение , где элементу
ставится в соответствие суперпозиция
, однозначно определяемая индексами
.
В качестве модели, описывающей отношение между зависимой переменной и свободными переменными
, используется полином Колмогорова-Габора:
где и
.
- множество индексов, размерности N.
Возвращаясь к формуле (1):
Алгоритм
Рассмотрим алгоритм, состоящий из двух шагов. На первом шаге мы будем добавлять признаки один за другим к нашей модели соглалсано критерию (2). На втором шаге мы будем удалять признаки по одному из нашей модели согласно тому же критерию (2).
Пусть на -ом шагу алгоритма имеется множество признаков
, которое определяет матрицу
:
. На нулевом шаге
. Опишем
-ый шаг алгоритма.
1. "Шаг добавления"
Добавляем признак
Вычислительный эксперимент
Исходный код
Литература
- Стрижов В.В Методы выбора регрессионных моделей. — ВЦ РАН, 2010.