Порождение линейных регрессионных моделей (постановка задачи)
Материал из MachineLearning.
Рассмотрим задачу восстановления линейной регрессии одной свободной переменной.
Содержание[убрать] |
Дано
Задана выборка - множество пар значений свободной и зависимой переменной,
.
Свободная переменная
, зависимая переменная
.
Принята модель регрессионной зависимости - параметрическое семейство функций
в которой аддитивная случайная величина имеет Гауссово распределение с нулевым математическим ожиданием и дисперсией
.
Модель принадлежит множеству моделей
, которое задается следующим образом.
Экспертно задано конечное множество функций
.
Обозначим
некоторое подмножество множества индексов функций из
.
Пусть
- порядковый номер подмножества
,
.
Модель
есть линейная комбинация функций
с индексом
,
Индекс есть мощность множества
индексов функций из
, другими словами, число элементов в линейной комбинации
.
Найти
Требуется решить задачу восстановления линейной регрессии методом наименьших квадратов и выбрать такую модель ,
которая бы доставляла минимум сумме квадратов регрессионных остатков
Замечание. В данной постановке не рассматриваются вопросы сложности модели и вопросы переобучения, они рассматриваются в задаче выбора моделей.
Постановка задачи в векторной форме. Представим предыдущую задачу в виде задачи восстановления регрессии многих переменных.
Обозначим множество элементов выборки как векторы и
.
Обозначим вектор
Обозначим вектор-функцию
Матрица состоит из векторов-столбцов
,
, где
Требуется выбрать такую модель ,
которая бы доставляла минимум сумме квадратов регрессионных остатков
Пример
Задана выборка :
Задано множество функций :
Множество регрессионных моделей - линейных комбинаций функций из имеет вид:
Модель, доставляющая наименьшую среднеквадратичную ошибку, имеет вид