Ридж-регрессия

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(переработка)
(орфография)
Строка 8: Строка 8:
==Пример задачи==
==Пример задачи==
-
Предположим признаки в задаче были плохо отбранны экспертами в <tex>X</tex> присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.
+
Предположим признаки в задаче были плохо отбранны экспертами и в <tex>X</tex> присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.
==Описание метода==
==Описание метода==
Строка 55: Строка 55:
После модификации число признаков становится равным
После модификации число признаков становится равным
-
<tex>tr X(X^T X+\tau I)^{-1} X^T=tr diag(\frac{\lambda_j}{\lambda_j+\tau}=\sum_{j=1}^{k}\frac{\lambda_j}{\lambda_j+\tau}</tex>,
+
<tex>tr X(X^T X+\tau I)^{-1} X^T=tr diag(\frac{\lambda_j}{\lambda_j+\tau})=\sum_{j=1}^{k}\frac{\lambda_j}{\lambda_j+\tau}</tex>,
а это меньше <tex>k</tex>. Поэтому чем больше <tex>\tau</tex>, тем мень эффективная размерность.
а это меньше <tex>k</tex>. Поэтому чем больше <tex>\tau</tex>, тем мень эффективная размерность.

Версия 23:14, 11 января 2009

Ридж-регрессия или гребневая регрессия (англ. ridge regression) - это один из методов понижения размерности. Часто его применяют для борьбы с переизбыточностью данных, когда независимые переменные коррелируют друг с другом (т.е. имеет место мультиколлинеарность). Следствием этого является плохая обусловленность матрицы X^T X и неустойчивость оценок коэффициентов регрессии. Оценки, например, могут иметь неправильный знак или значения, которые намного превосходят те, которые приемлемы из физических или практических соображений.

Метод стоит использовать, если:

  • сильная обусловленность;
  • сильно различаются собственные значения или некоторые из них близки к нулю;
  • в матрице X есть пости линено зависимые столбцы.


Содержание

Пример задачи

Предположим признаки в задаче были плохо отбранны экспертами и в X присутствуют данные о длине, выраженные с сантиметрах и дюймах. Легко видеть, что эти данные линейно зависимы.

Описание метода

Дополнительное определение

Пусть \Sigma=X^T X.

Число обусловленности равно \mu(\Sigma)=||\Sigma||\cdot||\Sigma^{-1}||=\frac{\max_{u:||u||=1} ||\Sigma_u ||}{\min_{u:||u||=1} ||\Sigma_u ||}=\frac{\lambda_{max}}{\lambda_{min}},

где \lambda_{max},\ \lambda_{min} собственные значения \Sigma.

Гребневая регрессия

Вводится модифицированный функционал

Q_{\tau}=|| y -X\theta||^2+\tau||\theta||^2\to min_{\theta}

где \tau - коэффициент регуляризации.

МНК (регуляризованное) решение получается таким

\hat{Q}_\tau=(X^T X+\tau I_k)^{-1}X^T y


У матриц X^T X и (X^X+\tau I_k) собственные вектора совпадают, а собственным значением различаются на \tau. Поэтому число обусловленности для матрицы X^T X+\tau I равно

\mu(X^T X+\tau I)=\frac{\lambda_{max}+\tau}{\lambda_{min}+\tau}.

Получается, что чем больше \tau, тем меньше число обусловленности. С ростом \tau возрастает устойчивость задачи.

При сингулярном разложении получаем.

||\hat{Q}||^2=\sum_{j=1}^k \frac{1}{\lambda_j}(v_j^T y)^2

||\hat{Q}_\tau||^2=\sum_{j=1}^k \frac{1}{\lambda_j+\tau}(v_j^T y)^2

Они различаются только на сомножитель.

Происходит сжатие коэффициентов (shrinkage). Понижается эффективная размерность, хотя количество признаков остаётся прежним.

Число признаков измеряется по формуле

tr X(X^T X)^{-1} X^T=tr I_k=k

После модификации число признаков становится равным

tr X(X^T X+\tau I)^{-1} X^T=tr  diag(\frac{\lambda_j}{\lambda_j+\tau})=\sum_{j=1}^{k}\frac{\lambda_j}{\lambda_j+\tau},

а это меньше k. Поэтому чем больше \tau, тем мень эффективная размерность.



Литература

  • Норман Дрейпер, Гарри Смит Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8


См. также

Ссылки

Ridge regression

Личные инструменты