Фактор инфляции дисперсии
Материал из MachineLearning.
(→Вычислительный эксперимент) |
м (→Ссылки) |
||
(1 промежуточная версия не показана) | |||
Строка 58: | Строка 58: | ||
* [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia] | * [http://en.wikipedia.org/wiki/Variance_Inflation_Factor Wikipedia] | ||
* [http://www-stat.stanford.edu/~hastie/Papers/LARS/ Данные для вычислительного эксперимента] | * [http://www-stat.stanford.edu/~hastie/Papers/LARS/ Данные для вычислительного эксперимента] | ||
- | * [https:// | + | * [https://svn.code.sf.net/p/mlalgorithms/code/Group674/ZaitsevPavlov2009VIF/ Репозиторий] |
==Литература== | ==Литература== |
Текущая версия
В задаче восстановления регрессии фактор инфляции дисперсии (VIF) — мера мультиколлинеарности. Он позволяет оценить увеличение дисперсии заданного коэффициента регрессии, происходящее из-за высокой корреляции данных.
Содержание |
Определение
Пусть задана выборка откликов и признаков. Рассматривается множество линейных регрессионных моделей вида:
Предполагается, что вектор регрессионных невязок имеет нулевое математическое ожидание и дисперсию . В этом случае дисперсия :
Первая дробь связана с дисперсией невязок и дисперсией векторов признаков. Вторая — фактор инфляции дисперсии, связанный с корреляцей данного признака с другими:
где — коэффициент детерминации j-го признака относительно остальных:
Равенство единице фактора инфляции дисперсии говорит об ортогональности вектора значений признака остальным. Если значение велико, то — мало, то есть близко к 1. Большие значения фактора инфляции дисперсии соответствуют почти линейной зависимости j-го столбца от остальных.
Вычислительный эксперимент
Мы использовали реальные данные, на которых тестировался LARS. На них был проведен эксперимент по вычислению VIF для различных признаков. Код и данные размещены в репозитории Sourceforge. Полученные результаты представлены в таблице.
# | VIF | # | VIF |
---|---|---|---|
1 | 1.21 | 7 | 3.82 |
2 | 1.31 | 8 | 7.43 |
3 | 1.69 | 9 | 3.46 |
4 | 1.51 | 10 | 1.47 |
5 | 19.27 | 11 | 1.97 |
6 | 16.37 |
Мы видим, что у двух признаков значение фактора инфляции дисперсии больше 10, еще у одного больше 5. Такой результат — следствие их мультиколлинеарности относительно остальных признаков нашего набора.
Смотри также
Ссылки
Литература
1. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — Вильямс, 2007. — С. 487.