Мультиколлинеарность

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: '''Мультиколлинеарность''' - проблема, возникающая при оценке параметров регрессионной модели.)
Строка 1: Строка 1:
-
'''Мультиколлинеарность''' - проблема, возникающая при оценке параметров регрессионной модели.
+
'''Мультиколлинеарность''' - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.
 +
 
 +
== Основные положения ==
 +
Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место ''полная (совершенная) мультиколлинеарность''. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой [[Метод наименьших квадратов|методом наименьших квадратов]], если определитель матрицы <tex>A^TA</tex> будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.
 +
 
 +
В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с ''частичной мультиколлинеарностью'', которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица <tex>A^TA</tex> будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.
 +
 
 +
Среди последствий частичной мультиколлинеарности можно выделить следующие:
 +
* увеличение дисперсий оценок параметров
 +
* уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
 +
* получение неустойчивых оценок параметров модели и их дисперсий
 +
* возможность получения неверного с точки зрения теории знака у оценки параметра
 +
 
 +
Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:
 +
* Превышение некого порога модулем парного коэффициента корреляции между регрессорами <tex>X_i</tex> и <tex>X_j</tex>
 +
* Близость к нулю определителя матрицы <tex>A^TA</tex>
 +
* Большое количество статистически незначимых параметров в модели
 +
 
 +
== Методы устранения мультиколлинеарности ==
 +
Существует два основных подхода к решению этой задачи.
 +
#'''Метод дополнительных регрессий'''
 +
## Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными
 +
## Вычисляются [[Коэффициент детерминации|коэффициенты детерминации]] <tex>R^2</tex> для каждого уравнения регрессии
 +
## [[Проверка статистических гипотез|Проверяется статистическая гипотеза]] <tex>H_0:\ R^2=0</tex> с помощью F-теста
 +
##: Вывод: если гипотеза <tex>H_0</tex> не отвергается, то данный регрессор не приводит к мультиколлинеарности.
 +
 
 +
#'''Метод последовательного присоединения'''
 +
## Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
 +
## Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной
 +
## К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного <tex>R^2</tex>
 +
##: Процесс присоединения регрессоров прекращается, когда значение скорректированного <tex>R^2</tex> становится меньше достигнутого на предыдущем шаге.
 +
 
 +
Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы <tex>A^TA</tex>, а, следовательно, и к повышению качества оценок параметров модели.
 +
 
 +
==Литература==
 +
#''Костюнин В. И.'' Проблема мультиколлинеарности в регрессионных моделях.
 +
 
 +
[[Категория:Регрессионный анализ]]

Версия 03:16, 10 января 2009

Мультиколлинеарность - тесная корреляционная взаимосвязь между отбираемыми для анализа факторами, совместно воздействующими на общий результат, которая затрудняет оценивание регрессионных параметров.

Основные положения

Если регрессоры в модели связаны строгой функциональной зависимостью, то имеет место полная (совершенная) мультиколлинеарность. Данный вид мультиколлинеарности может возникнуть, например, в задаче линейной регрессии, решаемой методом наименьших квадратов, если определитель матрицы A^TA будет равен нулю. Полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели и разделить вклады регрессоров в выходную переменную по результатм наблюдений.

В задачах с реальными данными случай полной мультиколлинеарности встречается крайне редко. Вместо этого в прикладной области часто приходится иметь дело с частичной мультиколлинеарностью, которая характеризуется коэффициентами парной корреляции между регрессорами. В случае частичной мультиколлинеарности матрица A^TA будет иметь полный ранг, но ее определитель будет близок к нулю. В этом случае формально можно получить оценки параметров модели и их точностные показатели, но все они будут неустойчивыми.

Среди последствий частичной мультиколлинеарности можно выделить следующие:

  • увеличение дисперсий оценок параметров
  • уменьшение значений t-статистик для параметров, что приводит к неправильному выводу об их статистической значимости
  • получение неустойчивых оценок параметров модели и их дисперсий
  • возможность получения неверного с точки зрения теории знака у оценки параметра

Точные количественные критерии для обнаружения частичной мультиколлинеарности отсутствуют. В качестве признаков ее наличия чаще всего используют следующие:

  • Превышение некого порога модулем парного коэффициента корреляции между регрессорами X_i и X_j
  • Близость к нулю определителя матрицы A^TA
  • Большое количество статистически незначимых параметров в модели

Методы устранения мультиколлинеарности

Существует два основных подхода к решению этой задачи.

  1. Метод дополнительных регрессий
    1. Строятся уравнения регрессии, которые связывают каждый из регрессоров со всеми остальными
    2. Вычисляются коэффициенты детерминации R^2 для каждого уравнения регрессии
    3. Проверяется статистическая гипотеза H_0:\ R^2=0 с помощью F-теста
      Вывод: если гипотеза H_0 не отвергается, то данный регрессор не приводит к мультиколлинеарности.
  1. Метод последовательного присоединения
    1. Строится регрессионная модель с учетом всех предполагаемых регрессоров. По признакам делается вывод о возможном присутствии мультиколлинеарности
    2. Расчитывается матрица корреляций и выбирается регрессор, имеющий наибольшую корреляцию с выходной переменной
    3. К выбранному регрессору последовательно добавляются каждый из оставшихся регрессоров и вычисляются скорректированные коэффициенты детерминации для каждой из моделей. К модели присоединяется тот регрессор, который обеспечивает наибольшее значение скорректированного R^2
      Процесс присоединения регрессоров прекращается, когда значение скорректированного R^2 становится меньше достигнутого на предыдущем шаге.

Каким бы образом не осуществлялся отбор факторов, уменьшение их числа приводит к улучшению обусловленности матрицы A^TA, а, следовательно, и к повышению качества оценок параметров модели.

Литература

  1. Костюнин В. И. Проблема мультиколлинеарности в регрессионных моделях.