Критерий Акаике
Материал из MachineLearning.
(→Модификации критерия) |
м (→Особенности применения критерия) |
||
(11 промежуточных версий не показаны.) | |||
Строка 1: | Строка 1: | ||
{{Задание|Mordasova|Константин Воронцов|15 февраля 2010}} | {{Задание|Mordasova|Константин Воронцов|15 февраля 2010}} | ||
- | '''Критерий Акаике''' ('''Akaike's information criterion''', '''AIC''') - критерий выбора из класса параметризованных моделей. Акаике (Akaike) предложил | + | '''Критерий Акаике''' ('''Akaike's information criterion''', '''AIC''') - критерий выбора из класса параметризованных [[Регрессионная модель|регрессионных моделей]]. Акаике (Akaike) предложил критерий выбора, оценивающий модели с разным числом параметров. Критерий связан с понятием '''расстояния Кульбака — Лейблера''' (Kullback–Leibler), при помощи которого можно оценить расстояние между моделями. При применении критерия в соответствии с [[Бритва Оккама|принципом Оккама]] лучшей считается модель, в достаточной мере полно описывающая данные с наименьшим количеством параметров. Тесно связан с [[Байесовский информационный критерий|байесовским информационным критерием]], но в отличие от него содержит функцию штрафа, линейно зависящую от числа параметров. |
==Описание критерия== | ==Описание критерия== | ||
- | + | Расстояние Кульбака-Лейблера между двумя непрерывными функциями есть интеграл <tex>I(f,g)=\int{f(x)\ln{\frac{f(x)}{g(x|\theta)}}d(x)}</tex>. | |
- | <tex>AIC = | + | Акаике показал, что для оценки расстояния между моделями можно оценить величину <tex>E_{\hat{\theta}}\[I(f,\hat{g})\]</tex>, где <tex>\hat{\theta}</tex> - оценка вектора параметров, в который входят параметры модели и случайные величины; <tex>\hat{g}=g(\cdot|\hat{\theta})</tex>. При этом максимум логарифмической функции правдоподобия и оценка матожидания связаны следующим выражением: <tex>\log(\mathcal{L}(\hat{\theta}|y))-K=Const-\hat{E}_{\hat{\theta}}\[I(f,\hat{g})\]</tex>, |
- | + | где <tex>K</tex> - число параметров модели, а <tex>\mathcal{L}</tex> -максимум логарифмической [[Метод наибольшего правдоподобия|функции правдоподобия]]. | |
- | <tex>AIC = | + | Таким образом вместо вычисления расстояния между моделями можно ввести оценивающий критерий.<br /> |
- | Лучшая модель соответствует минимальному значению критерия Акаике.Абсолютное значение критерия не несет в себе полезной информации. | + | |
+ | <tex>AIC = 2K-2\log(\mathcal{L}(\hat{\theta}|y))</tex><br /> | ||
+ | |||
+ | В случае задачи [[Линейная регрессия|линейной регрессии]] можно записать критерий Акаике через SSE (Sum of Squared Errors) - сумму квадратов остатков.<br /> | ||
+ | |||
+ | <tex>AIC = 2K+n\[\ln(\hat{\sigma}^2)\]</tex> <br /> | ||
+ | |||
+ | <tex>SSE=\|f(x_i)-y_i\|_2=\sum_{i=1}^N(y_i-f(w,x_i))^2</tex>;<br /> | ||
+ | |||
+ | <tex>\hat{\sigma}^2=\frac{SSE}{N-2}</tex> — дисперсия остатков;<br /> | ||
+ | Лучшая модель соответствует минимальному значению критерия Акаике. Абсолютное значение критерия не несет в себе полезной информации. | ||
==Особенности применения критерия== | ==Особенности применения критерия== | ||
*Штрафование числа параметров ограничивает значительный рост сложности модели. | *Штрафование числа параметров ограничивает значительный рост сложности модели. | ||
*Проверка критерия является трудоемкой операцией. | *Проверка критерия является трудоемкой операцией. | ||
- | + | *Может сравнивать модели только с выборками равного размера. | |
- | *Может сравнивать модели только | + | |
- | + | ||
*Порядок выбора моделей неважен. | *Порядок выбора моделей неважен. | ||
==Модификации критерия== | ==Модификации критерия== | ||
- | *'''AIC<sub>c</sub>''' был предложен для использования в задач маленькой размерности, когда <tex>\frac{n}{ | + | *'''AIC<sub>c</sub>''' был предложен для использования в задач маленькой размерности, когда <tex>\frac{n}{K}\leq 40</tex>. При решении более общих задач большей размерности рекомендуется использовать AIC. В то же время, при больших значениях <tex>\frac{n}{K}</tex> использование двух критериев равно возможно. Особенность критерия AIC<sub>c</sub> заключается в том, что функция штрафа умножается на поправочный коэффициент. <br /> |
- | <tex>AIC_c=AIC+\frac{ | + | <tex>AIC_c=AIC+\frac{2K(K+1)}{n-K-1}</tex> <br /><br /> |
- | <tex>AIC_c=\ln\frac{ | + | <tex>AIC_c=\ln\frac{SSE}{n}+\frac{n+K}{n-K-2}</tex> |
- | *'''QAIC''' следует использовать в | + | *'''QAIC''' следует использовать для моделей, в которых часть переменных является случайными величинами с простыми дискретными распределениями (биномиальное, пуассоновское и т.д.). В таких случаях используется более общая модель, которая получается из рассматриваемой добавлением параметра обобщенного распределения. Оценка параметра определяется как распределение <tex>\chi^2</tex>. Обычно значение параметра лежит на отрезке <tex>c\in\[1;4\]</tex>. |
- | Если <tex>c<1</tex>, то | + | Если <tex>\hat{c}<1</tex>, то следует заменить <tex>c = 1</tex>. При <tex>c=1</tex> QAIC сводится к AIC.<br /> |
- | <tex>QAIC = | + | <tex>QAIC = 2K-\frac{\ln(L)}{\hat{c}}</tex><br /><br /> |
- | <tex>QAIC_c = QAIC+\frac{ | + | <tex>QAIC_c = QAIC+\frac{2K(K+1)}{n-K-1}</tex> |
==См. также== | ==См. также== |
Текущая версия
Данная статья является непроверенным учебным заданием.
До указанного срока статья не должна редактироваться другими участниками проекта MachineLearning.ru. По его окончании любой участник вправе исправить данную статью по своему усмотрению и удалить данное предупреждение, выводимое с помощью шаблона {{Задание}}. См. также методические указания по использованию Ресурса MachineLearning.ru в учебном процессе. |
Критерий Акаике (Akaike's information criterion, AIC) - критерий выбора из класса параметризованных регрессионных моделей. Акаике (Akaike) предложил критерий выбора, оценивающий модели с разным числом параметров. Критерий связан с понятием расстояния Кульбака — Лейблера (Kullback–Leibler), при помощи которого можно оценить расстояние между моделями. При применении критерия в соответствии с принципом Оккама лучшей считается модель, в достаточной мере полно описывающая данные с наименьшим количеством параметров. Тесно связан с байесовским информационным критерием, но в отличие от него содержит функцию штрафа, линейно зависящую от числа параметров.
Содержание[убрать] |
Описание критерия
Расстояние Кульбака-Лейблера между двумя непрерывными функциями есть интеграл .
Акаике показал, что для оценки расстояния между моделями можно оценить величину , где - оценка вектора параметров, в который входят параметры модели и случайные величины; . При этом максимум логарифмической функции правдоподобия и оценка матожидания связаны следующим выражением: ,
где - число параметров модели, а -максимум логарифмической функции правдоподобия.
Таким образом вместо вычисления расстояния между моделями можно ввести оценивающий критерий.
В случае задачи линейной регрессии можно записать критерий Акаике через SSE (Sum of Squared Errors) - сумму квадратов остатков.
;
— дисперсия остатков;
Лучшая модель соответствует минимальному значению критерия Акаике. Абсолютное значение критерия не несет в себе полезной информации.
Особенности применения критерия
- Штрафование числа параметров ограничивает значительный рост сложности модели.
- Проверка критерия является трудоемкой операцией.
- Может сравнивать модели только с выборками равного размера.
- Порядок выбора моделей неважен.
Модификации критерия
- AICc был предложен для использования в задач маленькой размерности, когда . При решении более общих задач большей размерности рекомендуется использовать AIC. В то же время, при больших значениях использование двух критериев равно возможно. Особенность критерия AICc заключается в том, что функция штрафа умножается на поправочный коэффициент.
- QAIC следует использовать для моделей, в которых часть переменных является случайными величинами с простыми дискретными распределениями (биномиальное, пуассоновское и т.д.). В таких случаях используется более общая модель, которая получается из рассматриваемой добавлением параметра обобщенного распределения. Оценка параметра определяется как распределение . Обычно значение параметра лежит на отрезке .
Если , то следует заменить . При QAIC сводится к AIC.
См. также
Литература
- Akaike, H. A new look at the statistical model identification. — IEEE Transactions on Automatic Control. — 1974 T. 19. — 716--723 с.
- Liddle A. R. Information criteria for astrophysical model selection. — Advances in Neural Information Processing Systems. — Astronomy Centre, University of Sussex, 2008.
- Burnham K. P., Anderson D.R. Model selection and multimodel inference: a practical information-theoretic approach. — 2-е изд. — Springer, 2002. — 488 с. — ISBN 0387953647
- McQuarrie A. D. R., Tsai C. L. Regression and time series model selection. — World Scientific, 1998. — 455 с. — ISBN 981023242X
- Бидюк П.И., Зворыгина Т.Ф. Cтруктурный анализ методик построения регрессионных моделей по временным рядам наблюдений.