Оптимальное прореживание нейронных сетей

Материал из MachineLearning.

(Различия между версиями)

Версия 18:31, 27 апреля 2008

Оптимальная хирургия мозга (optimal brain surgery) — метод упрощения структуры регрессионной модели, например, нейронной сети. Основная идея метода заключается в том, что те элементы модели или те нейроны сети, которые оказывают малое влияние на ошибку аппроксимации, можно исключить из модели без значительного ухудшения качества аппроксимации. Первоначально метод был предложен ЛеКюном в 1990 году и назывался «optimal brain damage». Затем он был развит Хассиби и получил название «optimal brain surgery».

Описание метода

Рассмотрим регрессионную модель $y_n=f(\mathbf{w},\x_n)+\nu$ , в которой $\x$ — независимая переменная, $y$ — зависимая переменная, $\mathbf{w}$ — параметры регрессионной модели $f$ , и $\nu$ — аддитивная случайная величина. Задана регрессионная выборка — множество пар $D=\{(\mathbf{x}_n, y_n)\}$ , $n=1,\ldots,N$ . Для построения регрессии требуется найти такие параметры $\mathbf{w}^{MP}$ , которые доставляли бы наименьшее значение функции ошибки $E_D$ .

Найдем локальную аппроксимацию функции $E_D$ в окрестности точки $\mathbf{w}^{MP}$ с помощью разложения в ряд Тейлора:

$E_D(\mathbf{w}+\Delta\mathbf{w}) = E_D(\mathbf{w}) + \mathbf{g}^T(\mathbf{w})\Delta\mathbf{w} + \frac{1}{2}\Delta\mathbf{w}^TH\Delta\mathbf{w} +o(\|\mathbf{w}\|^3),$

где $\mathbf{w}$ — возмущение вектора параметров $\mathbf{w}$ , $\mathbf{g}$ — градиент $\frac{\partial S}{\partial \mathbf{w}}$ , и $H=H(\mathbf{w})$ — матрица вторых производных (матрица Гессе) $\frac{\partial^2 S}{\partial \mathbf{w}^2}$ .

Предполагается, что функция $E_D(\mathbf{w})$ достигает своего максимума при значении параметров $\mathbf{w}=\mathbf{w}^{MP}$ и ее поверхность квадратична. Таким образом, предыдущее выражение можно упростить и представить в виде

$\Delta E_D = E_D(\mathbf{w}+\Delta\mathbf{w})-E_D(\mathbf{w}) = \frac{1}{2}\Delta\mathbf{w}^TH\Delta\mathbf{w}.$

Пусть исключение элемента модели есть исключение одного параметра модели, $w_i$ . Исключенный параметр будем считать равным нулю. Это самое сильное ограничение, не позволяющее применять данный метод для регрессионных моделей произвольного вида. Исключение элемента эквивалентно выражению $\Delta w_i+w_i=0$ , иначе

$\mathbf{e}_i^T\Delta\mathbf{w}+w_i=0,$

где $\mathbf{e}_i$ — вектор, $i$ -й элемент которого равен единице, все остальные элементы равны нулю.

Для нахождения исключаемого элемента требуется минимизировать квадратичную форму $\Delta\mathbf{w}^TH\Delta\mathbf{w}$ относительно $\Delta\mathbf{w}$ при ограничениях $\mathbf{e}_i^T+w_i=0$ , для всех значений $i$ . Индекс $i$ , который доставляет минимум квадратичной форме, задает номер исключаемого элемента:

$i = \arg\min_i(\min_{\Delta\mathbf{w}} (\Delta\mathbf{w}^TH\Delta\mathbf{w} | \mathbf{e}_i^T+w_i=0)).$

Задача условной минимизации решается с помощью введения Лагранжиана

$S=\Delta\mathbf{w}^TH\Delta\mathbf{w}-\lambda(\mathbf{e}_i^T+w_i),$

в котором $\lambda$ — множитель Лагранжа. Дифференцируя Лагранжиан по приращению параметров и приравнивая его к нулю получаем (для каждого индекса $i$ параметра $w_i$ )

$\Delta\mathbf{w}=-\frac{w_i}{[H^{-1}]_{ii}}H^{-1}\mathbf{e}_i.$

Этому значению вектора приращений параметров соответствует минимальное значение Лагранжиана

$L_i=\frac{w_i^2}{2[H^{-1}]_{ii}}.$

Полученное выражение называется мерой выпуклости функции ошибки $E_D$ при изменении параметра $w_i$ .

Функция $L_i$ зависит от квадрата параметра $w_i$ . Это что говорит о том, что параметр с малым значением скорее всего будет удален из модели. Однако если величина $[H^{-1}]_{ii}$ достаточно мала, это означает, что данный параметр оказывает существенное влияние на качество аппроксимации модели.

Алгоритм

Задана выборка $D$ , модель $f(\mathbf{w},\x)$ , функция ошибки $E_D$ . Для упрощения структуры регрессионной модели выполняем следующие шаги.

Настраиваем модель, получаем параметры $\mathbf{w}^{MP}=\arg\min(E_D(\mathbf{w}|f,D))$ .
Для приращения $\mathbf{w}^{MP}+\Delta\mathbf{w}$ решаем оптимизационную задачу, находим для каждого индекса $i$ минимальное значение Лагранжиана $L_i$ .
Выбираем среди $L_i$ минимальное, отсекаем элемент модели, соответствующий $i$ -му параметру.
Добавляем к вектору параметров $\mathbf{w}^{MP}$ , вектор приращений $\Delta\mathbf{w}$ , соответствующий отсеченому параметру.
Получаем упрощенную модель. Модель перенастраивать не требуется.
Процедуру можно повторять до тех пор, пока значение ошибки не превзойдет заранее заданное.

Смотри также

Литература

Hassibi B., Stork D. G. Second order derivatives for network pruning: Optimal brain surgeon / NIPS 5. 1993. [1]
LeCun Y., Denker J. S., Solla S. A. Optimal brain damage / Touretzky D. S. ed., Advances in Neural Information Processing Systems 2. Morgan Kaufmann, San Mateo, CA. 1990. P. 598—605. [2]
Хайкин С. Нейронные сети, полный курс. М: Вильямс. 2006.

Источник — «http://recognition.su/wiki/index.php?title=%D0%9E%D0%BF%D1%82%D0%B8%D0%BC%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D1%80%D0%B5%D0%B6%D0%B8%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9»

Категории: Регрессионный анализ | Энциклопедия анализа данных

@@ Строка 7: / Строка 7: @@
 == Описание метода ==
-Рассмотрим регрессионную модель <tex>y_n=f(\mathbf{w},\x_n)+\nu</tex>, в которой&nbsp;<tex>\x</tex>&nbsp;— [[регрессионный анализ|независимая переменная]], <tex>y</tex>&nbsp;— [[регрессионный анализ|зависимая переменная]], <tex>\mathbf{w}</tex>&nbsp;— параметры регрессионной модели&nbsp;<tex>f</tex>, и&nbsp;<tex>\nu</tex>&nbsp;— аддитивная [[случайная величина]]. Задана регрессионная выборка&nbsp;— множество пар&nbsp;<tex>D=\{(\x_n, y_n)\}</tex>,
+Рассмотрим регрессионную модель <tex>y_n=f(\mathbf{w},\x_n)+\nu</tex>, в которой&nbsp;<tex>\x</tex>&nbsp;— [[регрессионный анализ|независимая переменная]], <tex>y</tex>&nbsp;— [[регрессионный анализ|зависимая переменная]], <tex>\mathbf{w}</tex>&nbsp;— параметры регрессионной модели&nbsp;<tex>f</tex>, и&nbsp;<tex>\nu</tex>&nbsp;— аддитивная [[случайная величина]]. Задана [[выборка|регрессионная выборка]]&nbsp;— множество пар&nbsp;<tex>D=\{(\mathbf{x}_n, y_n)\}</tex>,
 <tex>n=1,\ldots,N</tex>.
 Для построения [[регрессионный анализ|регрессии]] требуется найти такие параметры&nbsp;<tex>\mathbf{w}^{MP}</tex>, которые доставляли бы наименьшее значение функции ошибки&nbsp;<tex>E_D</tex>.

Оптимальное прореживание нейронных сетей

Материал из MachineLearning.

Версия 18:31, 27 апреля 2008

Содержание

Описание метода

Алгоритм

Смотри также

Литература

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты