Сеть радиальных базисных функций
Материал из MachineLearning.
Строка 2: | Строка 2: | ||
кой пространства X. <br /> <br /> | кой пространства X. <br /> <br /> | ||
Гауссиан <tex>p_j(x) = N(x; \mu _j ,\Sigma _j)</tex> с диагональной матрицей <tex>\Sigma _j</tex> можно записать в виде <br /> <br /> | Гауссиан <tex>p_j(x) = N(x; \mu _j ,\Sigma _j)</tex> с диагональной матрицей <tex>\Sigma _j</tex> можно записать в виде <br /> <br /> | ||
- | <tex>~p_j(x) = N_j exp(-1/2 \rho | + | <tex>~p_j(x) = N_j exp(-1/2 \rho _j (x, \mu _j)</tex> <br /> <br /> |
- | где <tex>N_j = (2\pi)^ {-n/2)(\sigma _{j1} | + | где <tex>N_j = (2\pi)^ {-n/2)(\sigma _{j1}, \dots ,\sigma _{jn})^{-1}</tex> — нормировочный множитель,<br /> |
<tex>\rho _j(x, x')</tex> — взвешенная евклидова метрика в n-мерном пространстве X:<br /> | <tex>\rho _j(x, x')</tex> — взвешенная евклидова метрика в n-мерном пространстве X:<br /> | ||
- | <tex>~\rho | + | <tex>~\rho (x, x') = \sum ^n _{d = 1} \sigma ^{-2} _{jd} |\xi _d - \xi _d '| </tex>, <br /> |
<tex> x = (\xi _1, . . . ,\xi _n), x' = (\xi _1 ', . . . , \xi _n')</tex>. <br /> <br /> | <tex> x = (\xi _1, . . . ,\xi _n), x' = (\xi _1 ', . . . , \xi _n')</tex>. <br /> <br /> | ||
- | Чем меньше расстояние <tex>\rho _j(x, \mu _j)</tex>, тем выше значение плотности в точке x. | + | Чем меньше расстояние <tex>\rho _j(x, \mu _j)</tex>, тем выше значение плотности в точке x. Поэтому плотность <tex>p _j(x)</tex> можно рассматривать как функцию близости вектора x к фиксированному центру <tex>\mu _j</tex>. <br /> |
- | + | __TOC__ | |
- | + | ||
- | + | ||
== Сеть радиальных базисных функций == | == Сеть радиальных базисных функций == | ||
- | Пусть | + | Пусть <tex>Y = {1, . . . ,M}</tex>, каждый класс <tex>y \in Y</tex> имеет свою плотность |
распределения <tex>p_y(x)</tex> и представлен частью выборки <tex>X ^l _y = \{(x_i, y_i) \in X ^l | y_i = y \}</tex>. <br /> <br /> | распределения <tex>p_y(x)</tex> и представлен частью выборки <tex>X ^l _y = \{(x_i, y_i) \in X ^l | y_i = y \}</tex>. <br /> <br /> | ||
- | + | ===Гипотеза=== | |
Функции правдоподобия классов <tex>p_y(x), y \in Y</tex> , представимы в виде | Функции правдоподобия классов <tex>p_y(x), y \in Y</tex> , представимы в виде | ||
смесей <tex>k_y</tex> компонент. Каждая компонента имеет n-мерную гауссовскую плотность | смесей <tex>k_y</tex> компонент. Каждая компонента имеет n-мерную гауссовскую плотность | ||
с параметрами <br /> | с параметрами <br /> | ||
- | <tex>\mu _{yj} = (\mu _{yj1}, \dots , \mu _{yjn}), \Sigma _{yj} = diag(\sigma | + | <tex>\mu _{yj} = (\mu _{yj1}, \dots , \mu _{yjn}), \Sigma _{yj} = diag(\sigma _{yj1}, \dots , \sigma _{yjn})</tex> <br /> |
<tex>j = 1, . . . , k_y</tex>:<br /><br /> | <tex>j = 1, . . . , k_y</tex>:<br /><br /> | ||
<tex> p_y(x) = \sum ^{k _y} _{j = 1} \omega _{yj} p _{yj}(x), </tex> | <tex> p_y(x) = \sum ^{k _y} _{j = 1} \omega _{yj} p _{yj}(x), </tex> | ||
<tex>p_{yj}(x) = N(x; \mu _{yj} ,\Sigma _{yj}), </tex> | <tex>p_{yj}(x) = N(x; \mu _{yj} ,\Sigma _{yj}), </tex> | ||
- | <tex> \Sigma ^{k_y} _{j = 1} \omega _{yj} = 1, \omega _{yj} > 0 ;</tex> <br /> <br /> | + | <tex> \Sigma ^{k_y} _{j = 1} \omega _{yj} = 1, \omega _{yj} > 0;</tex> <br /> <br /> |
- | + | ===Алгоритм классификации=== | |
Запишем байесовское решающее правило, выразив плотность каждой компоненты <tex>p_{yj}(x)</tex> через взвешенное евклидово расстояние от объекта x до центра компоненты <tex>\mu _{yj}</tex> :<br /><br /> | Запишем байесовское решающее правило, выразив плотность каждой компоненты <tex>p_{yj}(x)</tex> через взвешенное евклидово расстояние от объекта x до центра компоненты <tex>\mu _{yj}</tex> :<br /><br /> | ||
- | <tex>a(x) = argmax _{y \in Y} \lambda _y P _y \sum ^{k_y} _{j = 1} N _{yj} exp(-1/2 \rho | + | <tex>a(x) = argmax _{y \in Y} \lambda _y P _y \sum ^{k_y} _{j = 1} N _{yj} exp(-1/2 \rho _{yj} (x, \mu _{yj}))</tex> <br /> <br /> |
где <tex>N _{yj} = (2\pi)^{-n/2} (\sigma _{yj1},\dots , \sigma _{yjn})^{-1}</tex> — нормировочные множители. Алгоритм имеет вид | где <tex>N _{yj} = (2\pi)^{-n/2} (\sigma _{yj1},\dots , \sigma _{yjn})^{-1}</tex> — нормировочные множители. Алгоритм имеет вид | ||
суперпозиции, состоящей из трёх уровней или слоёв.<br /> | суперпозиции, состоящей из трёх уровней или слоёв.<br /> | ||
+ | [[Изображение:NS.JPG]] <br /> | ||
Первый слой образован <tex>k_1 + \dots+ k_M</tex> гауссианами <tex>p_{yj}(x), y \in Y , j = 1, \dots, k_y</tex>. | Первый слой образован <tex>k_1 + \dots+ k_M</tex> гауссианами <tex>p_{yj}(x), y \in Y , j = 1, \dots, k_y</tex>. | ||
На входе они принимают описание объекта x, на выходе выдают оценки близости | На входе они принимают описание объекта x, на выходе выдают оценки близости | ||
Строка 47: | Строка 46: | ||
<tex>p_y(x)</tex> с помощью EM-алгоритма. Результатом обучения являются центры <tex>\mu _{yj}</tex> и дис- | <tex>p_y(x)</tex> с помощью EM-алгоритма. Результатом обучения являются центры <tex>\mu _{yj}</tex> и дис- | ||
персии <tex>\Sigma _{yj}</tex> компонент <tex>j = 1, . . . , k_y</tex>. Интересно отметить, что, оценивая дисперсии, | персии <tex>\Sigma _{yj}</tex> компонент <tex>j = 1, . . . , k_y</tex>. Интересно отметить, что, оценивая дисперсии, | ||
- | мы фактически подбираем метрики <tex>\rho _{yj}</tex> , с помощью которых будут вычисляться рас-стояния до центров <tex>\mu _{yj}</tex> . При использовании Алгоритма 1.4 для каждого класса определяется оптимальное число компонент смеси. | + | мы фактически подбираем метрики <tex>\rho _{yj}</tex> , с помощью которых будут вычисляться рас-стояния до центров <tex>\mu _{yj}</tex> . При использовании Алгоритма 1.4 для каждого класса определяется оптимальное число компонент смеси.<ref>{{книга |автор = Воронцов К.В. |заглавие = Лекции по метрическим алгоритмам классификации | ссылка = http://www.machinelearning.ru/wiki/images/9/9d/Voron-ML-Metric.pdf}}</ref> |
+ | |||
+ | == Литература == | ||
+ | <references/> |
Версия 20:37, 5 января 2010
Радиальные функции — это функции , зависящие только от расстояния между x и фиксированной точ-
кой пространства X.
Гауссиан с диагональной матрицей можно записать в виде
где — нормировочный множитель,
— взвешенная евклидова метрика в n-мерном пространстве X:
,
.
Чем меньше расстояние , тем выше значение плотности в точке x. Поэтому плотность можно рассматривать как функцию близости вектора x к фиксированному центру .
Содержание[убрать] |
Сеть радиальных базисных функций
Пусть , каждый класс имеет свою плотность
распределения и представлен частью выборки .
Гипотеза
Функции правдоподобия классов , представимы в виде
смесей компонент. Каждая компонента имеет n-мерную гауссовскую плотность
с параметрами
:
Алгоритм классификации
Запишем байесовское решающее правило, выразив плотность каждой компоненты через взвешенное евклидово расстояние от объекта x до центра компоненты :
где — нормировочные множители. Алгоритм имеет вид
суперпозиции, состоящей из трёх уровней или слоёв.
Первый слой образован гауссианами .
На входе они принимают описание объекта x, на выходе выдают оценки близости
объекта x к центрам , равные значениям плотностей компонент в точке x.
Второй слой состоит из M сумматоров, вычисляющих взвешенные средние этих
оценок с весами . На выходе второго слоя появляются оценки принадлежности
объекта x каждому из классов, равные значениям плотностей классов .
Третий слой образуется единственным блоком argmax, принимающим окончательное решение об отнесении объекта x к одному из классов.
Таким образом, при классификации объекта x оценивается его близость к каж-
дому из центров по метрике . Объект относится к тому
классу, к чьим центрам он располагается ближе.
Описанный трёхуровневый алгоритм классификации называется сетью c радиальными базисными функциями или RBF-сетью (radial basis function network). Это одна из разновидностей нейронных сетей.
Обучение RBF-сети
Обучение сводится к восстановлению плотности каждого из классов с помощью EM-алгоритма. Результатом обучения являются центры и дис- персии компонент . Интересно отметить, что, оценивая дисперсии, мы фактически подбираем метрики , с помощью которых будут вычисляться рас-стояния до центров . При использовании Алгоритма 1.4 для каждого класса определяется оптимальное число компонент смеси.[1]