Связанный Байесовский вывод

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м (Сравнение моделей)
(подпись к картинке)
Строка 1: Строка 1:
-
[[Изображение:William_of_Ockham_-_Logica_1341.jpg|200px|right|frame|Уильям Оккам — английский философ-схоласт, логик и церковно-политический писатель (ок. 1285-1349), автор принципа: "не умножай сущности без необходимости".
+
[[Изображение:William_of_Ockham_-_Logica_1341.jpg|200px|right|frame|Уильям Оккам — английский философ-схоласт, логик и церковно-политический писатель (ок 1285—1349), автор принципа: «не умножай сущности без необходимости». Этот принцип поддерживается двумя соображениями. Во-первых, эстетическим: «При описании результатов экспериментов у теории с красивой математикой больше шансов на успех, чем у безобразной» — Поль Дирак. Во-вторых, применение бритвы Оккама уже имело большой успех при решении практических задач.]]
-
Этот принцип поддерживается двумя соображениями. Во-первых, эстетическим:
+
-
"При описании результатов экспериментов у теории с красивой математикой больше шансов на успех, чем у безобразной" — Поль Дирак.
+
-
Во-вторых, применение бритвы Оккама уже имело большой успех при решении практических задач.]]
+
-
'''Cвязанный Байесовский вывод''' — метод сравнения [[регрессионная модель|регрессионных моделей]]
+
'''Cвязанный Байесовский вывод''' метод сравнения [[регрессионная модель|регрессионных моделей]]
основанный на анализе их пространства параметров. Этот метод использует классический [[Байесовский вывод]] дважды:
основанный на анализе их пространства параметров. Этот метод использует классический [[Байесовский вывод]] дважды:
для вычисления апостериорной вероятности параметров модели и для вычисления апостериорной вероятности самой модели.
для вычисления апостериорной вероятности параметров модели и для вычисления апостериорной вероятности самой модели.
-
Связанность заключается в том, что оба вывода используют общий сомножитель, называемый <i>доcтоверностью модели</i>.
+
Связанность заключается в том, что оба вывода используют общий сомножитель, называемый ''доcтоверностью модели''.
Неотъемлемой частью этого метода является анализ пространства параметров модели и зависимости [[гипотеза порождения данных|целевой функции]] от значений параметров.
Неотъемлемой частью этого метода является анализ пространства параметров модели и зависимости [[гипотеза порождения данных|целевой функции]] от значений параметров.
Результатом такого анализа является возможность оценить насколько важны отдельные параметры модели для аппроксимации данных.
Результатом такого анализа является возможность оценить насколько важны отдельные параметры модели для аппроксимации данных.
Строка 18: Строка 15:
При сравнении моделей используется правило [http://en.wikipedia.org/wiki/Occam%27s_razor бритвы Оккама] в следующей формулировке:
При сравнении моделей используется правило [http://en.wikipedia.org/wiki/Occam%27s_razor бритвы Оккама] в следующей формулировке:
-
<i>Совместный Байесовский вывод автоматически количественно выполняет правило Оккама</i>.
+
''Совместный Байесовский вывод автоматически количественно выполняет правило Оккама''.
-
Бритва Оккама&nbsp;&#151; принцип предпочтения простых [[регрессионная модель|моделей]] (теорий, гипотез) сложным.
+
Бритва Оккама&nbsp;принцип предпочтения простых [[регрессионная модель|моделей]] (теорий, гипотез) сложным.
Если несколько моделей одинаково хорошо описывают наблюдения, принцип Оккама рекомнедует выбор простейшей модели.
Если несколько моделей одинаково хорошо описывают наблюдения, принцип Оккама рекомнедует выбор простейшей модели.
Строка 28: Строка 25:
Простая модель&nbsp;<tex>H_1</tex> описывает ограниченное множество данных, что показано на рисунке функцией плотности распределения&nbsp;<tex>P(D|H_1)</tex>.
Простая модель&nbsp;<tex>H_1</tex> описывает ограниченное множество данных, что показано на рисунке функцией плотности распределения&nbsp;<tex>P(D|H_1)</tex>.
Более сложная модель&nbsp;<tex>H_2</tex>, имеющая, например, большее количество параметров, описывает (иначе говоря, приближает с некоторой точностью, не хуже заданной) большее множество данных.
Более сложная модель&nbsp;<tex>H_2</tex>, имеющая, например, большее количество параметров, описывает (иначе говоря, приближает с некоторой точностью, не хуже заданной) большее множество данных.
-
Это, согласно нормированию функции плотности распределения, означает, что в некоторой области&nbsp;<tex>C_1</tex> простая модель&nbsp;<tex>H_1</tex> будет более вероятной при условии,
+
Это, согласно нормированию функции плотности распределения, означает, что в некоторой области&nbsp;<tex>C_1</tex> простая модель&nbsp;<tex>H_1</tex> будет более вероятной при условии,
что обе модели имеют одинаковую априорную вероятность.
что обе модели имеют одинаковую априорную вероятность.
Строка 43: Строка 40:
Во-первых, возможно задать отношение&nbsp;<tex>\frac{P(H_1)}{P(H_2)}</tex> так, чтобы оно отражало сложность моделей на основании некоторой дополнительной информации.
Во-первых, возможно задать отношение&nbsp;<tex>\frac{P(H_1)}{P(H_2)}</tex> так, чтобы оно отражало сложность моделей на основании некоторой дополнительной информации.
Во-вторых, независимо от предыдущего способа задания критерия отбора моделей, это отношение автоматически выполняет правило Оккама.
Во-вторых, независимо от предыдущего способа задания критерия отбора моделей, это отношение автоматически выполняет правило Оккама.
-
Действительно, если&nbsp;<tex>H_2</tex>&nbsp;&#151; более сложная модель, ее плотность распределения&nbsp;<tex>P(D|H_2)</tex> имеет меньшие значения, при том условии, что ее дисперсия больше.
+
Действительно, если&nbsp;<tex>H_2</tex>&nbsp;более сложная модель, ее плотность распределения&nbsp;<tex>P(D|H_2)</tex> имеет меньшие значения, при том условии, что ее дисперсия больше.
Если [[регрессионный анализ|невязки]], доставляемые обеими моделями равны, простая модель&nbsp;<tex>H_1</tex> будет более вероятна, чем сложная модель&nbsp;<tex>H_2</tex>.
Если [[регрессионный анализ|невязки]], доставляемые обеими моделями равны, простая модель&nbsp;<tex>H_1</tex> будет более вероятна, чем сложная модель&nbsp;<tex>H_2</tex>.
Таким образом, независимо от априорных предпочтений, вводится правило Оккама, согласно которому при равных априорных предпочтениях и равном соответствии предполагаемых моделей измеряемым данным, простая модель более вероятна, чем сложная.
Таким образом, независимо от априорных предпочтений, вводится правило Оккама, согласно которому при равных априорных предпочтениях и равном соответствии предполагаемых моделей измеряемым данным, простая модель более вероятна, чем сложная.
Строка 52: Строка 49:
Первый вариант: <tex>15,19</tex>.
Первый вариант: <tex>15,19</tex>.
Закономерность&nbsp;<tex>H_a</tex> есть последующее число есть предыдущее плюс&nbsp;<tex>4</tex>, иначе <tex>x_{i+1}=x_i+4</tex>.
Закономерность&nbsp;<tex>H_a</tex> есть последующее число есть предыдущее плюс&nbsp;<tex>4</tex>, иначе <tex>x_{i+1}=x_i+4</tex>.
-
Второй вариант: <tex>-19.9,1043.8</tex>. Закономерность&nbsp;<tex>H_c</tex> есть <tex>x_{i+1}=-x_i^3/11+9/11x_i^2+23/11</tex>.
+
Второй вариант: <tex>-19.9,1043.8</tex>. Закономерность&nbsp;<tex>H_c</tex> есть <tex>x_{i+1}=-x_i³/11+9/11x_i²+23/11</tex>.
С одной стороны, возможно непосредственно назначить априорные вероятности для обеих моделей так, чтобы штрафовать более сложную модель.
С одной стороны, возможно непосредственно назначить априорные вероятности для обеих моделей так, чтобы штрафовать более сложную модель.
Строка 58: Строка 55:
Модель&nbsp;<tex>H_a</tex> зависит от двух параметров: добавляемого числа&nbsp;<tex>n</tex> и от первого числа в последовательности.
Модель&nbsp;<tex>H_a</tex> зависит от двух параметров: добавляемого числа&nbsp;<tex>n</tex> и от первого числа в последовательности.
-
Пусть каждый из этих параметров принадлежит множеству&nbsp;<tex>\{-50,...,50\}\supset\mathbb{Z}</tex>.
+
Пусть каждый из этих параметров принадлежит множеству&nbsp;<tex>\{-50,,50\}\supset\mathbb{Z}</tex>.
Так как только пара значений&nbsp;<tex>(n=4, x_1=-1)</tex> доставляют функцию, соответствующую данным <tex>D=\{-1,3,7,11\}</tex>,
Так как только пара значений&nbsp;<tex>(n=4, x_1=-1)</tex> доставляют функцию, соответствующую данным <tex>D=\{-1,3,7,11\}</tex>,
то вероятность появления данных&nbsp;<tex>D</tex> при заданной модели&nbsp;<tex>H_a</tex> равна
то вероятность появления данных&nbsp;<tex>D</tex> при заданной модели&nbsp;<tex>H_a</tex> равна
<center><tex>P(D|H_a)=\frac{1}{101}\frac{1}{101}=0.00010.</tex></center>
<center><tex>P(D|H_a)=\frac{1}{101}\frac{1}{101}=0.00010.</tex></center>
-
Для того, чтобы вычислить&nbsp;<tex>P(D|H_c)</tex>, требуется вычислить вероятность параметров&nbsp;<tex>c,d,e</tex> в кубическом многочлене&nbsp;<tex>H_c</tex>.
+
Для того, чтобы вычислить&nbsp;<tex>P(D|H_c)</tex>, требуется вычислить вероятность параметров&nbsp;<tex>c, d,e</tex> в кубическом многочлене&nbsp;<tex>H_c</tex>.
Эти параметры представлены с виде рациональных чисел (в противном случае обе эти модели были бы несравнимы).
Эти параметры представлены с виде рациональных чисел (в противном случае обе эти модели были бы несравнимы).
-
Пусть числители параметров, так же как и в предыдущем случае, принимают значения из множества&nbsp;<tex>\{-50,...,50\}</tex> а знаменатели&nbsp;&#151; из множества&nbsp;<tex>\{1,...,50\}</tex>.
+
Пусть числители параметров, так же как и в предыдущем случае, принимают значения из множества&nbsp;<tex>\{-50,,50\}</tex> а знаменатели&nbsp;из множества&nbsp;<tex>\{1,,50\}</tex>.
При вычислении вероятности принимается во внимание, что несколько способов представить дробь на заданных множествах.
При вычислении вероятности принимается во внимание, что несколько способов представить дробь на заданных множествах.
Например, <tex>c=-1/11=-2/22=-3/33=-4/44</tex>.
Например, <tex>c=-1/11=-2/22=-3/33=-4/44</tex>.
Строка 80: Строка 77:
При создании моделей различают два уровня Байесовского вывода.
При создании моделей различают два уровня Байесовского вывода.
-
На <i>первом уровне</i> предполагается, что рассматриваемая модель адекватна.
+
На ''первом уровне'' предполагается, что рассматриваемая модель адекватна.
Производится настройка параметров модели по данным.
Производится настройка параметров модели по данным.
В результате получаются наиболее правдоподобные значения параметров и значения ошибок моделей при этих параметрах.
В результате получаются наиболее правдоподобные значения параметров и значения ошибок моделей при этих параметрах.
Эта процедура повторяется для каждой модели.
Эта процедура повторяется для каждой модели.
-
Задача, решаемая на втором уровне вывода&nbsp;&#151; сравнение моделей.
+
Задача, решаемая на втором уровне вывода&nbsp;сравнение моделей.
Результатом является упорядоченное множество моделей.
Результатом является упорядоченное множество моделей.
Каждая модель&nbsp;<tex>H_i</tex> имеет вектор параметров&nbsp;<tex>\mathbf{w}</tex>.
Каждая модель&nbsp;<tex>H_i</tex> имеет вектор параметров&nbsp;<tex>\mathbf{w}</tex>.
-
Задача первого уровня&nbsp;&#151; получить оценку параметров&nbsp;<tex>\mathbf{w}</tex> модели при полученных данных&nbsp;<tex>D</tex>.
+
Задача первого уровня&nbsp;получить оценку параметров&nbsp;<tex>\mathbf{w}</tex> модели при полученных данных&nbsp;<tex>D</tex>.
Согласно теореме Байеса, апостериорная вероятность параметров&nbsp;<tex>\mathbf{w}</tex> равна
Согласно теореме Байеса, апостериорная вероятность параметров&nbsp;<tex>\mathbf{w}</tex> равна
<center><tex>P(\mathbf{w}|D,H_i) = \frac{P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)}{P(D|H_i)},</tex> &nbsp;&nbsp;&nbsp;&nbsp;(2)</center>
<center><tex>P(\mathbf{w}|D,H_i) = \frac{P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)}{P(D|H_i)},</tex> &nbsp;&nbsp;&nbsp;&nbsp;(2)</center>
Строка 94: Строка 91:
Нормирующая константа&nbsp; <tex>P(D|H_i)</tex> обычно не принимается во
Нормирующая константа&nbsp; <tex>P(D|H_i)</tex> обычно не принимается во
внимание на первом уровне вывода. Однако она становится весьма
внимание на первом уровне вывода. Однако она становится весьма
-
важной на втором уровне вывода. Эта константа называется в англоязычной литературе <i>evidenve</i> то есть <i>достоверность модели</i>.
+
важной на втором уровне вывода. Эта константа называется в англоязычной литературе ''evidenve'' то есть ''достоверность модели''.
При отыскании параметров на практике обычно применяют оптимизационные методы типа [[метод сопряженных градиентов|метода сопряженных градиентов]],
При отыскании параметров на практике обычно применяют оптимизационные методы типа [[метод сопряженных градиентов|метода сопряженных градиентов]],
Строка 107: Строка 104:
где <tex>\Delta\mathbf{w}=\mathbf{w}-\mathbf{w}_{MP}</tex>, и отыскивается значение гессиана при значении весов максимального правдоподобия
где <tex>\Delta\mathbf{w}=\mathbf{w}-\mathbf{w}_{MP}</tex>, и отыскивается значение гессиана при значении весов максимального правдоподобия
<tex>\mathbf{w}_{\tiny\mbox{MP}}</tex> в окресности&nbsp;<tex>\mathbf{w}_{MP}</tex>:
<tex>\mathbf{w}_{\tiny\mbox{MP}}</tex> в окресности&nbsp;<tex>\mathbf{w}_{MP}</tex>:
-
<center><tex>A=-\nabla^2{\ln}P(\mathbf{w}|D,H_i)|_{\mathbf{w}_{MP}}.</tex></center>
+
<center><tex>A=-\nabla²{\ln}P(\mathbf{w}|D,H_i)|_{\mathbf{w}_{MP}}.</tex></center>
Таким образом, функция апостериорного распределения параметров модели&nbsp;<tex>H_i</tex> может быть локально приближена с помощью матрицы&nbsp;<tex>A^{-1}</tex>,
Таким образом, функция апостериорного распределения параметров модели&nbsp;<tex>H_i</tex> может быть локально приближена с помощью матрицы&nbsp;<tex>A^{-1}</tex>,
которая является матрицей ковариации в окресности значения ее параметров&nbsp;<tex>\mathbf{w}_{MP}</tex>.
которая является матрицей ковариации в окресности значения ее параметров&nbsp;<tex>\mathbf{w}_{MP}</tex>.
-
На <i>втором уровне</i> байесовского вывода требуется определить, какая модель наиболее адекватно описывает данные.
+
На ''втором уровне'' байесовского вывода требуется определить, какая модель наиболее адекватно описывает данные.
Апостериорная вероятность&nbsp;<tex>i</tex>-й модели задана как
Апостериорная вероятность&nbsp;<tex>i</tex>-й модели задана как
<center><tex>P(H_i|D){\propto}P(D|H_i)P(H_i).</tex>&nbsp;&nbsp;&nbsp;&nbsp;(2)</center>
<center><tex>P(H_i|D){\propto}P(D|H_i)P(H_i).</tex>&nbsp;&nbsp;&nbsp;&nbsp;(2)</center>
Строка 119: Строка 116:
<center><tex> P(D|H_i)={\int}P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)d\mathbf{w}. </tex></center>
<center><tex> P(D|H_i)={\int}P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)d\mathbf{w}. </tex></center>
-
Второй сомножитель&nbsp;<tex>P(H_i)</tex>&nbsp;&#151; априорная вероятность над пространством моделей, определяет,
+
Второй сомножитель&nbsp;<tex>P(H_i)</tex>&nbsp;априорная вероятность над пространством моделей, определяет,
-
насколько адекватной (cоответствующий английский термин&nbsp;&#151; plausible)
+
насколько адекватной (cоответствующий английский термин&nbsp;plausible)
является модель до того, как появились данные.
является модель до того, как появились данные.
Основной проблемой Байесовского вывода является отсутствие объективных методов назначения априорной вероятности&nbsp;<tex>P(H_i)</tex>.
Основной проблемой Байесовского вывода является отсутствие объективных методов назначения априорной вероятности&nbsp;<tex>P(H_i)</tex>.
Строка 127: Строка 124:
достоверности <tex>P(D|H_i)</tex>.
достоверности <tex>P(D|H_i)</tex>.
-
Чрезвычайно важное предположение, которое необходимо сделать для решения задачи вычисления правдоподобия,&nbsp;&#151;
+
Чрезвычайно важное предположение, которое необходимо сделать для решения задачи вычисления правдоподобия,&nbsp;
предположение о том, что распределение <tex>P(\mathbf{w}|D,H_i){\propto}P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)</tex> имеет выраженный пик в окрестности наиболее вероятного значения&nbsp;<tex>\mathbf{w}_{MP}</tex>.
предположение о том, что распределение <tex>P(\mathbf{w}|D,H_i){\propto}P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)</tex> имеет выраженный пик в окрестности наиболее вероятного значения&nbsp;<tex>\mathbf{w}_{MP}</tex>.
-
[[Изображение:Coherent_Bayesian_Inverence_2.gif|right|frame|Множитель Оккама&nbsp;&#151; отношение <tex>\sigma_{w|D} P(\mathbf{w}_{MP}|H_i) = \frac{\sigma_{w|D}}{\sigma_{w}}</tex>}]]
+
[[Изображение:Coherent_Bayesian_Inverence_2.gif|right|frame|Множитель Оккама&nbsp;отношение <tex>\sigma_{w|D} P(\mathbf{w}_{MP}|H_i) = \frac{\sigma_{w|D}}{\sigma_{w}}</tex>}]]
На рисунке показано,
На рисунке показано,
Строка 140: Строка 137:
Функцию распределения вероятности параметров модели приближают гауссианой, определенной в пространстве параметров.
Функцию распределения вероятности параметров модели приближают гауссианой, определенной в пространстве параметров.
Для этого используют [[метод Лапласа]].
Для этого используют [[метод Лапласа]].
-
Согласно этому методу, эта функция равна высоте пика подынтегрального выражения <tex>P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)</tex> умноженной на ширину пика, <tex>\sigma_{w|D}</tex>.
+
Согласно этому методу, эта функция равна высоте пика подынтегрального выражения <tex>P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)</tex> умноженной на ширину пика, <tex>\sigma_{w|D}</tex>.
<center><tex>P(D|H_i)\approx P(D|\mathbf{w}_{MP},H_i) P(\mathbf{w}_{MP}|H_i) \times \sigma_{w|D},</tex></center>
<center><tex>P(D|H_i)\approx P(D|\mathbf{w}_{MP},H_i) P(\mathbf{w}_{MP}|H_i) \times \sigma_{w|D},</tex></center>
Строка 151: Строка 148:
При аппроксимации Лапласа множитель Оккама может быть получен с помощью определителя ковариационной матрицы весов
При аппроксимации Лапласа множитель Оккама может быть получен с помощью определителя ковариационной матрицы весов
<center><tex> P(D|H_i)\approx P(D|\mathbf{w}_{MP},H_i) P(\mathbf{w}_{MP}|H_i) {\det}^{-\frac{1}{2}} (\mathbf{A}/2\pi),</tex></center>
<center><tex> P(D|H_i)\approx P(D|\mathbf{w}_{MP},H_i) P(\mathbf{w}_{MP}|H_i) {\det}^{-\frac{1}{2}} (\mathbf{A}/2\pi),</tex></center>
-
где <tex>\mathbf{A}=-\nabla^2{\ln}P(\mathbf{w}|D,H_i)</tex>&nbsp;&#151; гессиан ковариационной матрицы весов, вычисленный в точке&nbsp;<tex>\mathbf{w}_{MP}</tex>.
+
где <tex>\mathbf{A}=-\nabla²{\ln}P(\mathbf{w}|D,H_i)</tex>&nbsp;гессиан ковариационной матрицы весов, вычисленный в точке&nbsp;<tex>\mathbf{w}_{MP}</tex>.
-
Аглоритмически, Байесовский метод сравнения моделей посредством вычисления достоверности не сложнее, чем задача настройки параметров каждой модели и оценки матрицы Гессе.
+
Аглоритмически, Байесовский метод сравнения моделей посредством вычисления достоверности не сложнее, чем задача настройки параметров каждой модели и оценки матрицы Гессе.
Итак, для того, чтобы отранжировать альтернативные модели&nbsp;<tex>H_i</tex> по предпочтению, необходимо, воспользовавшись Байесовским выводом, вычислить достоверность&nbsp;<tex>P(D|H_i)</tex>.
Итак, для того, чтобы отранжировать альтернативные модели&nbsp;<tex>H_i</tex> по предпочтению, необходимо, воспользовавшись Байесовским выводом, вычислить достоверность&nbsp;<tex>P(D|H_i)</tex>.
-
Байесовское сравнение моделей&nbsp;&#151; это расширение метода выбора моделей по методу наибольшего правдоподобия.
+
Байесовское сравнение моделей&nbsp;это расширение метода выбора моделей по методу наибольшего правдоподобия.
Достоверность возможно вычислить как для параметрических, так и для непараметических моделей.
Достоверность возможно вычислить как для параметрических, так и для непараметических моделей.
Строка 173: Строка 170:
На рисунке показаны три модели, <tex>H_1, H_2</tex> и&nbsp;<tex>H_3</tex>, которые имеют равные априорные вероятности.
На рисунке показаны три модели, <tex>H_1, H_2</tex> и&nbsp;<tex>H_3</tex>, которые имеют равные априорные вероятности.
Каждая модель имеет один параметр&nbsp;<tex>\mathbf{w}</tex> (показан на осях абсцисс), причем параметрам назначены различные априорные области определения&nbsp;<tex>\sigma_W</tex>.
Каждая модель имеет один параметр&nbsp;<tex>\mathbf{w}</tex> (показан на осях абсцисс), причем параметрам назначены различные априорные области определения&nbsp;<tex>\sigma_W</tex>.
-
Модель&nbsp;<tex>H_3</tex>&nbsp;&#151; наиболее "гибкая", или "сложная", с наибольшей априорной областью определения.
+
Модель&nbsp;<tex>H_3</tex>&nbsp;наиболее «гибкая», или «сложная», с наибольшей априорной областью определения.
Одномерное пространство данных показано на оси ординат.
Одномерное пространство данных показано на оси ординат.
Для каждой модели назначено совместное распределение вероятности&nbsp;<tex>P(D,\mathbf{w}|H_i)</tex> для данных и для параметров.
Для каждой модели назначено совместное распределение вероятности&nbsp;<tex>P(D,\mathbf{w}|H_i)</tex> для данных и для параметров.
-
Распределение показано облаками точек&nbsp;&#151; случайных значений этой функции.
+
Распределение показано облаками точек&nbsp;случайных значений этой функции.
Число точек для каждой из трех моделей одинаково, так как моделям были назначены одинаковые априорные вероятности.
Число точек для каждой из трех моделей одинаково, так как моделям были назначены одинаковые априорные вероятности.
Строка 188: Строка 185:
В терминах распределения параметров, модель&nbsp;<tex>H_3</tex> имеет меньшую достоверность, так как множитель Оккама&nbsp;<tex>\sigma_{w|D}/\sigma_{w}</tex> для модели&nbsp;<tex>H_3</tex> меньше, чем для модели&nbsp;<tex>H_2</tex>.
В терминах распределения параметров, модель&nbsp;<tex>H_3</tex> имеет меньшую достоверность, так как множитель Оккама&nbsp;<tex>\sigma_{w|D}/\sigma_{w}</tex> для модели&nbsp;<tex>H_3</tex> меньше, чем для модели&nbsp;<tex>H_2</tex>.
Самая простая модель&nbsp;<tex>H_1</tex> имеет самую малую достоверность, так как хуже всего приближает данные&nbsp;<tex>D</tex>.
Самая простая модель&nbsp;<tex>H_1</tex> имеет самую малую достоверность, так как хуже всего приближает данные&nbsp;<tex>D</tex>.
-
Модель&nbsp;<tex>H_3</tex> слишком универсальна, ее множитель Оккама&nbsp;&#151; штраф за универсальность модели&nbsp;&#151; велик и поэтому она не является лучшей.
+
Модель&nbsp;<tex>H_3</tex> слишком универсальна, ее множитель Оккама&nbsp;штраф за универсальность модели&nbsp;велик и поэтому она не является лучшей.
Для полученного набора данных наиболее вероятна модель&nbsp;<tex>H_2</tex>.
Для полученного набора данных наиболее вероятна модель&nbsp;<tex>H_2</tex>.

Версия 07:36, 20 марта 2008

Уильям Оккам — английский философ-схоласт, логик и церковно-политический писатель (ок 1285—1349), автор принципа: «не умножай сущности без необходимости». Этот принцип поддерживается двумя соображениями. Во-первых, эстетическим: «При описании результатов экспериментов у теории с красивой математикой больше шансов на успех, чем у безобразной» — Поль Дирак. Во-вторых, применение бритвы Оккама уже имело большой успех при решении практических задач.
Уильям Оккам — английский философ-схоласт, логик и церковно-политический писатель (ок 1285—1349), автор принципа: «не умножай сущности без необходимости». Этот принцип поддерживается двумя соображениями. Во-первых, эстетическим: «При описании результатов экспериментов у теории с красивой математикой больше шансов на успех, чем у безобразной» — Поль Дирак. Во-вторых, применение бритвы Оккама уже имело большой успех при решении практических задач.

Cвязанный Байесовский вывод — метод сравнения регрессионных моделей основанный на анализе их пространства параметров. Этот метод использует классический Байесовский вывод дважды: для вычисления апостериорной вероятности параметров модели и для вычисления апостериорной вероятности самой модели. Связанность заключается в том, что оба вывода используют общий сомножитель, называемый доcтоверностью модели. Неотъемлемой частью этого метода является анализ пространства параметров модели и зависимости целевой функции от значений параметров. Результатом такого анализа является возможность оценить насколько важны отдельные параметры модели для аппроксимации данных. Cвязанный Байесовский вывод используется как в задачах регрессии, так и в задачах классификации.

Содержание

Сравнение моделей

Правдоподобие двух моделей. Рисунок дает интуитивное представление о том, почему более сложные модели являются менее правдоподобными. Ось абсцисс является предполагаемым пространством данных .
Правдоподобие двух моделей. Рисунок дает интуитивное представление о том, почему более сложные модели являются менее правдоподобными. Ось абсцисс является предполагаемым пространством данных D.

При сравнении моделей используется правило бритвы Оккама в следующей формулировке: Совместный Байесовский вывод автоматически количественно выполняет правило Оккама. Бритва Оккама — принцип предпочтения простых моделей (теорий, гипотез) сложным. Если несколько моделей одинаково хорошо описывают наблюдения, принцип Оккама рекомнедует выбор простейшей модели.

Теорема Байеса говорит о том, что наиболее вероятными будут те модели, которое наиболее точно предсказывают появление некоторых данных. Эта вероятность определяется нормализованной функцией распределения на пространстве данных D. Вероятность P(D|H_i) появления данных D при фиксированной модели H_i называется правдоподобием модели H_i.

Простая модель H_1 описывает ограниченное множество данных, что показано на рисунке функцией плотности распределения P(D|H_1). Более сложная модель H_2, имеющая, например, большее количество параметров, описывает (иначе говоря, приближает с некоторой точностью, не хуже заданной) большее множество данных. Это, согласно нормированию функции плотности распределения, означает, что в некоторой области C_1 простая модель H_1 будет более вероятной при условии, что обе модели имеют одинаковую априорную вероятность.

Найдем правдоподобие двух альтернативных моделей H_1 и H_2, описывающих данные D. По теореме Байеса мы связываем правдоподобие P(H_1|D) модели H_1 при фиксированных данных, вероятность P(D|H_1) получения данных с этой моделью и априорное правдоподобие P(H_1) модели H_1. Так как значение нормирующего множителя P(D)={\sum\limits_{j=1}^nP(D|H_j)P(H_j)} для обоих моделей одинаково, то отношение правдоподобия моделей H_1 и H_2 имеет вид

\frac{P(H_1|D)}{P(H_2|D)}=\frac{P(H_1)P(D|H_1)}{P(H_2)P(D|H_2)}.     (1)

Отношение \frac{P(H_1)}{P(H_2)} в правой части указывает на то, насколько велико априорное предпочтение модели P(H_1) модели P(H_2). Отношение \frac{P(D|H_1)}{P(D|H_2)} указывает насколько модель H_1 соответствует наблюдаемым данным лучше, чем модель H_2.

Выражение (1) вводит правило Оккама следующим образом. Во-первых, возможно задать отношение \frac{P(H_1)}{P(H_2)} так, чтобы оно отражало сложность моделей на основании некоторой дополнительной информации. Во-вторых, независимо от предыдущего способа задания критерия отбора моделей, это отношение автоматически выполняет правило Оккама. Действительно, если H_2 — более сложная модель, ее плотность распределения P(D|H_2) имеет меньшие значения, при том условии, что ее дисперсия больше. Если невязки, доставляемые обеими моделями равны, простая модель H_1 будет более вероятна, чем сложная модель H_2. Таким образом, независимо от априорных предпочтений, вводится правило Оккама, согласно которому при равных априорных предпочтениях и равном соответствии предполагаемых моделей измеряемым данным, простая модель более вероятна, чем сложная.

Пример вычисления правдоподобия моделей

Рассмотрим последовательность -1,3,7,11. Требуется предсказать следующие два числа и найти закономерность последовательности. Первый вариант: 15,19. Закономерность H_a есть последующее число есть предыдущее плюс 4, иначе x_{i+1}=x_i+4. Второй вариант: -19.9,1043.8. Закономерность H_c есть x_{i+1}=-x_i³/11+9/11x_i²+23/11.

С одной стороны, возможно непосредственно назначить априорные вероятности для обеих моделей так, чтобы штрафовать более сложную модель. С другой стороны, возможно вычислить их правдоподобие, P(D|H_a) и P(D|H_c) чтобы определить, насколько хорошо обе функции описывают данные.

Модель H_a зависит от двух параметров: добавляемого числа n и от первого числа в последовательности. Пусть каждый из этих параметров принадлежит множеству \{-50,…,50\}\supset\mathbb{Z}. Так как только пара значений (n=4, x_1=-1) доставляют функцию, соответствующую данным D=\{-1,3,7,11\}, то вероятность появления данных D при заданной модели H_a равна

P(D|H_a)=\frac{1}{101}\frac{1}{101}=0.00010.

Для того, чтобы вычислить P(D|H_c), требуется вычислить вероятность параметров c, d,e в кубическом многочлене H_c.

Эти параметры представлены с виде рациональных чисел (в противном случае обе эти модели были бы несравнимы). Пусть числители параметров, так же как и в предыдущем случае, принимают значения из множества \{-50,…,50\} а знаменатели — из множества \{1,…,50\}. При вычислении вероятности принимается во внимание, что несколько способов представить дробь на заданных множествах. Например, c=-1/11=-2/22=-3/33=-4/44. Вероятность P(D|H_c) равна

P(D|H_c)=\left(\frac{1}{101}\right) \left(\frac{4}{101}\frac{1}{50}\right) \left(\frac{4}{101}\frac{1}{50}\right) \left(\frac{2}{101}\frac{1}{50}\right) = 0.0000000000025 = 2.5 \times 10^{-12}.

Отношение правдоподобия двух моделей (а значит и их апостериорных вероятностей при условии равенства априорных предпочтений), P(D|H_a)=0.00010 и P(D|H_a)=2.5{\times}10^{-12} составляет одну сорокамиллионную.

Два уровня Байесовского вывода

Использование Байесовского вывода при создании моделей Первый и второй уровень вывода обведены двойной линией.
Использование Байесовского вывода при создании моделей Первый и второй уровень вывода обведены двойной линией.

При создании моделей различают два уровня Байесовского вывода. На первом уровне предполагается, что рассматриваемая модель адекватна. Производится настройка параметров модели по данным. В результате получаются наиболее правдоподобные значения параметров и значения ошибок моделей при этих параметрах. Эта процедура повторяется для каждой модели. Задача, решаемая на втором уровне вывода — сравнение моделей. Результатом является упорядоченное множество моделей.

Каждая модель H_i имеет вектор параметров \mathbf{w}. Задача первого уровня — получить оценку параметров \mathbf{w} модели при полученных данных D. Согласно теореме Байеса, апостериорная вероятность параметров \mathbf{w} равна

P(\mathbf{w}|D,H_i) = \frac{P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)}{P(D|H_i)},     (2)

Нормирующая константа  P(D|H_i) обычно не принимается во внимание на первом уровне вывода. Однако она становится весьма важной на втором уровне вывода. Эта константа называется в англоязычной литературе evidenve то есть достоверность модели.

При отыскании параметров на практике обычно применяют оптимизационные методы типа метода сопряженных градиентов, чтобы получить наиболее вероятные параметры \mathbf{w}_{MP}. (Различают наиболее вероятные параметры \mathbf{w}_{MP} выводятся на первом уровне как аргумент функции вероятности и наиболее правдоподобные параметры \mathbf{w}_{ML} , которые отыскиваются как аргумент функции наибольшего правдоподобия.)


Ошибка (иногда называемая прогностической способностью) модели H оценивается с помощью функции апостериорного распределения параметров модели. Для оценки используется приближение рядом Тейлора логарифма апостериорного распределения функции P(\mathbf{w}|D, H_i)

P(\mathbf{w}|D,H_i){\approx}P(\mathbf{w}_{MP}|D,H_i)\exp(-\frac{1}{2}\Delta\mathbf{w}^TA\Delta\mathbf{w})),

где \Delta\mathbf{w}=\mathbf{w}-\mathbf{w}_{MP}, и отыскивается значение гессиана при значении весов максимального правдоподобия \mathbf{w}_{\tiny\mbox{MP}} в окресности \mathbf{w}_{MP}:

A=-\nabla²{\ln}P(\mathbf{w}|D,H_i)|_{\mathbf{w}_{MP}}.

Таким образом, функция апостериорного распределения параметров модели H_i может быть локально приближена с помощью матрицы A^{-1}, которая является матрицей ковариации в окресности значения ее параметров \mathbf{w}_{MP}.

На втором уровне байесовского вывода требуется определить, какая модель наиболее адекватно описывает данные. Апостериорная вероятность i-й модели задана как

P(H_i|D){\propto}P(D|H_i)P(H_i).    (2)

Следует отметить, что сомножитель P(D|H_i), включающий данные D, есть достоверность модели H_i, которая была названа ранее, в выражении (2), нормирующей константой. Достоверность модели может быть получено интегрированием функции правдоподобия по всему пространству параметров модели

 P(D|H_i)={\int}P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i)d\mathbf{w}.

Второй сомножитель P(H_i) — априорная вероятность над пространством моделей, определяет, насколько адекватной (cоответствующий английский термин — plausible) является модель до того, как появились данные. Основной проблемой Байесовского вывода является отсутствие объективных методов назначения априорной вероятности P(H_i). Путь априорные вероятности P(H_i) всех моделей равны. Тогда модели ранжируются по значениям достоверности P(D|H_i).

Чрезвычайно важное предположение, которое необходимо сделать для решения задачи вычисления правдоподобия, — предположение о том, что распределение P(\mathbf{w}|D,H_i){\propto}P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i) имеет выраженный пик в окрестности наиболее вероятного значения \mathbf{w}_{MP}.

Множитель Оккама — отношение }
Множитель Оккама — отношение \sigma_{w|D} P(\mathbf{w}_{MP}|H_i) = \frac{\sigma_{w|D}}{\sigma_{w}}}

На рисунке показано, как вычисляется множитель Оккама для модели H_i с единственным параметром \mathbf{w} на оси абсцисс. Сплошной линией показано априорное распределение параметра с дисперсией \sigma_{w}. Апостериорное распределение показано пунктирной линией имеет единственный максимум в точке \mathbf{w}_{MP} и имеет дисперсию \sigma_{w|D}.

Функцию распределения вероятности параметров модели приближают гауссианой, определенной в пространстве параметров. Для этого используют метод Лапласа. Согласно этому методу, эта функция равна высоте пика подынтегрального выражения P(D|\mathbf{w},H_i)P(\mathbf{w}|H_i) умноженной на ширину пика, \sigma_{w|D}.

P(D|H_i)\approx P(D|\mathbf{w}_{MP},H_i) P(\mathbf{w}_{MP}|H_i) \times \sigma_{w|D},
достоверность \approx наибольшее правдоподобие \times множитель Оккама.

Таким образом, достоверность модели находится с помощью оценок наибольшего правдоподобия параметров модели и множителя Оккама, принимающего значения на отрезке [0,1], который штрафует модель H_i за ее параметры \mathbf{w}. Чем точнее была априорная оценка параметров, тем меньше штраф.

При аппроксимации Лапласа множитель Оккама может быть получен с помощью определителя ковариационной матрицы весов

 P(D|H_i)\approx P(D|\mathbf{w}_{MP},H_i) P(\mathbf{w}_{MP}|H_i) {\det}^{-\frac{1}{2}} (\mathbf{A}/2\pi),

где \mathbf{A}=-\nabla²{\ln}P(\mathbf{w}|D,H_i) — гессиан ковариационной матрицы весов, вычисленный в точке \mathbf{w}_{MP}. Аглоритмически, Байесовский метод сравнения моделей посредством вычисления достоверности не сложнее, чем задача настройки параметров каждой модели и оценки матрицы Гессе.

Итак, для того, чтобы отранжировать альтернативные модели H_i по предпочтению, необходимо, воспользовавшись Байесовским выводом, вычислить достоверность P(D|H_i). Байесовское сравнение моделей — это расширение метода выбора моделей по методу наибольшего правдоподобия. Достоверность возможно вычислить как для параметрических, так и для непараметических моделей.

Пример интепретации множителя Оккама

Пространство данных и пространство параметров трех модели различной сложности
Пространство данных и пространство параметров трех модели различной сложности

Переменная \sigma_{w|D} является апостериорной неопределенностью вектора параметров \mathbf{w}. Пусть априорное распределение P(\mathbf{w}|H_i) является равномерным на некотором большом интервале \sigma_w и отражает множество значений, которые были возможны априори, согласно модели H_i. Тогда P(\mathbf{w}_{MP}|H_i)=1/\sigma_w и

множитель Оккама= \frac{\sigma_{w|D}}{\sigma_{w}}.

Множитель Оккама есть степень сжатия пространства параметров модели при появлении данных. Модель H_i может быть представлена семейство параметрических функций, из которых фиксируется одна, как только появляются данные. Множитель есть число, обратное количеству таких функций (для конечно го их числа). Логарифм множителя Оккама есть есть мера количества информации о параметрах модели, которая будет получена при появлении данных.

На рисунке показаны три модели, H_1, H_2 и H_3, которые имеют равные априорные вероятности. Каждая модель имеет один параметр \mathbf{w} (показан на осях абсцисс), причем параметрам назначены различные априорные области определения \sigma_W. Модель H_3 — наиболее «гибкая», или «сложная», с наибольшей априорной областью определения. Одномерное пространство данных показано на оси ординат. Для каждой модели назначено совместное распределение вероятности P(D,\mathbf{w}|H_i) для данных и для параметров. Распределение показано облаками точек — случайных значений этой функции. Число точек для каждой из трех моделей одинаково, так как моделям были назначены одинаковые априорные вероятности.

Когда приходят набор данных D (в данном примере это одна единственная точка на оси ординат), выводится апостериорное распределение параметров моделей. Апостериорное распределение P(\mathbf{w}|D,H_i) показано пунктирной линией внизу. Сплошной линией показано априорное распределение параметров P(\mathbf{w}|H_3).

Для набора данных D, показанных пунктирной горизонтальной линией, достоверность P(D|H_3) наиболее гибкой модели H_3 имеет меньшее значение, чем достоверность модели H_2. Это происходит из-за того, что модель H_3 имеет меньшую область пересечения распределения вероятности P(D,\mathbf{w}|H_i) с линиией D, чем модель H_2. В терминах распределения параметров, модель H_3 имеет меньшую достоверность, так как множитель Оккама \sigma_{w|D}/\sigma_{w} для модели H_3 меньше, чем для модели H_2. Самая простая модель H_1 имеет самую малую достоверность, так как хуже всего приближает данные D. Модель H_3 слишком универсальна, ее множитель Оккама — штраф за универсальность модели — велик и поэтому она не является лучшей. Для полученного набора данных наиболее вероятна модель H_2.

Формула Байеса, кратко

Условная вероятность P(D|H) есть вероятность события D при условии наступления события H. Из всех элементов множества \Omega элементарных событий, принадлежащих H входят в D лишь те события, которые принадлежат пересечению H и D. Эти элементы определяют P(D|H). Но, если бы H было нормировано, то P(D|H) равнялось бы P(HD). Поэтому, чтобы условная вероятность отвечала условиям нормировки, используют нормирующий множитель:

P(D|H)=\frac{P(HD)}{P(H)}.

Согдаснно формуле умножения вероятностей, числитель этой дроби равен

P(HD)=P(D|H)P(H).

Разбиение множества \Omega на полную группу несовместимых событий H_1,\dots,H_n позволяет любое событие D записать в виде

D=DH_1+\dots+DH_n,

откуда

P(D)=P(D|H_1)P(H_1)+\dots+P(D|H_n)P(H_n)    (3)

Пусть P(H),P(D)>0. Тогда из

P(HD)=P(H|D)P(D)=P(D|H)P(H)

вытекает

P(H|D)=\frac{P(D|H)P(H)}{P(D)},

что после учета (3) при водит к формуле Байеса

P(H_i|D)=\frac{P(D|H_i)P(H_i)}{\sum\limits_{j=1}^nP(D|H_j)P(H_j)}.

Смотри также

Литература

Внешние ссылки