Метод наибольшего правдоподобия
Материал из MachineLearning.
(категория) |
(ключ сортировки) |
||
Строка 1: | Строка 1: | ||
- | '''Метод наибольшего правдоподобия''' - метод поиска модели, наилучшим в каком-то смысле образом описывающей обучающую выборку, полученную с некоторым неизвестным распределением. | + | '''Метод наибольшего правдоподобия''' -- метод поиска модели, наилучшим в каком-то смысле образом описывающей [[Обучающая выборка|обучающую выборку]], полученную с некоторым неизвестным распределением. |
== Описание метода == | == Описание метода == | ||
- | Пусть на вход подается некоторая величина ''x'', а на выходе имеется величина ''y''. Также существует условная вероятность <tex>p_0(y/x)</tex>, описывающая вероятность получить на выходе величину ''y'', если на вход была подана величина ''x''. Если множество величин не дискретно, то условная вероятность заменяется на условную плотность распределения. Считается, что эта условная вероятность нам неизвестна. Пусть имеется некоторое множество моделей, описываемых различными условными вероятностями <tex>p(y/x,\alpha)</tex>, где <tex>\alpha</tex> играет роль индекса, приписываемого конкретной модели, и может вообще говоря иметь любую природу. Пусть также существует обучающая выборка <tex>(x_i,y_i), i=1,\ldots,k,</tex> порождённая с неизвестной условной вероятностью <tex>p_0(y//x)</tex>. Причем, считается, что все пары порождаются независимо. Требуется на основании обучающей выборки выделить из множества моделей (то есть выбрать <tex>\alpha^*</tex>) ту, что наилучшим образом подходит к обучающей выборке. '''Функцией правдоподобия''' называется функция вида <tex>W(\alpha) = \sum\log p(y_i/x_i,\alpha)</tex>. Метод наибольшего правдоподобия состоит в том, что из множества моделей выбирается та, что максимизирует значение функции правдоподобия, т.е. выбирается значение параметра <tex>\alpha^* = argmax_\alpha W(\alpha).</tex> | + | Пусть на вход подается некоторая величина ''x'', а на выходе имеется величина ''y''. Также существует условная вероятность <tex>p_0(y/x)</tex>, описывающая вероятность получить на выходе величину ''y'', если на вход была подана величина ''x''. Если множество величин не дискретно, то условная вероятность заменяется на условную плотность распределения. Считается, что эта условная вероятность нам неизвестна. Пусть имеется некоторое множество моделей, описываемых различными условными вероятностями <tex>p(y/x,\alpha)</tex>, где <tex>\alpha</tex> играет роль индекса, приписываемого конкретной модели, и может вообще говоря иметь любую природу. Пусть также существует обучающая выборка <tex>(x_i,y_i), i=1,\ldots,k,</tex> порождённая с неизвестной условной вероятностью <tex>p_0(y//x)</tex>. Причем, считается, что все пары порождаются независимо. Требуется на основании обучающей выборки выделить из множества моделей (то есть выбрать <tex>\alpha^*</tex>) ту, что наилучшим образом подходит к обучающей выборке. '''[[Функция правдоподобия|Функцией правдоподобия]]''' называется функция вида <tex>W(\alpha) = \sum\log p(y_i/x_i,\alpha)</tex>. Метод наибольшего правдоподобия состоит в том, что из множества моделей выбирается та, что максимизирует значение функции правдоподобия, т.е. выбирается значение параметра <tex>\alpha^* = argmax_\alpha W(\alpha).</tex> |
==Обоснование метода == | ==Обоснование метода == | ||
- | Заметим, что в силу независимости элементов обучающей выборки вероятность получить набор выходных значений <tex>(y_1,\ldots,y_k)</tex> при поданных на вход значениях <tex>(x_1,\ldots,x_k)</tex> равняется <tex>p(y_1,\ldots,y_k/x_1,\ldots,x_k) = \prod p(y_i/x_i)</tex>. Из эвристических соображений понятно, что, чем ближе модель к истинной, тем больше должна быть эта величина. Функция правдоподобия является логарифмом этой величины. Можно также показать, что если среди множества моделей есть истинная, то максимум математического ожидания функции правдоподобия действительно достигается на истинной модели. | + | Заметим, что в силу независимости элементов обучающей выборки вероятность получить набор выходных значений <tex>(y_1,\ldots,y_k)</tex> при поданных на вход значениях <tex>(x_1,\ldots,x_k)</tex> равняется <tex>p(y_1,\ldots,y_k/x_1,\ldots,x_k) = \prod p(y_i/x_i)</tex>. Из эвристических соображений понятно, что, чем ближе модель к истинной, тем больше должна быть эта величина. Функция правдоподобия является логарифмом этой величины. Можно также показать, что если среди множества моделей есть истинная, то максимум [[Математическое ожидание|математического ожидания]] функции правдоподобия действительно достигается на истинной модели. |
- | [[Категория:Математическая статистика]] | + | [[Категория:Математическая статистика|Наибольшего правдоподобия]] |
Версия 19:42, 28 февраля 2010
Метод наибольшего правдоподобия -- метод поиска модели, наилучшим в каком-то смысле образом описывающей обучающую выборку, полученную с некоторым неизвестным распределением.
Описание метода
Пусть на вход подается некоторая величина x, а на выходе имеется величина y. Также существует условная вероятность , описывающая вероятность получить на выходе величину y, если на вход была подана величина x. Если множество величин не дискретно, то условная вероятность заменяется на условную плотность распределения. Считается, что эта условная вероятность нам неизвестна. Пусть имеется некоторое множество моделей, описываемых различными условными вероятностями , где играет роль индекса, приписываемого конкретной модели, и может вообще говоря иметь любую природу. Пусть также существует обучающая выборка порождённая с неизвестной условной вероятностью . Причем, считается, что все пары порождаются независимо. Требуется на основании обучающей выборки выделить из множества моделей (то есть выбрать ) ту, что наилучшим образом подходит к обучающей выборке. Функцией правдоподобия называется функция вида . Метод наибольшего правдоподобия состоит в том, что из множества моделей выбирается та, что максимизирует значение функции правдоподобия, т.е. выбирается значение параметра
Обоснование метода
Заметим, что в силу независимости элементов обучающей выборки вероятность получить набор выходных значений при поданных на вход значениях равняется . Из эвристических соображений понятно, что, чем ближе модель к истинной, тем больше должна быть эта величина. Функция правдоподобия является логарифмом этой величины. Можно также показать, что если среди множества моделей есть истинная, то максимум математического ожидания функции правдоподобия действительно достигается на истинной модели.