Оценивание дискретных распределений при дополнительных ограничениях на вероятности некоторых событий (виртуальный семинар)
Материал из MachineLearning.
м (→Частная постановка задачи) |
|||
Строка 156: | Строка 156: | ||
<tex>X_l = \int_{0}^{T/M * l} { ( \omega^{(1)}_t , \omega^{(2)}_t ) dt}</tex>. Для M=1 и D=2 множество <tex>X_l</tex> превращается в множество типа <tex>(i_1,j_1)</tex>, а множество функции плотности вероятности для двух интервалов (M=2) есть <tex>((i_1,j_1),(i_2,j_2))</tex>, где <tex>(i_1,j_1)</tex> - количества событий типа i и j, соответственно, которые произошли в интервале [0,T/2]. | <tex>X_l = \int_{0}^{T/M * l} { ( \omega^{(1)}_t , \omega^{(2)}_t ) dt}</tex>. Для M=1 и D=2 множество <tex>X_l</tex> превращается в множество типа <tex>(i_1,j_1)</tex>, а множество функции плотности вероятности для двух интервалов (M=2) есть <tex>((i_1,j_1),(i_2,j_2))</tex>, где <tex>(i_1,j_1)</tex> - количества событий типа i и j, соответственно, которые произошли в интервале [0,T/2]. | ||
: Известны результаты реализации этого случайного процесса, из которых можно построить эмпирическую плотность распределения <tex>f*(\omega_t)</tex>. | : Известны результаты реализации этого случайного процесса, из которых можно построить эмпирическую плотность распределения <tex>f*(\omega_t)</tex>. | ||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
- | |||
== Ссылки == | == Ссылки == | ||
Строка 208: | Строка 161: | ||
== Литература == | == Литература == | ||
# У. Гренандер, "Вероятности на алгебраических структурах". | # У. Гренандер, "Вероятности на алгебраических структурах". | ||
- | |||
- | |||
{{Stub}} | {{Stub}} | ||
[[Категория:Виртуальные семинары]] | [[Категория:Виртуальные семинары]] |
Версия 18:07, 8 марта 2009
Этот виртуальный семинар посвящён осбуждению некоторых обобщений классической задачи восстановления плотности распределения по конечной выборке данных.
Содержание[убрать] |
Общие постановки задач
Основные особенности рассматриваемых здесь постановок задачи:
- имеется точная априорная информация о вероятности некоторых событий; это приводит к появлению дополнительных ограничений типа равенств в задаче максимизации правдоподобия;
- выборка может быть «немного» неоднородной;
- рассматривается несколько разновидностей задачи: объектами выборки могут быть как элементарные исходы, так и последовательности (временные ряды) элементарных исходов;
- рассматриваются только дискретные распределения (множество элементарных исходов конечно);
Стационарный однородный случай
Задано конечное множество элементарных исходов .
Для каждого
вероятность исхода
неизвестна.
Имеется информация двух типов:
- эмпирические данные: выборка наблюдений
, случайных, независимых из распределения
;
- априорные ограничения: известны точные значения
вероятностей событий
:
Требуется найти оценки вероятностей исходов .
Эти оценки должны вычисляться достаточно эффективно — за доли секунды при
.
Предполагается, что число априорных ограничений много меньше числа элементарных исходов, поэтому однозначно определить вероятности исходов из априорной информации невозможно.
Обозначим через частоту исхода
в выборке:
Непараметрическая оценка максимума правдоподобия
Найти оценку максимума правдоподобия, решив оптимизационную задачу
при ограничениях нормировки
и априорных ограничениях-равенствах
Вопросы:
- Решается ли данная задача аналитически? (предположительно, да)
- Обладают ли эти оценки свойствами несмещённости, состоятельности, эффективности? (предположительно, да)
- Какие свойста этих оценок «испортятся», и насколько сильно, если априорная информация
будет не согласована с неизвестным истинным распределением, то есть с эмпирическими данными? (предположительно, возникнет смещение)
- Как число априорных ограничений влияет на дисперсию оценок? (предположительно, дисперсия уменьшается с ростом J)
Параметрическая оценка максимума правдоподобия
Эмпирических данных может оказаться не достаточно для получения надёжных оценок, особенно для маловероятных исходов.
Тогда вводится ещё один тип информации — параметрическая модель распределения
,
где
— фиксированная функция,
— вектор параметров модели.
Постановка задачи остаётся той же, только теперь решением задачи является вектор параметров
.
Возможен также полупараметрический подход, когда
вероятности часто встречающихся исходов (скажем, при ) оцениваются непараметрически,
а маловероятные исходы оцениваются согласно параметрической модели.
Вопросы:
- Для каких параметрических моделей возможно получить эффективное численное решение?
- Как определить порог
при полупараметрическом оценивании?
- Как ввести «размытый» порог, чтобы решение определялось моделью в тем большей степени, чем меньше
, без резкого перехода от параметрического оценивания к непараметрическому?
Двухэтапное решение
Для получения вычислительно эффективного метода оценивания предлагается разделить решение задачи на два этапа.
Этап 1.
Оценить вероятности исходов , параметрически или непараметрически, не учитывая априорные ограничения
.
Эта задача решается стандартными методами.
Например, при непараметрическом подходе оценка максимума правдоподобия есть просто
Этап 2.
Согласовать полученное на этапе 1 решение с априорными ограничениями.
При параметрическом подходе согласование сводится к поиску таких оценок
,
которые в точности удовлетворяют априорным ограничениям
и как можно лучше приближают модель.
Например, можно воспользоваться приближением в среднеквадратичном:
,
при ограничениях нормировки
и априорных ограничениях
.
Вопросы:
- Обосновано ли применение метода наименьших квадратов (или какого-либо другого функционала) на втором этапе, если на первом этапе применяется принцип максимума правдоподобия?
- Эквивалентно ли двухэтапное решение исходной постановке задачи? (предположительно, нет)
- Хотя бы асимптотически? (предположительно, да)
- Что нужно сделать, чтобы они стали эквивалентными?
Стационарный неоднородный случай
Предположим, что объекты выборки
взяты по-прежнему случайно и независимо, но теперь из разных (неизвестных) распределений
.
Для каждого объекта известны априорные ограничения — точные значения
вероятностей событий
.
Для некоторого нового объекта
,
взятого из неизвестного распределения
,
также заданы априорные ограничения — точные значения
вероятностей событий
.
Требуется найти оценки вероятностей исходов .
Эти оценки должны вычисляться достаточно эффективно.
Чтобы учесть неоднородность выборки, предлагается ввести веса объектов.
Вес объекта тем меньше, чем сильнее отличаются
априорные вероятности
для объекта
от
априорных вероятностей
для объекта
.
Далее вся методика, разработанная для однородного случая,
переносится на неоднородный, с тем отличием, что теперь выборка взвешенная.
Функцию веса можно задать, опираясь на идею ядерного сглаживания:
где K — неотрицательная невозростающая функция, называемая ядром; h — ширина окна сглаживания.
Вопросы:
- Каким должно быть ядро?
- Как подобрать ширину окна, иными словами, как быстро должен убывать вес с возростанием различия априорных вероятностей?
- Какую метрику использовать для оценивания различия априорных вероятностей?
- Будет ли оценка состоятельной, несмещённой, эффективной? Как эти свойства зависят от ширины окна?
- Верна ли догадка, что ядерное сглаживание эквивалентно тихоновской регуляризации — введению штрафа за различия между неизвестными распределениями? Например так:
Нестационарный неоднородный случай
Нестационарная (динамическая) задача является дальнейшим обобщением стационарной (статической).
Теперь объектами являются не элементарные исходы, а последовательности элементарных исходов
.
Индекс
будем называть временем.
Время считается дискретным.
Задача состоит в восстановлении дискретной функции плотности вероятности (где
- элементарные исходы, зависящие от времени
,
, где
- дельта-функция Дирака. То есть, проще говоря, события разного вида
происходят в случайные моменты времени
) ) при условии, что заданы условия на
(где
- суперпозиция финальных исходов (интегрированных по времени:
)),
- функция распределения вероятностей,
- заданные вероятности,
).
Эмпирические частоты для заданы.
Для несмещенных оценок вероятностей в качестве функционала качества предлагается использовать:
, где
- оценки на вероятности исходов, которые строятся из элементарных исходов интегрированием по времени и суперпозицией получившихся исходов; сумма берется по полному набору исходов (n - полное число исходов в
),
- истинные значения вероятностей.
Частная постановка задачи
В частном случае: D=2,
В качестве функционала качества можно принять среднее среди функционалов качества для интегральных по времени исходов для деления всего времени на M одинаковых интервалов:
, где
. Для M=1 и D=2 множество
превращается в множество типа
, а множество функции плотности вероятности для двух интервалов (M=2) есть
, где
- количества событий типа i и j, соответственно, которые произошли в интервале [0,T/2].
- Известны результаты реализации этого случайного процесса, из которых можно построить эмпирическую плотность распределения
.
Ссылки
Литература
- У. Гренандер, "Вероятности на алгебраических структурах".