Обсуждение:Оценивание дискретных распределений при дополнительных ограничениях на вероятности некоторых событий (виртуальный семинар)

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Дальнейшее обобщение задачи)
(Полностью удалено содержимое страницы)
 
(54 промежуточные версии не показаны)
Строка 1: Строка 1:
-
== Обсуждение ==
 
-
* > ...Время считается дискретным...
 
-
*# Подход, в котором плотность вначале представляется как непрерывная функция времени, мне представляется лучшим. Поскольку в таком подходе можно выбирать различное число интервалов разбиения. Интересно, что
 
-
<tex>\omega = \int_{0}^{T} {w_t dt} = (i_1, ...,i_D) = super(seq_{l=1,M} {\int_{T/M*(l-1)+\delta_+}^{T/M*l} {w_t dt}}) = super ( (s^{(1)}_1,...,s^{(1)}_D),...,(s^{(M)}_1,...,s^{(M)}_D)) = (s^{(1)}_1,...,s^{(1)}_D) | ... | (s^{(M)}_1,...,s^{(M)}_D) </tex>, где seq - операция построения последовательности, а super (или <tex>|</tex>) - операция суперпозиции (сложения) многомерных дискретных элементарных исходов (<tex>s^{(r)}_k</tex> - число исходов типа k в интервале r).| [[Участник:ADY|ADY]] 11:31, 6 августа 2008 (MSD)
 
-
* > ...это приводит к появлению дополнительных ограничений типа равенств в задаче максимизации правдоподобия;...
 
-
*# Это справедливо только в параметрическом случае и в случае, когда обратные функции (которые появятся при решении связей) будут удовлетворять некоторым условиям? | [[Участник:ADY|ADY]] 11:31, 6 августа 2008 (MSD)
 
-
*# Максимизация правдоподобия - только один из методов получения оценок (пусть даже и с "хорошими" свойствами).
 
-
* > ...выборка может быть «немного» неоднородной;...
 
-
*# Если вводить веса (через ядро), то, такое впечатление, это эквивалентно тому, что мы делаем выборку однородной, но во всех функционалах учитываем веса. Если решение пойдет по этому пути, тогда можно подумать на тему введения весов для каждого элемента эмпирических данных? | [[Участник:ADY|ADY]] 11:31, 6 августа 2008 (MSD)
 
-
 
-
== Дальнейшее обобщение задачи ==
 
-
 
-
* При восстановлении плотности (для выбранного числа интервалов) в качестве функционала качества хотелось бы принять описанный функционал:
 
-
<tex>q(Pr')= 1/M \sum_{l=1,M}(1/n_l \sum_ {X_l \in \Omega_{X_l}} {Pr_l\{ X \} / Pr_l'\{ X_l \} } - 1)^2</tex>.
 
-
Возможно, этот функционал можно как-то упростить.
 
-
* Нужны критерии для сравнения различных плотностей и схема тестирования.
 
-
* Хотелось бы построить доверительные интервалы для оценок плотностей. При построении доверительных интервалов можно отказаться от квадратичного функционала при оценки вероятностей сверху использовать минимизацию:
 
-
<tex>q(Pr')= 1/M \sum_{l=1,M}(1/n_l \sum_ {X_l \in \Omega_{X_l}} {Pr_l\{ X \} / Pr_l'\{ X_l \} } - 1)</tex>,
 
-
а при оценки снизу минимизировать: <tex>q(Pr')= - 1/M \sum_{l=1,M}(1/n_l \sum_ {X_l \in \Omega_{X_l}} {Pr_l\{ X \} / Pr_l'\{ X_l \} } - 1)</tex>, для <tex>Pr_l'\{ X_l \} > \epsilon</tex> (где <tex>\epsilon</tex> - мин. допустимая оценка на вероятность).
 
-
* В задаче, оценки на вероятность всегда имеют некоторую естественную ошибку (обозначим ее <tex>\epsilon_0</tex>), не связанную с величиной выборки. Ее природа в невозможности точно отнести эмпирические данные к одному из семейству распределений. Поэтому, нет смысла строить бесконечно точные оценки (точные оценки в пределе): достаточно строить оценки, точноcть которых быстро стремиться к <tex>\epsilon_0</tex> при росте числа элементов выборки. В частной постановке задачи </tex>\epsilon_0 ~ 10^{-3}</tex>.
 

Текущая версия

Личные инструменты