Гипергеометрическое распределение

Материал из MachineLearning.

Перейти к: навигация, поиск
Гипергеометрическое распределение
Функция вероятности
Функция распределения
Параметры N\in 0,1,2,3,...\,
D\in 0,1,...,N\,
n\in 0,1,...,N\,
Носитель k \in 0,1,...,n\,
Функция вероятности {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}}
Функция распределения
Математическое ожидание nD\over N
Медиана
Мода \left\lfloor \frac{(D+1)(n+1)}{N+2}\right\rfloor
Дисперсия n(D/N)(1-D/N)(N-n)\over (N-1)
Коэффициент асимметрии \frac{(N-2D)(N-1)^\frac{1}{2}(N-2n)}{[nD(N-D)(N-n)]^\frac{1}{2}(N-2)}
Коэффициент эксцесса  \left[\frac{N^2(N-1)}{n(N-2)(N-3)(N-n)}\right]\times
\times \left[\frac{N(N+1)-6N(N-n)}{D(N-D)}+\frac{3n(N-n)(N+6)}{N^2}-6\right]
Информационная энтропия
Производящая функция моментов \frac{{N-D \choose n}}{{N \choose n}}\,_2F_1(-n,-D;N-D-n+1;e^{t})
Характеристическая функция \frac{{N-D \choose n}}{{N \choose n}}\,_2F_1(-n,-D;N-D-n+1;e^{it})


Гипергеометрическое распределение — это дискретное вероятностное распределение, которое описывает количество успехов в выборке без возвращений длины n над конечной совокупностью объектов.

Попали в выборку Не попали в выборку Всего
С дефектом (успех) k m-k m
Без дефекта n-k N+k-n-m N-m
Всего n N-n N

Это выборка из N объектов, из которых m дефектных. Гипергеометрическое распределение описывает вероятность того, что именно k дефектных в выборке из n конкретных объектов, взятых из совокупности.

Если случайная величина X распределена гипергеометрически с параметрами N,\;m,\;n, тогда вероятность получить ровно k успехов (дефектных объектов в предыдущем примере) будет следующей:

f(k;N,m,n)=\frac{C_k^m C_{n-k}^{N-m}}{C_k^N}.

Эта вероятность положительна, когда k лежит в промежутке между \max \{ 0, D+n-N \} и \min\{ n,D \}.

Приведенная формула может трактоваться следующим образом: существует  N \choose n возможных выборок (без возвращения). Есть  D \choose k способов выбрать k бракованных объектов и  {N-D} \choose {n-k} способов заполнить остаток выборки объектами без дефектов.

В случае, когда размер популяции является большим по сравнению с размером выборки (т.е., N намного больше, чем n), гипергеометрическое распределение хорошо аппроксимируется биномиальным распределением с параметрами n (количество испытаний) и p = D/N (вероятность успеха в одном испытании).

Симметричность

 f(k;N,D,n) = {{{D \choose k} {{N-D} \choose {n-k}}}\over {N \choose n}} = f(n-k;N,N-D,n),
 f(k;N,D,n) = f(k;N,n,D) .

Ссылки

http://en.wikipedia.org/wiki/Hypergeometric_distribution

См. также