Критерий Бартлетта

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
м Критерий Бартлета» переименована в «Критерий Бартлетта»: исправление)
(уточнение)
Строка 1: Строка 1:
-
'''Критерий Бартлета''' позволяет проверять равенство дисперсий нескольких выборок. При этом объемы выборок могут быть различными. Критерий Бартлетта очень чувствителен к нарушению предположения о нормальности.
+
'''Критерий Бартлетта''' – [[статистический критерий]], позволяющий проверять равенство [[дисперсия| дисперсий]] нескольких (двух и более) [[выборка| выборок]]. [[Нулевая гипотеза]] предполагает, что рассматриваемые выборки получены из [[генеральная совокупность| генеральных совокупностей]], обладающих одинаковыми дисперсиями.
 +
Критерий Бартлетта является [[Параметрические статистические тесты| параметрическим]] и основан на дополнительном предположении о [[нормальная выборка| нормальности]] выборок данных. Поэтому перед применением критерия Бартлетта рекомендуется выполнить [[критерии нормальности| проверку нормальности]]. Критерий Бартлетта очень чувствителен к нарушению данного предположения.
 +
 +
'''Плюсы''':
 +
* ''объемы выборок могут быть различными'' (это его преимущество перед [[критерий Кокрена| критерием Кокрена]]),
 +
* ''критерий Бартлетта выявляет отклонения, как в наибольшую, так и в наименьшую стороны'';
 +
'''Минусы''':
 +
* ''сложность вычислений'' ([[Критерий Кокрена]] требует меньше вычислительных затрат. Особо это актуально в случае вычислений «вручную»),
 +
* ''объем каждой выборки должен быть больше трех'',
 +
* ''критерий очень чувствителен к нарушению предположения о нормальности закона распределения исходных данных''.
 +
 +
 +
== Примеры задач – применение критерия Бартлетта ==
 +
'''Пример 1.''' Критерий Бартлетта может быть использован как вспомогательный – например, при проверке некоторого другого [[статистический тест| статистического теста]], использующего равенство дисперсий.
 +
Приведем пример применения критерия Бартлетта в аналитической химии в качестве вспомогательного критерия. (См. [http://chemstat.com.ru/node/11 Применение дисперсионного анализа в аналитической химии].)
 +
При проведении межлабораторных экспериментов возникает тип задач, когда один образец анализируется в нескольких лабораториях, а затем полученные результаты обрабатываются и обобщаются. Таким образом, есть <tex>k</tex> выборок в общем случае различного размера. Необходимо сравнить [[среднее значение | средние значения]] полученных выборок. Для этого сперва нужно убедиться, что дисперсии однородны с помощью критерия Бартлетта. Если дисперсии неоднородны, то сравнение средних проводить нельзя.
 +
 +
'''Пример 2.''' (См. [http://e-science.ru/ Портал Естественных Наук].) Измеряется размер некоторого изделия. Всего проводится <tex>k</tex> серий экспериментов, состоящих из <tex>n_i</tex> (<tex>i=1,...,k </tex>) измерений. При этом серии измерений могут быть отнесены к разным экспериментаторам, могут применяться различные методики измерения. В условиях выполнения предположения о нормальности распределения необходимо сравнить выборки на однородность дисперсий.
 +
 +
'''Пример 3.''' (См. [http://www.dvo.sut.ru/libr/opds/i130hod2/6.htm Обработка однотипных выборок экспериментальных данных].) По результатам наблюдения за пропускной способностью канала в различные дни испытаний сформированы упорядоченные выборки. При заданном [[уровень значимости| уровне значимости]] <tex> \alpha</tex> необходимо проверить однородность выборок.
 +
 +
'''Замечания''':
 +
* Для расчетов при проверке однородности дисперсий наиболее сложным оказывается случай, когда выборочные дисперсии получены из выборок неодинакового объема или по результатам предварительной обработки из данных были исключены значения, признанные как промахи. Тогда рекомендуется применять критерий Бартлетта.
 +
* В связи с вычислительной сложностью данного критерия иногда на практике стараются отказаться от него, если есть такая возможность.
== Описание критерия ==
== Описание критерия ==
-
Имеется <tex>k</tex> выборок <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> объемом <tex>n_i</tex> (<tex>i=1,...,k </tex>) каждая. Дисперсии выборок и выборочные оценки дисперсий обозначим через <tex>\sigma_i^2</tex> и <tex>s_i^2</tex> соответственно.
+
Имеется <tex>k</tex> выборок <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> объемом <tex>n_i</tex> (<tex>i=1,...,k </tex>) каждая. [[Дисперсия| Дисперсии]] выборок и [[выборочные оценки дисперсий]] обозначим через <tex>\sigma_i^2</tex> и <tex>s_i^2</tex> соответственно.
=== Дополнительные предположения ===
=== Дополнительные предположения ===
-
* ''Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> являются нормальными''. Критерий Бартлетта очень чувствителен к отклонениям от нормальности распределения исследуемых случайных величин. Если нет уверенности в нормальности распределения, им не рекомендуется пользоваться.
+
* ''Выборки <tex>x^{n_1}_1, . . . , x^{n_k}_k</tex> являются [[нормальная выборка| нормальными]]''. Критерий Бартлетта очень чувствителен к отклонениям от нормальности распределения исследуемых случайных величин. Если нет уверенности в нормальности распределения, им не рекомендуется пользоваться. А при одинаковом объеме всех выборок вместо критерия Бартлетта лучше применять [[критерий Кокрена]].
=== Нулевая гипотеза ===
=== Нулевая гипотеза ===
Строка 13: Строка 36:
Альтернативная '''гипотеза <tex>H_1</tex>''': существует, по крайней мере, две выборки <tex>i</tex> и <tex>j</tex> (<tex>i \neq j</tex>) с несовпадающими дисперсиями.
Альтернативная '''гипотеза <tex>H_1</tex>''': существует, по крайней мере, две выборки <tex>i</tex> и <tex>j</tex> (<tex>i \neq j</tex>) с несовпадающими дисперсиями.
::<tex>H_1: \sigma_i^2 \neq \sigma_j^2</tex> (для некоторых <tex>i \neq j</tex>).
::<tex>H_1: \sigma_i^2 \neq \sigma_j^2</tex> (для некоторых <tex>i \neq j</tex>).
-
 
=== Статистика критерия Бартлетта ===
=== Статистика критерия Бартлетта ===
-
Статистика критерия Бартлетта вычисляется в соответствии с соотношением:
+
[[Статистика (функция выборки)| Статистика]] критерия Бартлетта вычисляется в соответствии с соотношением:
::<tex>T = \frac{M}{c}</tex>.
::<tex>T = \frac{M}{c}</tex>.
Здесь
Здесь
Строка 23: Строка 45:
где <tex>N = \sum_{i=1}^k n_i </tex> и <tex> s^2_p = \frac{1}{ N-k } \sum_{i=1}^k (n_i - 1) \cdot s^2_i </tex> – суммарная оценка дисперсий.
где <tex>N = \sum_{i=1}^k n_i </tex> и <tex> s^2_p = \frac{1}{ N-k } \sum_{i=1}^k (n_i - 1) \cdot s^2_i </tex> – суммарная оценка дисперсий.
-
При <tex>n_i > 3 (i=1,...,k) </tex> и справедливости нулевой гипотезы статистика критерия Бартлетта имеет распределение <tex>\chi_{k-1}^2</tex> хи-квадрат с (k-1) степенями свободы.
+
При <tex>n_i > 3 (i=1,...,k) </tex> и справедливости нулевой гипотезы статистика критерия Бартлетта имеет распределение <tex>\chi_{k-1}^2</tex> [[распределение хи-квадрат| хи-квадрат]] с (k-1) степенями свободы.
-
=== Критерий (при уровне значимости <tex> \alpha</tex>) ===
+
=== Критерий (при [[уровень значимости| уровне значимости]] <tex> \alpha</tex>) ===
-
Если <tex> T > \chi_{k-1, \alpha}^2</tex>, то с достоверностью <tex> \alpha</tex> нулевая гипотеза <tex>H_0</tex> ''отвергается'' в пользу альтернативы <tex>H_1</tex>.
+
Если <tex> T > \chi_{k-1, \alpha}^2</tex>, то с достоверностью <tex> \alpha</tex> нулевая гипотеза <tex>H_0</tex> ''отвергается'' в пользу альтернативы <tex>H_1</tex>. Здесь <tex>\chi_{k-1, \alpha}^2</tex> – [[квантиль]] [[распределение хи-квадрат| распределения хи-квадрат]] с (k-1) степенями свободы.
=== Примечание ===
=== Примечание ===
Строка 42: Строка 64:
|год = 2006
|год = 2006
|страниц = 816
|страниц = 816
 +
}}
 +
# {{книга
 +
|автор = Б.Ю. Лемешко, Е.П. Миркин.
 +
|часть = Критерии Бартлетта и Кокрена в измерительных задачах при вероятностных законах, отличающихся от нормального
 +
|заглавие = Измерительная техника
 +
|год = 2004
 +
|том = №10
 +
|страницы = 10-16
 +
|ссылка = http://www.ami.nstu.ru/~headrd/seminar/publik_html/Izm_T_5.htm
 +
}}
 +
# {{книга
 +
|автор = Г.Б. Ходасевич
 +
|заглавие = Обработка экспериментальных данных на ЭВМ
 +
|ссылка = http://www.dvo.sut.ru/libr/opds/i130hod2/index.htm
}}
}}
Строка 47: Строка 83:
* [[Критерий Фишера]]
* [[Критерий Фишера]]
* [[Критерий Кокрена]]
* [[Критерий Кокрена]]
 +
* [[Проверка статистических гипотез]]
 +
* [[Статистический анализ данных (курс лекций, К.В.Воронцов)]]
== Ссылки ==
== Ссылки ==
* [http://en.wikipedia.org/wiki/Bartlett's_test Bartlett's test] (Wikipedia)
* [http://en.wikipedia.org/wiki/Bartlett's_test Bartlett's test] (Wikipedia)
* [http://www.itl.nist.gov/div898/handbook/eda/section3/eda357.htm NIST page on Bartlett's test]
* [http://www.itl.nist.gov/div898/handbook/eda/section3/eda357.htm NIST page on Bartlett's test]
 +
* [http://chemstat.com.ru/node/10 Основы дисперсионного анализа]
 +
* [http://chemstat.com.ru/node/11 Применение дисперсионного анализа в аналитической химии]
 +
* [http://e-science.ru/ Портал Естественных Наук]
 +
* [http://www.aup.ru/books/m153/pril_1.htm Определения терминов теории вероятностей и прикладной статистики]
 +
* [http://www.statsoft.ru/home/portal Статистический Портал StatSoft]
-
[[Категория: Прикладная статистика]]
+
[[Категория: Прикладная статистика]]
 +
[[Категория:Дисперсионный анализ]]
 +
[[Категория:Статистические тесты]]
 +
[[Категория:Параметрические статистические тесты]]
 +
[[Категория:Энциклопедия анализа данных]]

Версия 08:55, 11 января 2009

Критерий Бартлеттастатистический критерий, позволяющий проверять равенство дисперсий нескольких (двух и более) выборок. Нулевая гипотеза предполагает, что рассматриваемые выборки получены из генеральных совокупностей, обладающих одинаковыми дисперсиями.

Критерий Бартлетта является параметрическим и основан на дополнительном предположении о нормальности выборок данных. Поэтому перед применением критерия Бартлетта рекомендуется выполнить проверку нормальности. Критерий Бартлетта очень чувствителен к нарушению данного предположения.

Плюсы:

  • объемы выборок могут быть различными (это его преимущество перед критерием Кокрена),
  • критерий Бартлетта выявляет отклонения, как в наибольшую, так и в наименьшую стороны;

Минусы:

  • сложность вычислений (Критерий Кокрена требует меньше вычислительных затрат. Особо это актуально в случае вычислений «вручную»),
  • объем каждой выборки должен быть больше трех,
  • критерий очень чувствителен к нарушению предположения о нормальности закона распределения исходных данных.


Содержание

Примеры задач – применение критерия Бартлетта

Пример 1. Критерий Бартлетта может быть использован как вспомогательный – например, при проверке некоторого другого статистического теста, использующего равенство дисперсий. Приведем пример применения критерия Бартлетта в аналитической химии в качестве вспомогательного критерия. (См. Применение дисперсионного анализа в аналитической химии.) При проведении межлабораторных экспериментов возникает тип задач, когда один образец анализируется в нескольких лабораториях, а затем полученные результаты обрабатываются и обобщаются. Таким образом, есть k выборок в общем случае различного размера. Необходимо сравнить средние значения полученных выборок. Для этого сперва нужно убедиться, что дисперсии однородны с помощью критерия Бартлетта. Если дисперсии неоднородны, то сравнение средних проводить нельзя.

Пример 2. (См. Портал Естественных Наук.) Измеряется размер некоторого изделия. Всего проводится k серий экспериментов, состоящих из n_i (i=1,...,k ) измерений. При этом серии измерений могут быть отнесены к разным экспериментаторам, могут применяться различные методики измерения. В условиях выполнения предположения о нормальности распределения необходимо сравнить выборки на однородность дисперсий.

Пример 3. (См. Обработка однотипных выборок экспериментальных данных.) По результатам наблюдения за пропускной способностью канала в различные дни испытаний сформированы упорядоченные выборки. При заданном уровне значимости  \alpha необходимо проверить однородность выборок.

Замечания:

  • Для расчетов при проверке однородности дисперсий наиболее сложным оказывается случай, когда выборочные дисперсии получены из выборок неодинакового объема или по результатам предварительной обработки из данных были исключены значения, признанные как промахи. Тогда рекомендуется применять критерий Бартлетта.
  • В связи с вычислительной сложностью данного критерия иногда на практике стараются отказаться от него, если есть такая возможность.

Описание критерия

Имеется k выборок x^{n_1}_1, . . . , x^{n_k}_k объемом n_i (i=1,...,k ) каждая. Дисперсии выборок и выборочные оценки дисперсий обозначим через \sigma_i^2 и s_i^2 соответственно.

Дополнительные предположения

  • Выборки x^{n_1}_1, . . . , x^{n_k}_k являются нормальными. Критерий Бартлетта очень чувствителен к отклонениям от нормальности распределения исследуемых случайных величин. Если нет уверенности в нормальности распределения, им не рекомендуется пользоваться. А при одинаковом объеме всех выборок вместо критерия Бартлетта лучше применять критерий Кокрена.

Нулевая гипотеза

Критерий Бартлетта проверяет гипотезу H_0 о том, что дисперсии всех k выборок одинаковы.

H_0: \sigma_1^2 = \sigma_2^2 =  . . . = \sigma_k^2

Альтернативная гипотеза H_1: существует, по крайней мере, две выборки i и j (i \neq j) с несовпадающими дисперсиями.

H_1: \sigma_i^2  \neq \sigma_j^2 (для некоторых i \neq j).

Статистика критерия Бартлетта

Статистика критерия Бартлетта вычисляется в соответствии с соотношением:

T  = \frac{M}{c}.

Здесь

M = (N-k) \cdot \ln(s^2_p) - \sum_{i=1}^k (n_i - 1) \cdot \ln(s^2_i),
c = 1 + \frac{1}{3\cdot (k-1)} \cdot \left(\sum_{i=1}^k \left(\frac{1}{n_i-1} \right) - \frac{1}{(N-k)} \right),

где N = \sum_{i=1}^k n_i и  s^2_p = \frac{1}{ N-k } \sum_{i=1}^k (n_i - 1) \cdot s^2_i – суммарная оценка дисперсий.

При n_i > 3 (i=1,...,k) и справедливости нулевой гипотезы статистика критерия Бартлетта имеет распределение \chi_{k-1}^2 хи-квадрат с (k-1) степенями свободы.

Критерий (при уровне значимости  \alpha)

Если  T > \chi_{k-1, \alpha}^2, то с достоверностью  \alpha нулевая гипотеза H_0 отвергается в пользу альтернативы H_1. Здесь \chi_{k-1, \alpha}^2квантиль распределения хи-квадрат с (k-1) степенями свободы.

Примечание

При отклонении от нормальности рекомендуется вместо статистики T пользоваться ее модификацией:

T^*  = \frac{f_2 \cdot M}{f_1 \cdot \left(\frac{f_2^2}{f_2 (2-c) + c} - M \right)},

где f_1 = k-1, f_2 = \frac{k+1}{(c-1)^2}.

Статистика  T^* имеет F-распределение с f_1 и f_2 степенями свободы. Поэтому нулевую гипотезу следует отклонить, если T^* > F_{\alpha}(f_1, f_2).

Литература

  1. Кобзарь А. И. Прикладная математическая статистика. — М.: Физматлит, 2006. — 816 с.
  2. Б.Ю. Лемешко, Е.П. Миркин. Критерии Бартлетта и Кокрена в измерительных задачах при вероятностных законах, отличающихся от нормального // Измерительная техника. — 2004 T. №10. — С. 10-16.
  3. Г.Б. Ходасевич Обработка экспериментальных данных на ЭВМ.

См. также

Ссылки

Личные инструменты