Взвешенное среднее Тьюки
Материал из MachineLearning.
(/* Одношаговый метод вычисления оценки1. Affymetrix. Statistical Algorithms Description Document, Appendix I. Technical report, Affymetrix. 2002. http://www.affymetrix.com/support/technical/whitepapers/sadd_whitepaper.) |
|||
Строка 1: | Строка 1: | ||
- | [[Изображение:Tukey.PNG|thumb| | + | [[Изображение:Tukey.PNG|thumb|300px||Один шаг вычисления взвешенного среднего Тьюки]] |
Взвешенное среднее Тьюки - оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги: | Взвешенное среднее Тьюки - оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги: | ||
# Вычисляется оценка среднего значения выборки (в начала работы алгоритма - обычная медиана). | # Вычисляется оценка среднего значения выборки (в начала работы алгоритма - обычная медиана). |
Версия 10:44, 13 мая 2010
Взвешенное среднее Тьюки - оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги:
- Вычисляется оценка среднего значения выборки (в начала работы алгоритма - обычная медиана).
- Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего.
Часто используют только одну итерацию вычисления оценки.
Содержание |
Одношаговый метод вычисления оценки[1]
Пусть имеется выборка По ней рассчитывается медиана , затем для каждого наблюдения - модуль его отклонения от медианы. Величина - медиана выборки - называется абсолютным отклонением среднего (англ. Median Absolute Deviation, MAD) и является мерой вариации выборки.
Для каждого элемента выборки вычисляется отклонение от среднего: где - параметр, от которого зависит чувствительность к отклонениям от среднего, - малая постоянная величина, назначение которой - исключить возможность деления на ноль.
Для взвешивания используется биквадратичная функция:
Итоговое значение среднего вычисляется по следующей формуле:
Дополнительное преимущество алгоритма - возможность рассчитать доверительный интервал для оценки при помощи приближения распределением Стьюдента. Симметричный % доверительный интервал даётся формулой
где - -квантиль распределения Стьюдента с числом степеней свободы
Итерационный метод вычисления оценки
Литература
Hoaglin, D.C., Mosteller, F., Tukey, J.W. Understanding Robust and Exploratory Data Analysis. John Wiley & Sons, New York (2000).