Взвешенное среднее Тьюки
Материал из MachineLearning.
Взвешенное среднее Тьюки - оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги:
- Вычисляется оценка среднего значения выборки (в начала работы алгоритма - обычная медиана).
- Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего.
Часто используют только одну итерацию вычисления оценки.
Содержание |
Одношаговый метод вычисления оценки[1]
Пусть имеется выборка По ней рассчитывается медиана , затем для каждого наблюдения - модуль его отклонения от медианы. Величина - медиана выборки - называется абсолютным отклонением среднего (англ. Median Absolute Deviation, MAD) и является мерой вариации выборки.
Для каждого элемента выборки вычисляется отклонение от среднего: где - параметр, от которого зависит чувствительность к отклонениям от среднего, - малая постоянная величина, назначение которой - исключить возможность деления на ноль.
Для взвешивания используется биквадратичная функция:
Итоговое значение среднего вычисляется по следующей формуле:
Дополнительное преимущество алгоритма - возможность рассчитать доверительный интервал для оценки при помощи приближения распределением Стьюдента. Симметричный % доверительный интервал даётся формулой
где - -квантиль распределения Стьюдента с числом степеней свободы
Итерационный метод вычисления оценки
Литература
Hoaglin, D.C., Mosteller, F., Tukey, J.W. Understanding Robust and Exploratory Data Analysis. John Wiley & Sons, New York (2000).