Взвешенное среднее Тьюки
Материал из MachineLearning.
м (→Одношаговый метод вычисления оценки) |
м |
||
(1 промежуточная версия не показана) | |||
Строка 1: | Строка 1: | ||
[[Изображение:Tukey.PNG|thumb|300px||Один шаг вычисления взвешенного среднего Тьюки]] | [[Изображение:Tukey.PNG|thumb|300px||Один шаг вычисления взвешенного среднего Тьюки]] | ||
- | Взвешенное среднее Тьюки — оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги: | + | Взвешенное среднее Тьюки — [[М-оценка]] среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги: |
# Вычисляется оценка среднего значения выборки (в начала работы алгоритма — обычная медиана). | # Вычисляется оценка среднего значения выборки (в начала работы алгоритма — обычная медиана). | ||
# Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего. | # Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего. | ||
Строка 6: | Строка 6: | ||
== Одношаговый метод вычисления оценки== | == Одношаговый метод вычисления оценки== | ||
- | Пусть имеется [[выборка]] <tex>x=\left\{x_1,\ldots,x_n\right\}.</tex> По ней рассчитывается [[медиана]] <tex>M</tex>, затем для каждого наблюдения — модуль его отклонения от медианы. Величина <tex>S</tex> — медиана выборки <tex>\left\{\left|x_1-M\right|,\ldots,\left|x_n-M\right|\right\}</tex> — называется абсолютным отклонением среднего (англ. [http://en.wikipedia.org/wiki/Median_absolute_deviation Median Absolute Deviation, MAD]) и является мерой вариации выборки. | + | Пусть имеется [[выборка]] <tex>x=\left\{x_1,\ldots,x_n\right\}.</tex> По ней рассчитывается [[медиана]] <tex>M</tex>, затем для каждого наблюдения — модуль его отклонения от медианы. Величина <tex>S</tex> — медиана выборки <tex>\left\{\left|x_1-M\right|,\ldots,\left|x_n-M\right|\right\}</tex> — называется [[Абсолютное отклонение среднего|абсолютным отклонением среднего]] (англ. [http://en.wikipedia.org/wiki/Median_absolute_deviation Median Absolute Deviation, MAD]) и является мерой вариации выборки. |
Для каждого элемента выборки <tex>x_i</tex> вычисляется отклонение от среднего: <tex>u_i=\frac{x_i-M}{cS+\eps}, \:\: i=1,\ldots,n,</tex> где <tex>c</tex> — параметр, от которого зависит чувствительность к отклонениям от среднего, <tex>\eps</tex> — малая постоянная величина, назначение которой — исключить возможность деления на ноль. | Для каждого элемента выборки <tex>x_i</tex> вычисляется отклонение от среднего: <tex>u_i=\frac{x_i-M}{cS+\eps}, \:\: i=1,\ldots,n,</tex> где <tex>c</tex> — параметр, от которого зависит чувствительность к отклонениям от среднего, <tex>\eps</tex> — малая постоянная величина, назначение которой — исключить возможность деления на ноль. |
Текущая версия
Взвешенное среднее Тьюки — М-оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги:
- Вычисляется оценка среднего значения выборки (в начала работы алгоритма — обычная медиана).
- Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего.
Часто используют только одну итерацию вычисления оценки.
Содержание |
Одношаговый метод вычисления оценки
Пусть имеется выборка По ней рассчитывается медиана , затем для каждого наблюдения — модуль его отклонения от медианы. Величина — медиана выборки — называется абсолютным отклонением среднего (англ. Median Absolute Deviation, MAD) и является мерой вариации выборки.
Для каждого элемента выборки вычисляется отклонение от среднего: где — параметр, от которого зависит чувствительность к отклонениям от среднего, — малая постоянная величина, назначение которой — исключить возможность деления на ноль.
Для взвешивания используется биквадратичная функция:
Итоговое значение среднего вычисляется по следующей формуле:
Дополнительное преимущество алгоритма - возможность рассчитать доверительный интервал для оценки при помощи приближения распределением Стьюдента. Симметричный % доверительный интервал даётся формулой
где — -квантиль распределения Стьюдента с числом степеней свободы
Итерационный метод вычисления оценки
Литература
Hoaglin, D.C., Mosteller, F., Tukey, J.W. Understanding Robust and Exploratory Data Analysis. John Wiley & Sons, New York (2000).