Взвешенное среднее Тьюки
Материал из MachineLearning.
м |
м |
||
Строка 13: | Строка 13: | ||
Итоговое значение среднего вычисляется по следующей формуле: | Итоговое значение среднего вычисляется по следующей формуле: | ||
- | :<tex>T_{bi}=\frac{\sum_i w\left(u_i\right)x_i}{\sum_i w\left(u_i\right)}.</tex> | + | ::<tex>T_{bi}=\frac{\sum_i w\left(u_i\right)x_i}{\sum_i w\left(u_i\right)}.</tex> |
Дополнительное преимущество алгоритма - возможность рассчитать [[доверительный интервал]] для оценки при помощи приближения распределением Стьюдента. Симметричный <tex>(1-\alpha)</tex>% доверительный интервал даётся формулой | Дополнительное преимущество алгоритма - возможность рассчитать [[доверительный интервал]] для оценки при помощи приближения распределением Стьюдента. Симметричный <tex>(1-\alpha)</tex>% доверительный интервал даётся формулой | ||
- | :<tex>T_{bi}\pm t_{df}^{(1-\alpha/2)} \cdot\frac{S_{bi}}{\sqrt{n}},\:\:\: S_{bi} = \sqrt{n}\cdot \frac {\sqrt{ \sum_{\left|u_i\right|\leq 1} \left(x_i-T_{bi}\right)^2 \left(1-u^2 \right)^4 } } { \left| \sum_{\left|u_i\right|\leq 1} \left(1-u_i^2\right) \left(1-5u_i^2\right) \right| },</tex> | + | ::<tex>T_{bi}\pm t_{df}^{(1-\alpha/2)} \cdot\frac{S_{bi}}{\sqrt{n}},\:\:\: S_{bi} = \sqrt{n}\cdot \frac {\sqrt{ \sum_{\left|u_i\right|\leq 1} \left(x_i-T_{bi}\right)^2 \left(1-u^2 \right)^4 } } { \left| \sum_{\left|u_i\right|\leq 1} \left(1-u_i^2\right) \left(1-5u_i^2\right) \right| },</tex> |
где <tex>t_{df}^{(1-\alpha/2)}</tex> - <tex>\left(1-\alpha/2\right)</tex>-квантиль распределения Стьюдента с числом степеней свободы <tex>df=\max\left(0.7*(n-1),1\right).</tex> | где <tex>t_{df}^{(1-\alpha/2)}</tex> - <tex>\left(1-\alpha/2\right)</tex>-квантиль распределения Стьюдента с числом степеней свободы <tex>df=\max\left(0.7*(n-1),1\right).</tex> | ||
Версия 13:50, 17 мая 2010
Взвешенное среднее Тьюки — оценка среднего значения выборки, устойчивая к наличию выбросов. Алгоритм вычисления оценки носит итерационный характер. До достижения сходимости повторяются следующие шаги:
- Вычисляется оценка среднего значения выборки (в начала работы алгоритма — обычная медиана).
- Определяются расстояния от вычисленного среднего до каждого элемента выборки. Согласно этим расстояниям, элементам выборки присваиваются различные веса, с учётом которых среднее значение пересчитывается. Характер весовой функции таков, что наблюдения, отстоящие от среднего достаточно далеко, не вносят большого вклада в значение взвешенного среднего.
Часто используют только одну итерацию вычисления оценки.
Содержание |
Одношаговый метод вычисления оценки[1]
Пусть имеется выборка По ней рассчитывается медиана , затем для каждого наблюдения — модуль его отклонения от медианы. Величина — медиана выборки — называется абсолютным отклонением среднего (англ. Median Absolute Deviation, MAD) и является мерой вариации выборки.
Для каждого элемента выборки вычисляется отклонение от среднего: где — параметр, от которого зависит чувствительность к отклонениям от среднего, — малая постоянная величина, назначение которой — исключить возможность деления на ноль.
Для взвешивания используется биквадратичная функция:
Итоговое значение среднего вычисляется по следующей формуле:
Дополнительное преимущество алгоритма - возможность рассчитать доверительный интервал для оценки при помощи приближения распределением Стьюдента. Симметричный % доверительный интервал даётся формулой
где - -квантиль распределения Стьюдента с числом степеней свободы
Итерационный метод вычисления оценки
Литература
Hoaglin, D.C., Mosteller, F., Tukey, J.W. Understanding Robust and Exploratory Data Analysis. John Wiley & Sons, New York (2000).