Стратификация

Материал из MachineLearning.

Перейти к: навигация, поиск

Метод стратификации относится к методам отбора выборки,имеющим следующие особенности:

  • генеральная совокупность состоит из N элементов
  • генералльная совокупность разделена на H групп, называемых стратами или слоями
  • каждый элемент совокупности принадлежит одной и только одной страте
  • известно количество наблюдений внутри каждой страты N_h,\;\; N=N_1+N_2+N_3+\dots+N_{H-1}+N_H
  • исследователь получает вероятность выборки из каждой страты

В этой статье рассматривается, что исследователь выбирает данные из каждой страты простым случайным выбором.

Стратификация – довольно распространенный приём. Это обусловлено многими причинами; перечислим основные из них.

  1. Если желательно получить с определенной точностью данные о некоторых подразделениях совокупности, то каждое такое подразделение рекомендуется рассматривать на правах самостоятельной «совокупности»
  2. Применение расслоения может быть продиктовано организационными соображениями, например, агентство, проводящее обследование, может иметь районные отделения, каждое из которых обеспечивает проведение обследования какой-либо части совокупности
  3. Проблемы, связанные с отбором в разных частях совокупности, могут сильно разниться. При выборочных обследованиях населения людей, находящихся в таких заведениях, как гостиницы, больницы, тюрьмы, часто выделяют в отдельный слой в отличие от людей, живущих в обычных домах, поскольку к отбору в этих двух случаях требуется разный подход. При обследовании, предпринятом с целью изучения деловой активности, мы можем составить список крупных фирм, выделив в их отдельный слой. Для более мелких фирм можно применить один из видов территориального отбора.
  4. Расслоение может дать выигрыш в точности при оценивании характеристик всей совокупности. Иногда неоднородную совокупность удается подразделить на подсовокупности, каждая из которых внутренне однородна. Это и подразумевается под названием слой по аналогии с разделением на слои в геологии. Если каждый слой однороден в том смысле, что результаты измерений в нём очень мало изменяются, то можно получить точную оценку среднего для любого слоя по небольшой выборке в этом слое. Затем эти оценки можно объединить в одну точную оценку для всей совокупности.

Рассмотрим преимущества и недостатки по сравнению с простым случайным выбором

Преимущества

  • стратификация может обеспечить большую точность, чем простой случайный выбор для тех же данных;
  • в силу того, что она обеспечивает большую точность, ей часто требуется меньшая по размеру выборка, что экономит средства;
  • с помощью стратификации можно избежать "непредставительной" выборки (например, выбрать только мужчин из выборки, состоящей из мужчин и женщин);
  • есть гарантия того, что мы получим достаточное значений выборки, чтобы провести исследование отдельно по каждой группе;

Недостатки

  • административные трудности, сложно организовать на практике;
  • трудности в определении каждой страты;
  • чтобы проанализировать результаты потребуется больше усилий;

Пропорциональный и непропорциональный выбор

Методы стратификации данных делятся на две категории (пропорциональный и непропорциональный выборы), каждый из которых имеет свои плюсы и минусы.

Пропорциональный выбор

Размер каждой страты в выбранной выборке получается пропорционально размеру всей страты. Это называется пропорциональным размещением, т.е. доля отбора одинакова для каждой страты.

Объясним на примере: Допустим, что нам нужно выбрать 100 школьников из школы с общим количеством учащихся,равным 2000. Тогда доля отбора составит 1 из 20. Также мы можем поделить всех детей по возрасту и полу, зная разбиение, можно отбирать количество людей из каждой страты по выбранной доле. Более наглядно можно увидеть в таблице

Пол/возраст Количество Значение, полученное согласно доле отбора Выбранное количество Доля учеников в выбранной выборке
Мальчики, младше 6 лет 169 8.45 8 0.0473
Девочки, младше 6 лет 147 7.35 7 0.0476
Мальчики в возрасте 7-9 лет 194 9.7 10 0.0515
Девочки в возрасте 7-9 лет 213 10.65 11 0.0516
Мальчики в возрасте 10 лет 177 8.85 9 0.0508
Девочки в возрасте 10 лет 198 9.9 10 0.0510
Всего 1098 54.9 55 0.0501

Таким образом, можно заметить, что доли отбора из каждой страты практически не различаются между собой.

Плюсы:

  • Пропорциональный выбор в стратификации обеспечивает больший или равный уровень точности, чем при использовании простого случайного выбора.
  • Точность увеличивается с улучшением однородности внутри каждой страты
  • Улучшение точности относится ко всем параметрам исследования

При непропорциональном выборе доля отбора может сильно отличаться в каждой страте.

Например, нам нужно выбрать из 2000 студентов 40 человек, причем 10 из них должны быть кареглазыми, 10 с серым цветом глаз, 10 с зеленым цветом глаз, 10 голубоглазых. Но в выбранной группе, оказывается, что всего 1000 кареглазых студентов, 500 - с зеленым цветом глаз, 400 - с серым и 100 - с голубым, тогда доли отбора составят соответственно 0.01, 0.02, 0.025 и 0.1, т.е. по каждой страте есть существенные отличия между ними.

Точность такого выбора может быть как очень хорошей, так и достаточно малой, в зависимости от того, как значения выборки распределены по стратам.

Если между стратами есть большая разница, то выгоднее пользоваться именно непропорциональным размещением.

Применяя непропорциональный отбор, можно получить точные данные по одной из исследуемых величин, увеличить точность по всем величинам не получится.

Непропорциональный отбор можно улучшить, используя оптимальное размещение. Правила отбора заключаются в следующем, в данном слое берите выборку большего объема, если:

  1. слой больше;
  2. в слое больше вариация признака
  3. отбор в слое обходится дешевле.
Личные инструменты