Применение метода главных компонент

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Визуализация данных)
м (Общественные науки: обновление линков)
 
(8 промежуточных версий не показаны.)
Строка 2: Строка 2:
== Визуализация данных ==
== Визуализация данных ==
-
 
Визуализация данных – представление в наглядной форме данных эксперимента или результатов теоретического исследования.
Визуализация данных – представление в наглядной форме данных эксперимента или результатов теоретического исследования.
Строка 11: Строка 10:
:#Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».
:#Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».
-
Визуализация данных является одним из наиболее широко используемых приложений метода главных компонент и его нелинейных обобщений<ref>''Зиновьев А. Ю.'', [http://pca.narod.ru/ZINANN.htm Визуализация многомерных данных], Красноярск, Изд. КГТУ, 2000.</ref>
+
Визуализация данных является одним из наиболее широко используемых приложений метода главных компонент и его нелинейных обобщений<ref>''Зиновьев А. Ю.'', [http://pca.narod.ru/ZINANN.htm Визуализация многомерных данных], Красноярск, Изд. КГТУ, 2000.</ref>.
== Компрессия изображений и видео ==
== Компрессия изображений и видео ==
Строка 17: Строка 16:
Для уменьшения пространственной избыточности пикселей при кодировании изображений и видео используется линейные преобразования блоков пикселей. Последующие квантования полученных коэффициентов и кодирование без потерь позволяют получить значительные коэффициенты сжатия. Использование преобразования PCA в качестве линейного преобразования является для некоторых типов данных оптимальным с точки зрения размера полученных данных при одинаковом искажении <ref>''Rao, K., Yip P.'' (eds.), The Transform and Data Compression Handbook, CRC Press, Baton Rouge, 2001.</ref>. На данный момент этот метод активно не используется, в основном из-за большой вычислительной сложности. Также сжатия данных можно достичь отбрасывая последние коэффициенты преобразования.
Для уменьшения пространственной избыточности пикселей при кодировании изображений и видео используется линейные преобразования блоков пикселей. Последующие квантования полученных коэффициентов и кодирование без потерь позволяют получить значительные коэффициенты сжатия. Использование преобразования PCA в качестве линейного преобразования является для некоторых типов данных оптимальным с точки зрения размера полученных данных при одинаковом искажении <ref>''Rao, K., Yip P.'' (eds.), The Transform and Data Compression Handbook, CRC Press, Baton Rouge, 2001.</ref>. На данный момент этот метод активно не используется, в основном из-за большой вычислительной сложности. Также сжатия данных можно достичь отбрасывая последние коэффициенты преобразования.
-
== Подавление шума на изображениях <ref>''Muresan D. D., Parks T. W.'', Adaptive Principal Components and Image Denoising // IEEE International Conference on Image Processing (ICIP), September 2003, 101—104</ref> ==
+
== Подавление шума на изображениях ==
-
Основная суть метода — при удалении шума из блока пикселей представить окрестность этого блока в виде набора точек в многомерном пространстве, применить к нему PCA и оставить только первые компоненты преобразования. При этом предполагается, что в первых компонентах содержится основная полезная информация, оставшиеся же компоненты содержат ненужный шум. Применив обратное преобразование после редукции базиса главных компонент, мы получим изображение без шума.
+
Основная суть метода<ref>''Muresan D. D., Parks T. W.'', [http://pca.narod.ru/MuresanParksAdaptivePCA2003.pdf Adaptive Principal Components and Image Denoising], in: Image Processing, 2003, Proceedings 2003 IEEE International Conference on Image Processing (ICIP), 14-17 Sept. 2003, V. 1, pp. I-101-104. На сайте [http://pca.narod.ru/ PCA]</ref> — при удалении шума из блока пикселей представить окрестность этого блока в виде набора точек в многомерном пространстве, применить к нему PCA и оставить только первые компоненты преобразования. При этом предполагается, что в первых компонентах содержится основная полезная информация, оставшиеся же компоненты содержат ненужный шум. Применив обратное преобразование после редукции базиса главных компонент, мы получим изображение без шума.
== Индексация видео ==
== Индексация видео ==
Строка 41: Строка 40:
== Общественные науки ==
== Общественные науки ==
-
Метод главных компонент — один из основных инструментов [[эконометрика|эконометрики]]. Он применяется для: (1) наглядного представления данных; (2) обеспечения лаконизма моделей, упрощения счета и интерпретации; (3) сжатия объемов хранимой информации. Метод обеспечивает максимальную информативность и минимальное искажение геометрической структуры исходных данных. В [[социология|социологии]] метод небходим для решения первых двух основных задач<ref>''Гуц А. К., Фролова Ю. В.'', Математические методы в социологии, Серия: Синергетика: от прошлого к будущему. — Издательство «УРСС», 2007. — 216 с.</ref>: (1) анализ данных (описание результатов опросов или других исследований, представленных в виде массивов числовых данных); (2) описание социальных явлений (построение моделей явлений, в том числе и математических моделей). В [[Политология|политологии]] метод главных компонент был основным инструментом проекта [http://worldpolities.org/ «Политический Атлас Современности»]<ref>Политический атлас современности: Опыт многомерного статистического анализа политических систем современных государств. — М.: Изд-во «МГИМО-Университет», 2007. — 272 с.</ref> для линейного и [http://pca.narod.ru/AtlasCartography2006.pdf нелинейного анализа рейтингов] 192 стран мира по пяти специально разработанным интегральным индексам (уровня жизни, международного влияния, угроз, государственности и демократии). Для картографии результатов этого анализа разработана [http://atlas.savvy.ru/ специальная ГИС] ([[Геоинформационная система]]), объединяющая географическое пространство с пространством признаков.
+
Метод главных компонент — один из основных инструментов [http://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D0%BE%D0%BD%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D0%BA%D0%B0 эконометрики]. Он применяется для: (1) наглядного представления данных; (2) обеспечения лаконизма моделей, упрощения счета и интерпретации; (3) сжатия объемов хранимой информации. Метод обеспечивает максимальную информативность и минимальное искажение геометрической структуры исходных данных. В [http://ru.wikipedia.org/wiki/%D0%A1%D0%BE%D1%86%D0%B8%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F социологии] метод небходим для решения первых двух основных задач<ref>''Гуц А. К., Фролова Ю. В.'', Математические методы в социологии, Серия: Синергетика: от прошлого к будущему. — Издательство «УРСС», 2007. — 216 с.</ref>: (1) анализ данных (описание результатов опросов или других исследований, представленных в виде массивов числовых данных); (2) описание социальных явлений (построение моделей явлений, в том числе и математических моделей).
 +
 
 +
В [http://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%BB%D0%B8%D1%82%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F политологии] метод главных компонент был основным инструментом проекта [http://worldpolities.org/ «Политический Атлас Современности»]<ref>Политический атлас современности: Опыт многомерного статистического анализа политических систем современных государств. — М.: Изд-во «МГИМО-Университет», 2007. — 272 с.</ref> для линейного и [http://pca.narod.ru/AtlasCartography2006.pdf нелинейного анализа рейтингов] 192 стран мира по пяти специально разработанным интегральным индексам (уровня жизни, международного влияния, угроз, государственности и демократии). Для картографии результатов этого анализа разработана [http://pca.narod.ru/politatlas/index.html специальная ГИС] ([http://ru.wikipedia.org/wiki/%D0%93%D0%B5%D0%BE%D0%B8%D0%BD%D1%84%D0%BE%D1%80%D0%BC%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%BD%D0%B0%D1%8F_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0 Геоинформационная система]), объединяющая географическое пространство с пространством признаков. Также созданы [http://pca.narod.ru/politatlas/datamap.html карты данных политического атласа], использующие в качестве подложки двумерные главные многообразия в пятимерном пространстве стран. Отличие карты данных от географической карты заключается в том, что на географической карте рядом оказываются объекты, которые имеют сходные географические координаты, в то время как на карте данных рядом оказываются объекты (страны) с похожими признаками (индексами).
== Сокращение размерности динамических моделей ==
== Сокращение размерности динамических моделей ==
-
''Проклятие размерности'' (англ. [http://en.wikipedia.org/wiki/Curse_of_dimensionality Curse of dimensionality]}}) затрудняет моделирование сложных систем. Сокращение размерности модели — необходимое условие успеха моделирования. Для достижения этой цели создана разветвленная математическая технология. Метод главных компонент также используется в этих задачах (часто под названием ''истинное'' или ''собственное ортогональное разложение'' — англ. proper orthogonal decomposition (POD)). Например, при описании динамики [[турбулентность|турбулентности]] динамические переменные — поле скоростей — принадлежат бесконечномерному пространству (или, если предствлять поле его значениями на достаточно мелкой сетке, — конечномерному пространству большой размерности). Можно набрать большую коллекцию мгновенных значений полей и применить к этому множеству многомерных «векторов данных» метод главных компонент. Эти главные компоненты называются также ''эмпирические [[собственные векторы]]''. В некоторых случаях (''структурная турбулентность'') метод дает впечатляющее сокращение размерности<ref>''Berkooz G, Holmes Ph., and. Lumley J. L'', The proper orthogonal decomposition in the analysis of turbulent flows, Annu. Rev. Fluid Mech. 25 (1993), 539—575. Первая публикация для анализа турбулентности — ''Lumley, J. L.'', The structure of inhomogeneous turbulence. In Atmospheric Turbulence and Wave Propagation, ed. A. M. Yaglom, V. I. Tatarski, pp. 166—178. Moscow: Nauka, 1967. (Атмосферная турбулентность и распространение радиоволн. Труды Международного коллоквиума. Москва, 15—22 июня 1965 г. Под ред. А. М. Яглома и В. И. Татарского. М.: Наука, 1967, 374 стр. с илл. и карт. (АН СССР. Междувед. геофиз. ком. Ин-т физики атмосферы). Интересно, что авторы этих работ возводят историю своего подхода к работам Косамби (англ. Kosambi) (1943), Лоэва (англ. Loeve) (1945), Кархунена (англ. Karhunen) (1946), Пугачева (англ. Pougachev) (1953), и Обухова (англ. Obukhov) (1954), потеряв совершенно Пирсона и 40 лет предшествующей истории метода.</ref> Другие области применения этой техники сокращения динамических моделей чрезвычайно разнообразны — от теоретических основ [[Химическая технология|химической технологии]] (англ. chemical engineering science) до [[Океанология|океанологии]] и [[Климатология|климатологии]].
+
''Проклятие размерности'' (англ. [http://en.wikipedia.org/wiki/Curse_of_dimensionality Curse of dimensionality]}}) затрудняет моделирование сложных систем. Сокращение размерности модели — необходимое условие успеха моделирования. Для достижения этой цели создана разветвленная математическая технология. Метод главных компонент также используется в этих задачах (часто под названием ''истинное'' или ''собственное ортогональное разложение'' — англ. proper orthogonal decomposition (POD)). Например, при описании динамики [[турбулентность|турбулентности]] динамические переменные — поле скоростей — принадлежат бесконечномерному пространству (или, если предствлять поле его значениями на достаточно мелкой сетке, — конечномерному пространству большой размерности). Можно набрать большую коллекцию мгновенных значений полей и применить к этому множеству многомерных «векторов данных» метод главных компонент. Эти главные компоненты называются также ''эмпирические [[собственные векторы]]''. В некоторых случаях (''структурная турбулентность'') метод дает впечатляющее сокращение размерности<ref>''Berkooz G, Holmes Ph., and. Lumley J. L'', [http://pca.narod.ru/ProOrthDecHydroAnnurev1993.pdf The proper orthogonal decomposition in the analysis of turbulent flows], Annu. Rev. Fluid Mech. 25 (1993), 539—575. (На сайте [http://pca.narod.ru/ PCA]) Первая публикация для анализа турбулентности — ''Lumley, J. L.'', The structure of inhomogeneous turbulence. In Atmospheric Turbulence and Wave Propagation, ed. A. M. Yaglom, V. I. Tatarski, pp. 166—178. Moscow: Nauka, 1967. (Атмосферная турбулентность и распространение радиоволн. Труды Международного коллоквиума. Москва, 15—22 июня 1965 г. Под ред. А. М. Яглома и В. И. Татарского. М.: Наука, 1967, 374 стр. с илл. и карт. (АН СССР. Междувед. геофиз. ком. Ин-т физики атмосферы). Интересно, что авторы этих работ возводят историю своего подхода к работам Косамби (англ. Kosambi) (1943), Лоэва (англ. Loeve) (1945), Кархунена (англ. Karhunen) (1946), Пугачева (англ. Pougachev) (1953), и Обухова (англ. Obukhov) (1954), потеряв совершенно Пирсона и 40 лет предшествующей истории метода.</ref> Другие области применения этой техники сокращения динамических моделей чрезвычайно разнообразны — от теоретических основ [[Химическая технология|химической технологии]] (англ. chemical engineering science) до [[Океанология|океанологии]] и [[Климатология|климатологии]].
== Литература ==
== Литература ==
Строка 63: Строка 64:
* [http://csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf A tutorial on Principal Components Analysis], Lindsay I Smith, 2002
* [http://csnet.otago.ac.nz/cosc453/student_tutorials/principal_components.pdf A tutorial on Principal Components Analysis], Lindsay I Smith, 2002
* [http://pca.narod.ru Нелинейный метод главных компонент] (сайт-библиотека)
* [http://pca.narod.ru Нелинейный метод главных компонент] (сайт-библиотека)
 +
* [http://ru.wikipedia.org/wiki/Метод_главных_компонент Метод главных компонент на wikipedia.org]
== Примечания ==
== Примечания ==
<references/>
<references/>
 +
 +
''Незарегистрированные пользователи не видят примечаний и основных литературных ссылок (дефект системы). Зарегистрироваться безопасно и просто.''
{{Заготовка}}
{{Заготовка}}
[[Категория:Метод главных компонент]]
[[Категория:Метод главных компонент]]
-
[[Категория:Регрессионный анализ]]
 
-
[[Категория:Интеллектуальный анализ данных]]
 
-
[[Категория:Машинное обучение]]
 
[[Категория:Энциклопедия анализа данных]]
[[Категория:Энциклопедия анализа данных]]

Текущая версия

Метод главных компонент - наиболее популярный метод сокращения размерности во многих приложениях.

Содержание

Визуализация данных

Визуализация данных – представление в наглядной форме данных эксперимента или результатов теоретического исследования.

Первым выбором в визуализации множества данных является ортогональное проецирование на плоскость первых двух главных компонент (или 3-мерное пространство первых трёх главных компонент). Плоскость проектирования является, по сути плоским двумерным «экраном», расположенным таким образом, чтобы обеспечить «картинку» данных с наименьшими искажениями. Такая проекция будет оптимальна (среди всех ортогональных проекций на разные двумерные экраны) в трех отношениях:

  1. Минимальна сумма квадратов расстояний от точек данных до проекций на плоскость первых главных компонент, то есть экран расположен максимально близко по отношению к облаку точек.
  2. Минимальна сумма искажений квадратов расстояний между всеми парами точек из облака данных после проецирования точек на плоскость.
  3. Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести».

Визуализация данных является одним из наиболее широко используемых приложений метода главных компонент и его нелинейных обобщений[1].

Компрессия изображений и видео

Для уменьшения пространственной избыточности пикселей при кодировании изображений и видео используется линейные преобразования блоков пикселей. Последующие квантования полученных коэффициентов и кодирование без потерь позволяют получить значительные коэффициенты сжатия. Использование преобразования PCA в качестве линейного преобразования является для некоторых типов данных оптимальным с точки зрения размера полученных данных при одинаковом искажении [1]. На данный момент этот метод активно не используется, в основном из-за большой вычислительной сложности. Также сжатия данных можно достичь отбрасывая последние коэффициенты преобразования.

Подавление шума на изображениях

Основная суть метода[1] — при удалении шума из блока пикселей представить окрестность этого блока в виде набора точек в многомерном пространстве, применить к нему PCA и оставить только первые компоненты преобразования. При этом предполагается, что в первых компонентах содержится основная полезная информация, оставшиеся же компоненты содержат ненужный шум. Применив обратное преобразование после редукции базиса главных компонент, мы получим изображение без шума.

Индексация видео

Основная идея — представить при помощи PCA каждый кадр видео несколькими значениями, которые в дальнейшем будут использоваться при построении базы данных и запросам к ней. Столь существенная редукция данных позволяет значительно увеличить скорость работы и устойчивость к ряду искажений в видео.

Биоинформатика

Рис. А. Проекция ДНК-блуждания на первые 2 главные компоненты для генома бактерии Streptomyces coelicolor
Рис. А. Проекция ДНК-блуждания на первые 2 главные компоненты для генома бактерии Streptomyces coelicolor
Рис. Б. Проекция ДНК-блуждания на первые 3 главные компоненты для генома бактерии Streptomyces coelicolor. Вращение применяется для визуализации трехмерной конфигурации
Рис. Б. Проекция ДНК-блуждания на первые 3 главные компоненты для генома бактерии Streptomyces coelicolor. Вращение применяется для визуализации трехмерной конфигурации

Метод главных компонент интенсивно используется в биоинформатике для сокращения размерности описания, выделения значимой информации, визуализации данных и др. Один из распространнённых вариантов использования — анализ соответствий (англ. Correspondence Analysis)[1][1]. На иллюстрациях (Рис. А, Б) генетический текст (см. статью Трансляция (биология)) представлен как множество точек в 64-мерном пространстве частот триплетов. Каждая точка соответствует фрагменту ДНК в скользящем окне длиной 300 нуклеотидов (ДНК-блуждание). Этот фрагмент разбивается на неперекрывающиеся триплеты, начиная с первой позиции. Относительные частоты этих триплетов в фрагменте и составляют 64-мерный вектор. На Рис. А представлена проекция на первые 2 главные компоненты для генома бактерии Streptomyces coelicolor. На Рис. Б представлена проекция на первые 3 главные комроненты. Оттенками красного и коричневого выделены фрагменты кодирующих последовательностей в прямой цепи ДНК, а оттенками зеленого выделены фрагменты кодирующих последовательностей в обратной цепи ДНК. Черным помечены фрагменты, принадлежащие некодирующей части. Анализ методом главных компонент большинства известных бактериальных геномов представлен на специализированном сайте[1].

Хемометрика

Метод главных компонент — один из основных методов в хемометрике (англ. Chemometrics). Позволяет разделить матрицу исходных данных X на две части: «содержательную» и «шум». По наиболее популярному определению [1] «Хемометрика — это химическая дисциплина, применяющая математические, статистические и другие методы, основанные на формальной логике, для построения или отбора оптимальных методов измерения и планов эксперимента, а также для извлечения наиболее важной информации при анализе экспериментальных данных».

Психодиагностика

Психодиагностика является одной из наиболее разработанных областей приложения метода главных компонент [1]. Стратегия использования основывается на гипотезе об автоинформативности экспериментальных данных, которая подразумевает, что диагностическую модель можно создать путем аппроксимации геометрической структуры множества объектов в пространстве исходных признаков. Хорошую линейную диагностическую модель удается построить, когда значительная часть исходных признаков внутренне согласованна. Если эта внутренняя согласованность отражает искомый психологический конструкт, то параметры линейной диагностической модели (веса признаков) дает метод главных компонент.

Общественные науки

Метод главных компонент — один из основных инструментов эконометрики. Он применяется для: (1) наглядного представления данных; (2) обеспечения лаконизма моделей, упрощения счета и интерпретации; (3) сжатия объемов хранимой информации. Метод обеспечивает максимальную информативность и минимальное искажение геометрической структуры исходных данных. В социологии метод небходим для решения первых двух основных задач[1]: (1) анализ данных (описание результатов опросов или других исследований, представленных в виде массивов числовых данных); (2) описание социальных явлений (построение моделей явлений, в том числе и математических моделей).

В политологии метод главных компонент был основным инструментом проекта «Политический Атлас Современности»[1] для линейного и нелинейного анализа рейтингов 192 стран мира по пяти специально разработанным интегральным индексам (уровня жизни, международного влияния, угроз, государственности и демократии). Для картографии результатов этого анализа разработана специальная ГИС (Геоинформационная система), объединяющая географическое пространство с пространством признаков. Также созданы карты данных политического атласа, использующие в качестве подложки двумерные главные многообразия в пятимерном пространстве стран. Отличие карты данных от географической карты заключается в том, что на географической карте рядом оказываются объекты, которые имеют сходные географические координаты, в то время как на карте данных рядом оказываются объекты (страны) с похожими признаками (индексами).

Сокращение размерности динамических моделей

Проклятие размерности (англ. Curse of dimensionality}}) затрудняет моделирование сложных систем. Сокращение размерности модели — необходимое условие успеха моделирования. Для достижения этой цели создана разветвленная математическая технология. Метод главных компонент также используется в этих задачах (часто под названием истинное или собственное ортогональное разложение — англ. proper orthogonal decomposition (POD)). Например, при описании динамики турбулентности динамические переменные — поле скоростей — принадлежат бесконечномерному пространству (или, если предствлять поле его значениями на достаточно мелкой сетке, — конечномерному пространству большой размерности). Можно набрать большую коллекцию мгновенных значений полей и применить к этому множеству многомерных «векторов данных» метод главных компонент. Эти главные компоненты называются также эмпирические собственные векторы. В некоторых случаях (структурная турбулентность) метод дает впечатляющее сокращение размерности[1] Другие области применения этой техники сокращения динамических моделей чрезвычайно разнообразны — от теоретических основ химической технологии (англ. chemical engineering science) до океанологии и климатологии.

Литература

Основные руководства (стандарт де-факто)

  • Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности.— М.: Финансы и статистика, 1989.— 607 с.
  • Рао С. Р., Линейные статистические методы и их применения.— М.: Наука (Физматлит), 1968.— 548 с.
  • Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4

Сборник современных обзоров

Ссылки

Примечания


Незарегистрированные пользователи не видят примечаний и основных литературных ссылок (дефект системы). Зарегистрироваться безопасно и просто.