Обучение с учителем

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: '''Обуче́ние с учи́телем''' (Supervised learning) — один из разделов машинного обучения, пос...)
м
 
(8 промежуточных версий не показаны.)
Строка 1: Строка 1:
-
'''Обуче́ние с учи́телем''' (Supervised learning) — один из разделов [[машинное обучение|машинного обучения]], посвященный решению следующей задачи. Имеется множество ''объектов'' (ситуаций) и множество возможных ''ответов'' (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она не известна. Известна только конечная совокупность ''прецедентов'' — пар «объект, ответ», называемая ''[[обучающая выборка|обучающей выборкой]]''. На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определённым образом вводится ''функционал качества''.
+
'''Обучение с учителем''' (Supervised learning) — один из разделов [[машинное обучение|машинного обучения]], посвященный решению следующей задачи. Имеется множество ''объектов'' (ситуаций) и множество возможных ''ответов'' (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она неизвестна. Известна только конечная совокупность ''прецедентов'' — пар «объект, ответ», называемая ''[[обучающая выборка|обучающей выборкой]]''. На основе этих данных требуется восстановить зависимость, то есть построить [[алгоритм]], способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определённым образом вводится ''функционал качества''.
Под ''учителем'' понимается либо сама [[обучающая выборка]], либо тот, кто указал на заданных объектах правильные ответы. Существует также [[обучение без учителя]], когда на объектах выборки ответы не задаются.
Под ''учителем'' понимается либо сама [[обучающая выборка]], либо тот, кто указал на заданных объектах правильные ответы. Существует также [[обучение без учителя]], когда на объектах выборки ответы не задаются.
Строка 7: Строка 7:
=== Типы входных данных ===
=== Типы входных данных ===
-
* [[Признаковое описание]] — наиболее распространённый случай. Каждый объект описывается набором своих характеристик, называемых ''признаками''. [[Признак]]и могут быть числовыми или нечисловыми.
+
* [[Признаковое описание]] или [[матрица объекты-признаки]] — наиболее распространённый случай. Каждый объект описывается набором своих характеристик, называемых ''признаками''. [[Признак]]и могут быть числовыми или нечисловыми.
* [[Матрица расстояний]] между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки. С этим типом входных данных работают немногие методы, в частности, [[метод ближайших соседей]], [[метод парзеновского окна]], [[метод потенциальных функций]].
* [[Матрица расстояний]] между объектами. Каждый объект описывается расстояниями до всех остальных объектов обучающей выборки. С этим типом входных данных работают немногие методы, в частности, [[метод ближайших соседей]], [[метод парзеновского окна]], [[метод потенциальных функций]].
* [[Временной ряд]] или [[сигнал]] представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.
* [[Временной ряд]] или [[сигнал]] представляет собой последовательность измерений во времени. Каждое измерение может представляться числом, вектором, а в общем случае — признаковым описанием исследуемого объекта в данный момент времени.
* [[Изображение]] или [[видеоряд]].
* [[Изображение]] или [[видеоряд]].
-
* Встречаются и более сложные случаи, когда входные данные представляются в виде графов, текстов, результатов запросов к [[база данных|базе данных]], и т. д. Как правило, они приводятся к первому или второму случаю путём [[предварительная обработка данных|предварительной обработки данных]] и [[извлечение признаков|извлечения признаков]].
+
* Встречаются и более сложные случаи, когда входные данные представляются в виде графов, текстов, результатов запросов к [[база данных|базе данных]], {{S|и т. д.}} Как правило, они приводятся к первому или второму случаю путём [[предварительная обработка данных|предварительной обработки данных]] и [[извлечение признаков|извлечения признаков]].
=== Типы откликов ===
=== Типы откликов ===
* Задачи [[классификация|классификации]] — множество возможных ответов конечно. Их называют идентификаторами (именами, метками) классов.
* Задачи [[классификация|классификации]] — множество возможных ответов конечно. Их называют идентификаторами (именами, метками) классов.
-
* Задачи [[ререссия|регрессии]] — ответы являются действительными числами или векторами.
+
* Задачи [[регрессия|регрессии]] — ответы являются действительными числами или векторами.
== Обучение с учителем: формальная постановка ==
== Обучение с учителем: формальная постановка ==
-
Пусть <math>X~</math> — множество описаний объектов,
+
Пусть <tex>X</tex> — множество описаний объектов,
-
<math>Y~</math> — множество допустимых ответов.
+
<tex>Y</tex> — множество допустимых ответов.
Существует неизвестная ''целевая зависимость'' — отображение
Существует неизвестная ''целевая зависимость'' — отображение
-
<math>y^{*}\colon X\to Y</math>,
+
<tex>y^{*}: X\to Y</tex>,
значнения которой известны только на объектах конечной [[обучающая выборка|обучающей выборки]]
значнения которой известны только на объектах конечной [[обучающая выборка|обучающей выборки]]
-
<math>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}</math>.
+
<tex>X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}</tex>.
-
Требуется построить алгоритм
+
Требуется построить [[алгоритм]]
-
<math>a\colon X\to Y</math>,
+
<tex>a: X\to Y</tex>,
-
который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве <math>X~</math>.
+
который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве <tex>X</tex>.
Говорят также, что алгоритм должен обладать [[обобщающая способность|способностью к обобщению]] эмпирических фактов, или выводить общее знание ([[закономерность]], [[зависимость]]) из частных фактов (наблюдений, [[прецедент]]ов).
Говорят также, что алгоритм должен обладать [[обобщающая способность|способностью к обобщению]] эмпирических фактов, или выводить общее знание ([[закономерность]], [[зависимость]]) из частных фактов (наблюдений, [[прецедент]]ов).
 +
 +
Данная постановка является обобщением классических задач [[аппроксимация|аппроксимации]] функций. {{S|В классической}} аппроксимации объектами являются действительные числа или векторы. {{S|В реальных}} прикладных задачах входные данные об объектах могуть быть неполными, неточными, неоднородными, нечисловыми. Эти особенности приводят к большому разнообразию методов ''обучения с учителем''.
=== Функции потерь и функционалы качества ===
=== Функции потерь и функционалы качества ===
Вводится [[функция потерь]]
Вводится [[функция потерь]]
-
<math>{\mathcal L}(y,y')</math>,
+
<tex>{\mathcal L}(y,y')</tex>,
характеризующая величину отклонения ответа
характеризующая величину отклонения ответа
-
<math>y=a(x)~</math>
+
<tex>y=a(x)</tex>
от правильного ответа
от правильного ответа
-
<math>y'=y^{*}(x)~</math>
+
<tex>y'=y^{*}(x)</tex>
-
на произвольном объекте <math>x\in X</math>.
+
на произвольном объекте <tex>x\in X</tex>.
Типичный выбор функции потерь:
Типичный выбор функции потерь:
-
* В задачах классификации <math>{\mathcal L}(y,y') = [y'\neq y]~</math>;
+
* В задачах классификации <tex>{\mathcal L}(y,y') = [y'\neq y]</tex>;
-
* В задачах регрессии <math>{\mathcal L}(y,y') = (y'-y)^2~</math>.
+
* В задачах регрессии <tex>{\mathcal L}(y,y') = (y'-y)^2</tex>.
Вводится функционал качества, характеризующий среднюю ошибку (''[[эмпирический риск]]'') алгоритма
Вводится функционал качества, характеризующий среднюю ошибку (''[[эмпирический риск]]'') алгоритма
-
<math>a~</math>
+
<tex>a</tex>
на произвольной выборке
на произвольной выборке
-
<math>X^m~</math>
+
<tex>X^m</tex>
-
: <math>Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L}(a(x_i),y^{*}(x_i)).</math>
+
: <tex>Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L}(a(x_i),y^{*}(x_i)).</tex>
''Метод [[минимизация эмпирического риска|минимизации эмпирического риска]]'' — один из наиболее распространённых подходов к обучению алгоритмов по прецедентам. Он заключается в том, чтобы в заданной ''модели алгоритмов''
''Метод [[минимизация эмпирического риска|минимизации эмпирического риска]]'' — один из наиболее распространённых подходов к обучению алгоритмов по прецедентам. Он заключается в том, чтобы в заданной ''модели алгоритмов''
-
<math>A= \{a\colon X\to Y\}</math>
+
<tex>A= \{a: X\to Y\}</tex>
-
найти алгоритм, минимизирующий среднюю ошибку на обучающей выборке:
+
найти [[алгоритм]], минимизирующий среднюю ошибку на обучающей выборке:
-
: <math>a = \mathrm{arg}\min_{a\in A} Q(a,X^m).</math>
+
: <tex>a = \mathrm{arg}\min_{a\in A} Q(a,X^m).</tex>
Тем самым задача обучения сводится к оптимизации и может быть решена численными методами оптимизации.
Тем самым задача обучения сводится к оптимизации и может быть решена численными методами оптимизации.
Строка 61: Строка 63:
К сожалению, малое значение функционала качества на обучающей выборке не гарантирует, что построенный алгоритм будет хорошо восстанавливать целевую зависимость на всём пространстве
К сожалению, малое значение функционала качества на обучающей выборке не гарантирует, что построенный алгоритм будет хорошо восстанавливать целевую зависимость на всём пространстве
-
<math>X</math>. Существует опасность ''переподгонки'' или ''[[переобучение|переобучения]]'', когда делается попытка описать конкретные данные точнее, чем в принципе позволяет уровень шума в данных и погрешность самой модели.
+
<tex>X</tex>. Существует опасность ''переподгонки'' или ''[[переобучение|переобучения]]'', когда делается попытка описать конкретные данные точнее, чем в принципе позволяет уровень шума в данных и погрешность самой модели.
-
Легко указать пример алгоритма, который минимизирует эмпирический риск до нуля, но при этом не обладает способностью к обобщению. Получив обучающую выборку <math>X^m~</math>, он запоминает её, и потом сравнивает предъявляемый объект <math>x~</math> с обучающими объектами <math>x_i~</math> из <math>X^m~</math>. В случае совпадения <math>x=x_i~</math> алгоритм выдаёт правильный ответ <math>y_i~</math>. Иначе выдаётся произвольный ответ. Эмпирический риск принимает наименьшее возможное значение, равное нулю. Однако этот алгоритм не способен восстановить зависимость вне объектов обучения. Этот пример убедительно показывает, что для успешного обучения необходимо не только запоминать, но и обобщать.
+
Легко указать пример алгоритма, который минимизирует эмпирический риск до нуля, но при этом не обладает способностью к обобщению. Получив обучающую выборку <tex>X^m</tex>, он запоминает её, и потом сравнивает предъявляемый объект <tex>x</tex> с обучающими объектами <tex>x_i</tex> из <tex>X^m</tex>. В случае совпадения <tex>x=x_i</tex> [[алгоритм]] выдаёт правильный ответ <tex>y_i</tex>. Иначе выдаётся произвольный ответ. Эмпирический риск принимает наименьшее возможное значение, равное нулю. Однако этот алгоритм не способен восстановить зависимость вне объектов обучения. Этот пример убедительно показывает, что для успешного обучения необходимо не только запоминать, но и обобщать.
-
Практически в каждом методе предпринимаются специальные усилия, чтобы избежать переобучения. границы применимости метода минимизации эмпирического риска и проблему переобучения изучает ''[[статистическая теория обучения]]''.
+
Практически в каждом методе предпринимаются специальные усилия, чтобы избежать переобучения. границы применимости метода минимизации эмпирического риска и проблему переобучения изучает ''[[теория вычислительного обучения]]''.
=== Признаковое пространство ===
=== Признаковое пространство ===
''[[Признак]]ом'' называется отображение
''[[Признак]]ом'' называется отображение
-
<math>f\colon X\to D_f~</math>,
+
<tex>f: X\to D_f</tex>,
где
где
-
<math>D_f~</math>&nbsp;множество допустимых значений признака.
+
<tex>D_f</tex>&nbsp;- множество допустимых значений признака.
Если заданы признаки
Если заданы признаки
-
<math>f_1,\dots,f_n~</math>,
+
<tex>f_1,\ldots,f_n</tex>,
то вектор
то вектор
-
<math>{\mathbf x} = (f_1(x),\dots,f_n(x))</math>
+
<tex>{\mathbf x} = (f_1(x),\ldots,f_n(x))</tex>
называется ''признаковым описанием'' объекта
называется ''признаковым описанием'' объекта
-
<math>x\in X</math>.
+
<tex>x\in X</tex>.
[[Признаковое описание|Признаковые описания]] допустимо отождествлять с самими объектами.
[[Признаковое описание|Признаковые описания]] допустимо отождествлять с самими объектами.
При этом множество
При этом множество
-
<math>X = D_{f_1}\times\dots\times D_{f_n}</math>
+
<tex>X = D_{f_1}\times\dots\times D_{f_n}</tex>
называют ''признаковым пространством''.
называют ''признаковым пространством''.
-
В зависимости от множества <math>D_f</math> признаки делятся на следующие типы:
+
В зависимости от множества <tex>D_f</tex> признаки делятся на следующие типы:
-
* ''бинарный'' признак: <math>D_f=\{0,1\}</math>;
+
* ''бинарный'' признак: <tex>D_f=\{0,1\}</tex>;
-
* ''номинальный'' признак: <math>D_f</math> — конечное множество;
+
* ''номинальный'' признак: <tex>D_f</tex> — конечное множество;
-
* ''порядковый'' признак: <math>D_f</math> — конечное упорядоченное множество;
+
* ''порядковый'' признак: <tex>D_f</tex> — конечное упорядоченное множество;
-
* ''количественный'' признак: <math>D_f</math> — множество действительных чисел.
+
* ''количественный'' признак: <tex>D_f</tex> — множество действительных чисел.
-
Часто встречаются прикладные задачи с разнотипными признаками, для их решения подходят далеко не все методы.
+
Часто встречаются прикладные задачи с разнотипными признаками, для их решения подходят далеко не все методы.
== Примеры прикладных задач ==
== Примеры прикладных задач ==
Строка 165: Строка 167:
«хороших» и «плохих».
«хороших» и «плохих».
Кредиты выдаются только заёмщикам первого класса.
Кредиты выдаются только заёмщикам первого класса.
-
В&nbsp;более сложном случае оценивается суммарное число баллов (score{{ref-en}}) заёмщика,
+
В&nbsp;более сложном случае оценивается суммарное число баллов (score) заёмщика,
набранных по совокупности информативных признаков.
набранных по совокупности информативных признаков.
Чем выше оценка, тем более надёжным считается заёмщик.
Чем выше оценка, тем более надёжным считается заёмщик.
Строка 210: Строка 212:
=== Принятие инвестиционных решений на финансовом рынке ===
=== Принятие инвестиционных решений на финансовом рынке ===
-
В&nbsp;этой задаче умение хорошо прогнозировать
+
В&nbsp;этой задаче умение хорошо прогнозировать самым непосредственным образом превращается в прибыль.
-
самым непосредственным образом превращается в прибыль.
+
Если инвестор предполагает, что цена акции вырастет, он покупает акции, надеясь продать их позже по более высокой цене.
-
Если инвестор предполагает, что цена акции вырастет, он покупает акции,
+
И,&nbsp;наоборот, прогнозируя падение цен, инвестор продаёт акции, чтобы впоследствии выкупить их обратно по более низкой цене.
-
надеясь продать их позже по более высокой цене.
+
Задача инвестора-спекулянта в том, чтобы правильно предугадать направление будущего изменения цены&nbsp;— роста или падения.
-
И,&nbsp;наоборот, прогнозируя падение цен,
+
Большой популярностью пользуются автоматические торговые стратегии&nbsp;-алгоритмы, принимающие торговые решения без участия человека.
-
инвестор продаёт акции, чтобы впоследствии выкупить
+
Разработка такого алгоритма&nbsp;— тоже задача обучения с учителем. В&nbsp;роли объектов выступают ситуации, фактически, моменты времени.
-
их обратно по более низкой цене.
+
Описание объекта&nbsp;— это вся предыстория изменения цен и объёмов торгов, зафиксированная к данному моменту.
-
Задача инвестора-спекулянта в том, чтобы правильно предугадать
+
В&nbsp;простейшем случае объекты необходимо классифицировать на три класса, соответствующих возможным решениям: купить, продать или выжидать.
-
направление будущего изменения цены&nbsp;— роста или падения.
+
Обучающей выборкой для настройки торговых стратегий служат исторические данные о движении цен и объёмов за некоторый промежуток времени.
-
Большой популярностью пользуются автоматические торговые стратегии&nbsp;
+
Критерий качества в данной задаче существенно отличается от стандартного функционала средней ошибки, поскольку инвестора интересует не точность прогнозирования, а максимизация итоговой прибыли. Современный биржевой [[технический анализ]] насчитывает сотни параметрических торговых стратегий,
-
алгоритмы, принимающие торговые решения без участия человека.
+
параметры которых принято настраивать по критерию максимума прибыли на выбранном интервале истории.
-
Разработка такого алгоритма&nbsp;— тоже задача обучения с учителем.
+
-
В&nbsp;роли объектов выступают ситуации, фактически, моменты времени.
+
-
Описание объекта&nbsp;— это вся предыстория изменения цен и объёмов торгов,
+
-
зафиксированная к данному моменту.
+
-
В&nbsp;простейшем случае объекты необходимо классифицировать на три класса,
+
-
соответствующих возможным решениям: купить, продать или выжидать.
+
-
Обучающей выборкой для настройки торговых стратегий служат
+
-
исторические данные о движении цен и объёмов
+
-
за некоторый промежуток времени.
+
-
Критерий качества в данной задаче существенно отличается
+
-
от стандартного функционала средней ошибки, поскольку
+
-
инвестора интересует не точность прогнозирования,
+
-
а максимизация итоговой прибыли.
+
-
Современный биржевой [[технический анализ]]
+
-
насчитывает сотни параметрических торговых стратегий,
+
-
параметры которых принято настраивать
+
-
по критерию максимума прибыли на выбранном интервале истории.
+
== Методы решения ==
== Методы решения ==
Строка 251: Строка 236:
** [[Перцептрон|персептрон]];
** [[Перцептрон|персептрон]];
** [[многослойный персептрон]];
** [[многослойный персептрон]];
 +
** [[Нейронная сеть Кохонена|сети векторного квантования, обучаемые с учителем]] (Learning Vector Quantization);
** [[гибридная сеть встречного распространения]];
** [[гибридная сеть встречного распространения]];
Строка 303: Строка 289:
== Категории ==
== Категории ==
[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]
 +
[[Категория:Энциклопедия анализа данных]]

Текущая версия

Обучение с учителем (Supervised learning) — один из разделов машинного обучения, посвященный решению следующей задачи. Имеется множество объектов (ситуаций) и множество возможных ответов (откликов, реакций). Существует некоторая зависимость между ответами и объектами, но она неизвестна. Известна только конечная совокупность прецедентов — пар «объект, ответ», называемая обучающей выборкой. На основе этих данных требуется восстановить зависимость, то есть построить алгоритм, способный для любого объекта выдать достаточно точный ответ. Для измерения точности ответов определённым образом вводится функционал качества.

Под учителем понимается либо сама обучающая выборка, либо тот, кто указал на заданных объектах правильные ответы. Существует также обучение без учителя, когда на объектах выборки ответы не задаются.

Содержание

Типология задач обучения с учителем

Типы входных данных

Типы откликов

  • Задачи классификации — множество возможных ответов конечно. Их называют идентификаторами (именами, метками) классов.
  • Задачи регрессии — ответы являются действительными числами или векторами.

Обучение с учителем: формальная постановка

Пусть X — множество описаний объектов, Y — множество допустимых ответов. Существует неизвестная целевая зависимость — отображение y^{*}: X\to Y, значнения которой известны только на объектах конечной обучающей выборки X^m = \{(x_1,y_1),\dots,(x_m,y_m)\}. Требуется построить алгоритм a: X\to Y, который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве X.

Говорят также, что алгоритм должен обладать способностью к обобщению эмпирических фактов, или выводить общее знание (закономерность, зависимость) из частных фактов (наблюдений, прецедентов).

Данная постановка является обобщением классических задач аппроксимации функций. В классической аппроксимации объектами являются действительные числа или векторы. В реальных прикладных задачах входные данные об объектах могуть быть неполными, неточными, неоднородными, нечисловыми. Эти особенности приводят к большому разнообразию методов обучения с учителем.

Функции потерь и функционалы качества

Вводится функция потерь {\mathcal L}(y,y'), характеризующая величину отклонения ответа y=a(x) от правильного ответа y'=y^{*}(x) на произвольном объекте x\in X.

Типичный выбор функции потерь:

  • В задачах классификации {\mathcal L}(y,y') = [y'\neq y];
  • В задачах регрессии {\mathcal L}(y,y') = (y'-y)^2.

Вводится функционал качества, характеризующий среднюю ошибку (эмпирический риск) алгоритма a на произвольной выборке X^m

Q(a,X^m) = \frac{1}{m} \sum_{i=1}^m {\mathcal L}(a(x_i),y^{*}(x_i)).

Метод минимизации эмпирического риска — один из наиболее распространённых подходов к обучению алгоритмов по прецедентам. Он заключается в том, чтобы в заданной модели алгоритмов A= \{a: X\to Y\} найти алгоритм, минимизирующий среднюю ошибку на обучающей выборке:

a = \mathrm{arg}\min_{a\in A} Q(a,X^m).

Тем самым задача обучения сводится к оптимизации и может быть решена численными методами оптимизации.

Обобщающая способность и проблема переобучения

К сожалению, малое значение функционала качества на обучающей выборке не гарантирует, что построенный алгоритм будет хорошо восстанавливать целевую зависимость на всём пространстве X. Существует опасность переподгонки или переобучения, когда делается попытка описать конкретные данные точнее, чем в принципе позволяет уровень шума в данных и погрешность самой модели.

Легко указать пример алгоритма, который минимизирует эмпирический риск до нуля, но при этом не обладает способностью к обобщению. Получив обучающую выборку X^m, он запоминает её, и потом сравнивает предъявляемый объект x с обучающими объектами x_i из X^m. В случае совпадения x=x_i алгоритм выдаёт правильный ответ y_i. Иначе выдаётся произвольный ответ. Эмпирический риск принимает наименьшее возможное значение, равное нулю. Однако этот алгоритм не способен восстановить зависимость вне объектов обучения. Этот пример убедительно показывает, что для успешного обучения необходимо не только запоминать, но и обобщать.

Практически в каждом методе предпринимаются специальные усилия, чтобы избежать переобучения. границы применимости метода минимизации эмпирического риска и проблему переобучения изучает теория вычислительного обучения.

Признаковое пространство

Признаком называется отображение f: X\to D_f, где D_f - множество допустимых значений признака. Если заданы признаки f_1,\ldots,f_n, то вектор {\mathbf x} = (f_1(x),\ldots,f_n(x)) называется признаковым описанием объекта x\in X. Признаковые описания допустимо отождествлять с самими объектами. При этом множество X = D_{f_1}\times\dots\times D_{f_n} называют признаковым пространством.

В зависимости от множества D_f признаки делятся на следующие типы:

  • бинарный признак: D_f=\{0,1\};
  • номинальный признак: D_f — конечное множество;
  • порядковый признак: D_f — конечное упорядоченное множество;
  • количественный признак: D_f — множество действительных чисел.

Часто встречаются прикладные задачи с разнотипными признаками, для их решения подходят далеко не все методы.

Примеры прикладных задач

Задачи медицинской диагностики

В роли объектов выступают пациенты. Признаки характеризуют результаты обследований, симптомы заболевания и применявшиеся методы лечения. Примеры бинарных признаков: пол, наличие головной боли, слабости. Порядковый признак — тяжесть состояния (удовлетворительное, средней тяжести, тяжёлое, крайне тяжёлое). Количественные признаки — возраст, пульс, артериальное давление, содержание гемоглобина в крови, доза препарата. Признаковое описание пациента является, по сути дела, формализованной историей болезни. Накопив достаточное количество прецедентов в электронном виде, можно решать различные задачи:

  • классифицировать вид заболевания (дифференциальная диагностика);
  • определять наиболее целесообразный способ лечения;
  • предсказывать длительность и исход заболевания;
  • оценивать риск осложнений;
  • находить синдромы — наиболее характерные для данного заболевания совокупности симптомов.

Ценность такого рода систем в том, что они способны мгновенно анализировать и обобщать огромное количество прецедентов — возможность, недоступная специалисту-врачу.

Предсказание месторождений полезных ископаемых

Признаками являются данные геологической разведки. Наличие или отсутствие тех или иных пород на территории района кодируется бинарными признаками. Физико-химические свойства этих пород могут описываться как количественными, так и качественными признаками. Обучающая выборка составляется из прецедентов двух классов: районов известных месторождений и похожих районов, в которых интересующее ископаемое обнаружено не было. При поиске редких полезных ископаемых количество объектов может оказаться намного меньше, чем количество признаков. В этой ситуации плохо работают классические статистические методы. Задача решается путём поиска закономерностей в имеющемся массиве данных. В процессе решения выделяются короткие наборы признаков, обладающие наибольшей информативностью — способностью наилучшим образом разделять классы. По аналогии с медицинской задачей, можно сказать, что отыскиваются «синдромы» месторождений. Это важный побочный результат исследования, представляющий значительный интерес для геофизиков и геологов.

Оценивание кредитоспособности заёмщиков

Эта задача решается банками при выдаче кредитов. Потребность в автоматизации процедуры выдачи кредитов впервые возникла в период бума кредитных карт 60-70-х годов в США и других развитых странах. Объектами в данном случае являются физические или юридические лица, претендующие на получение кредита. В случае физических лиц признаковое описание состоит из анкеты, которую заполняет сам заёмщик, и, возможно, дополнительной информации, которую банк собирает о нём из собственных источников. Примеры бинарных признаков: пол, наличие телефона. Номинальные признаки — место проживания, профессия, работодатель. Порядковые признаки — образование, занимаемая должность. Количественные признаки — сумма кредита, возраст, стаж работы, доход семьи, размер задолженностей в других банках. Обучающая выборка составляется из заёмщиков с известной кредитной историей. В простейшем случае принятие решений сводится к классификации заёмщиков на два класса: «хороших» и «плохих». Кредиты выдаются только заёмщикам первого класса. В более сложном случае оценивается суммарное число баллов (score) заёмщика, набранных по совокупности информативных признаков. Чем выше оценка, тем более надёжным считается заёмщик. Отсюда и название — кредитный скоринг. На стадии обучения производится синтез и отбор информативных признаков и определяется, сколько баллов назначать за каждый признак, чтобы риск принимаемых решений был минимален. Следующая задача — решить, на каких условиях выдавать кредит: определить процентную ставку, срок погашения, и прочие параметры кредитного договора. Эта задача также может быть решения методами обучения по прецедентам.

Прогнозирование потребительского спроса

Решается современными супермаркетами и торговыми розничными сетями. Для эффективного управления торговой сетью необходимо прогнозировать объёмы продаж для каждого товара на заданное число дней вперёд. На основе этих прогнозов осуществляется планирование закупок, управление ассортиментом, формирование ценовой политики, планирование промоакций (рекламных кампаний). Специфика задачи в том, что количество товаров может исчисляться десятками или даже сотнями тысяч. Прогнозирование и принятие решений по каждому товару «вручную» просто немыслимо. Исходными данными для прогнозирования являются временные ряды цен и объёмов продаж по товарам и по отдельным магазинам. Современные технологии позволяют снимать эти данные непосредственно с кассовых аппаратов. Для увеличения точности прогнозов необходимо также учитывать различные внешние факторы, влияющие на потребительский спрос: уровень инфляции, погодные условия, рекламные кампании, социально-демографические условия, активность конкурентов. В зависимости от целей анализа в роли объектов выступают либо товары, либо магазины, либо пары «магазин, товар». Ещё одна особенность задачи — несимметричность функции потерь. Если прогноз делается с целью планирования закупок, то потери от заниженного прогноза существенно выше потерь от завышенного.

Принятие инвестиционных решений на финансовом рынке

В этой задаче умение хорошо прогнозировать самым непосредственным образом превращается в прибыль. Если инвестор предполагает, что цена акции вырастет, он покупает акции, надеясь продать их позже по более высокой цене. И, наоборот, прогнозируя падение цен, инвестор продаёт акции, чтобы впоследствии выкупить их обратно по более низкой цене. Задача инвестора-спекулянта в том, чтобы правильно предугадать направление будущего изменения цены — роста или падения. Большой популярностью пользуются автоматические торговые стратегии -алгоритмы, принимающие торговые решения без участия человека. Разработка такого алгоритма — тоже задача обучения с учителем. В роли объектов выступают ситуации, фактически, моменты времени. Описание объекта — это вся предыстория изменения цен и объёмов торгов, зафиксированная к данному моменту. В простейшем случае объекты необходимо классифицировать на три класса, соответствующих возможным решениям: купить, продать или выжидать. Обучающей выборкой для настройки торговых стратегий служат исторические данные о движении цен и объёмов за некоторый промежуток времени. Критерий качества в данной задаче существенно отличается от стандартного функционала средней ошибки, поскольку инвестора интересует не точность прогнозирования, а максимизация итоговой прибыли. Современный биржевой технический анализ насчитывает сотни параметрических торговых стратегий, параметры которых принято настраивать по критерию максимума прибыли на выбранном интервале истории.

Методы решения

Литература

  1. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: основы моделирования и первичная обработка данных. — М.: Финансы и статистика, 1983.
  2. Айвазян С. А., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: исследование зависимостей. — М.: Финансы и статистика, 1985.
  3. Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика: классификация и снижение размерности. — М.: Финансы и статистика, 1989.
  4. Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
  5. Журавлев Ю. И., Рязанов В. В., Сенько О. В. «Распознавание». Математические методы. Программная система. Практические применения. — М.: Фазис, 2006. ISBN 5-7036-0108-8.
  6. Загоруйко Н. Г. Прикладные методы анализа данных и знаний. — Новосибирск: ИМ СО РАН, 1999. ISBN 5-86134-060-9.
  7. Шлезингер М., Главач В. Десять лекций по статистическому и структурному распознаванию. — Киев: Наукова думка, 2004. ISBN 966-00-0341-2.
  8. Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning. — Springer, 2001. ISBN 0-387-95284-5.
  9. Mitchell T. Machine Learning. — McGraw-Hill Science/Engineering/Math, 1997. ISBN 0-07-042807-7.

Категории

Личные инструменты