Принцип эмпирической индукции Бэкона в машинном обучении

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: {{well|СТАТЬЯ В РАЗРАБОТКЕ: Этот материал сейчас находится в процессе активного редактирования и дорабо...)
 
(3 промежуточные версии не показаны)
Строка 1: Строка 1:
-
{{well|СТАТЬЯ В РАЗРАБОТКЕ: Этот материал сейчас находится в процессе активного редактирования и доработки участником Polina Khadralinova. Просьба не оценивать статью до снятия этой пометки.}}
+
{{well|Статья написана с использованием LLM '''Gemini 3.1 Pro Preview''' и проверена участником [[Участник:Polina Khadralinova|Polina Khadralinova]] 17:29, 28 июня 2026 (MSD)}}
Промпт приводится полностью в [[Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении]]
Промпт приводится полностью в [[Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении]]
-
== Введение ==
+
== Введение ==
 +
'''Принцип эмпирической индукции в машинном обучении''' — это базовый подход к извлечению знаний из данных. В контексте искусственного интеллекта машинное обучение представляет собой автоматизацию научного метода: алгоритм выводит общее правило из конечного набора частных примеров (прецедентов).
-
'''Принцип эмпирической индукции в машинном обучении''' — это фундаментальная эпистемологическая парадигма, лежащая в основе извлечения закономерностей из данных. В контексте искусственного интеллекта машинное обучение представляет собой не что иное, как строгую алгоритмическую автоматизацию индуктивного научного метода: процесса вывода общего функционального правила или закона из конечного множества частных наблюдений (прецедентов).
+
Традиционное программирование использует дедукцию: инженер вручную пишет чёткие правила для преобразования входных данных в ответ. Машинное обучение переворачивает этот процесс. Алгоритму показывают готовые пары «вход-выход», и он самостоятельно конструирует модель, которая связывает эти данные. Исторически этот индуктивный подход берёт начало в работах английского мыслителя Фрэнсиса Бэкона. Именно он первым превратил индукцию из философской абстракции в строгий рабочий метод сбора и анализа фактов.
-
В отличие от дедуктивного программирования, где инженер вручную задаёт правила (<tex>A \Rightarrow B</tex>) для обработки входных данных, индуктивный подход машинного обучения обращает этот процесс. Алгоритму предоставляются пары «вход-выход», и его задачей становится автоматическое конструирование оптимального правила (модели), способного обобщать полученный опыт на ранее не встречавшиеся объекты. Исторически и философски этот подход уходит корнями в эмпирический метод Фрэнсиса Бэкона, который впервые формализовал процедуру индуктивного познания.
+
== Исторический контекст и «Таблицы открытия» ==
-
== Исторический контекст и «Таблицы открытия» ==
+
=== Критика дедукции Аристотеля ===
 +
В 1620 году Фрэнсис Бэкон выпустил книгу «Новый Органон». Она была задумана как прямой ответ на «Органон» Аристотеля, который веками определял научную мысль в Европе. Аристотель опирался на дедукцию и силлогизмы — логические выводы от общего к частному.<ref>Бэкон Ф. Новый Органон. — 1620.</ref>
-
=== Новый Органон и критика Аристотеля ===
+
Бэкон утверждал, что дедукция не позволяет совершать научные открытия. Силлогизм лишь уточняет то, что уже заложено в его базовых посылках. Если мы хотим узнать что-то новое о реальном мире, мы должны идти обратным путём — от наблюдений к обобщениям. Для этого Бэкон предложил систематизировать сбор эмпирических фактов с помощью специального инструмента, который он назвал «Таблицами открытия».
-
В 1620 году английский философ Фрэнсис Бэкон опубликовал свой фундаментальный труд «Новый Органон» (лат. ''Novum Organum''). Название было выбрано неслучайно: работа противопоставлялась «Органону» Аристотеля, базировавшемуся на силлогизмах и дедукции. Бэкон подверг жёсткой критике дедуктивный метод как бесплодный для открытия новых знаний о природе, поскольку выводы силлогизма уже неявно заложены в его посылках.
+
-
Вместо этого Бэкон предложил строгий метод ''истинной индукции'' (в отличие от наивной индукции через простое перечисление), основанный на систематическом сборе, структурировании и анализе эмпирических фактов. Инструментарием этого метода стали так называемые «Таблицы открытия» (или таблицы индукции), которые концептуально предвосхитили архитектуру современных обучающих выборок.
+
=== Три таблицы открытия как прототип датасета ===
 +
Бэкон выделил три вида таблиц для сбора данных. Поразительно, но эта структура XVII века в точности повторяет устройство современных наборов данных (датасетов) для машинного обучения.
-
=== Три таблицы Бэкона как прообраз датасета ===
+
Чтобы понять их суть, рассмотрим классический пример, который использовал сам Бэкон в 1620 году — поиск физической природы тепла (жара):
-
Бэкон выделил три типа таблиц для сбора данных, которые поразительно точно ложатся на современные задачи машинного обучения:
+
* '''Таблица присутствия (Table of Presence):''' В неё заносились все известные случаи, когда тепло чётко проявляется (например, лучи солнца, открытое пламя, кипящая вода, раскалённый уголь). В современном машинном обучении это соответствует формированию класса положительных примеров (объектов класса <tex>y_i = +1</tex>) в задаче бинарной классификации.
-
* '''Таблица присутствия (Table of Presence):''' В неё заносились все известные случаи, когда исследуемое явление (например, теплота) наблюдается. На языке современного ML это соответствует формированию класса положительных примеров в задаче бинарной классификации (<tex>y_i = +1</tex>).
+
* '''Таблица отсутствия или отклонения (Table of Absence):''' Сюда записывались случаи, которые максимально похожи на предыдущие, но тепла в них нет (например, лунный свет — он светит ярко, как солнце, но не греет; или холодное железо). В машинном обучении это сбор отрицательных примеров (объектов класса <tex>y_i = -1</tex>). Без них алгоритм не сможет построить разделяющую границу между классами (модель решит, что «всё, что светит — греет»).
-
* '''Таблица отсутствия (Table of Absence):''' В неё заносились случаи, максимально похожие на предыдущие, но в которых исследуемое свойство отсутствует. Это прямой аналог сбора отрицательных примеров (<tex>y_i = -1</tex>), что критически важно для построения разделяющей гиперплоскости алгоритмом.
+
* '''Таблица степеней (Table of Degrees):''' Здесь фиксировалось, как сильно проявляется тепло в разных условиях (например, пламя горит ярче — тепла больше; солнце в полдень греет сильнее, чем на закате). На языке математики это прямой аналог непрерывных признаков и задачи [[Регрессионный анализ|регрессии]], где целевая переменная является не дискретной, а непрерывной величиной (<tex>y_i \in \mathbb{R}</tex>).
-
* '''Таблица степеней (Table of Degrees):''' В неё заносились случаи, где явление присутствует в разной степени интенсивности. В математической статистике и машинном обучении это полностью соответствует постановке задачи регрессии, где целевая переменная является непрерывной величиной (<tex>y_i \in \mathbb{R}</tex>).
+
-
Совокупность этих трёх таблиц образует то, что сегодня мы называем '''матрицей «объект-признак»''' (датасетом), где строки — это отдельные эмпирические наблюдения Бэкона, а столбцы — зафиксированные условия среды (признаки).
+
Совокупность этих трёх таблиц образует матрицу «объект-признак». Строки в ней — это отдельные наблюдения Бэкона, а столбцы — конкретные условия среды, которые мы сегодня называем признаками.
-
== Математическая формализация: от индукции к эмпирическому риску ==
+
== Математическая формализация: от индукции к эмпирическому риску ==
=== Обучающая выборка и признаковое пространство ===
=== Обучающая выборка и признаковое пространство ===
-
Целью бэконовского метода был поиск «формы» — скрытого закона, порождающего наблюдаемые явления. Переведём эту философскую концепцию на строгий язык математики, используя классические обозначения школы К.В. Воронцова.
+
Чтобы алгоритм мог работать с наблюдениями, переведём идею Бэкона на язык математики.<ref>Воронцов К. В. Математические методы обучения по прецедентам. — М.: МФТИ, 2012.</ref>
-
Пусть <tex>X</tex> пространство объектов (наблюдений), а <tex>Y</tex> — пространство ответов (искомых свойств). Метод начинается со сбора конечного набора эмпирических фактов (заполнения таблиц). Зададим обучающую выборку (прецеденты) объёма <tex>\ell</tex>:
+
Обозначим через <tex>X</tex> пространство всех возможных объектов, а через <tex>Y</tex> — пространство возможных ответов. Наблюдения Бэкона образуют конечную обучающую выборку объёма <tex>\ell</tex>:
::<tex>X^\ell = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</tex>,
::<tex>X^\ell = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \}</tex>,
-
где <tex>x_i \in X</tex> — <tex>i</tex>-й объект, <tex>y_i \in Y</tex> — известный ответ для этого объекта.
+
где <tex>x_i \in X</tex> — это конкретный объект, а <tex>y_i \in Y</tex> — известный для него ответ.
-
Для компьютерной обработки каждый объект <tex>x</tex> описывается вектором числовых характеристик (признаков):
+
Для компьютерных вычислений каждый объект <tex>x</tex> нужно описать набором чисел. Для этого вводится признаковое описание, где <tex>f_j(x)</tex> — это <tex>j</tex>-й признак объекта:
::<tex>x \mapsto (f_1(x), f_2(x), \dots, f_n(x))</tex>
::<tex>x \mapsto (f_1(x), f_2(x), \dots, f_n(x))</tex>
=== Поиск закономерности и минимизация эмпирического риска (ERM) ===
=== Поиск закономерности и минимизация эмпирического риска (ERM) ===
-
Алгоритмический поиск бэконовской «формы» сводится к выбору параметрического семейства моделей <tex>a(x, w)</tex>, где <tex>w \in W</tex> — вектор настраиваемых параметров (весов). Задача индукции теперь формулируется как задача оптимизации: нужно найти такой вектор параметров <tex>w^*</tex>, при котором модель <tex>a(x, w)</tex> наилучшим образом описывает собранные данные <tex>X^\ell</tex>.
+
Целью Бэкона был поиск «формы» — скрытого закона, который управляет явлением. В машинном обучении эта «форма» представлена параметрическим семейством алгоритмов <tex>a(x, w)</tex>, где <tex>w \in W</tex> — вектор настраиваемых весов модели.
-
Для оценки степени несоответствия между предсказанием модели и истинным эмпирическим фактом вводится функция потерь <tex>\mathcal{L}(a(x, w), y)</tex>.
+
Чтобы найти правильный закон, алгоритму нужно подобрать такие веса <tex>w^*</tex>, при которых предсказания модели <tex>a(x, w)</tex> будут максимально совпадать с реальными ответами из выборки <tex>X^\ell</tex>. Степень ошибки алгоритма на одном объекте измеряется функцией потерь <tex>\mathcal{L}(a(x, w), y)</tex>.
-
Индуктивный метод Бэкона в своей современной алгоритмической реинкарнации принимает форму '''принципа минимизации эмпирического риска (Empirical Risk Minimization, ERM)'''. Эмпирический риск <tex>Q(w)</tex> — это средняя ошибка модели на всей обучающей выборке:
+
В итоге, индуктивный метод Бэкона принимает форму строгой задачи оптимизации — принципа минимизации эмпирического риска (Empirical Risk Minimization). Эмпирический риск <tex>Q(w)</tex> показывает среднюю ошибку модели на всех собранных данных:
::<tex>Q(w) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) \to \min_{w}</tex>
::<tex>Q(w) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) \to \min_{w}</tex>
-
Решая эту оптимизационную задачу (например, с помощью градиентного спуска), алгоритм выводит общую закономерность из частных случаев таблиц, автоматизируя процесс научного открытия.
+
Минимизируя функцию <tex>Q(w)</tex> (например, методом градиентного спуска), алгоритм выводит общую закономерность из таблиц сырых данных.
== Проблемы индукции: Идолы разума и переобучение ==
== Проблемы индукции: Идолы разума и переобучение ==
-
 
=== Четыре «идола» Бэкона и смещение данных (Data Bias) ===
=== Четыре «идола» Бэкона и смещение данных (Data Bias) ===
Бэкон понимал, что данные из реального мира часто бывают искажены. Он выделил четыре типа заблуждений, которые назвал «идолами разума». Эти философские концепции удивительно точно описывают современные проблемы систематического смещения данных (Data Bias) и переобучения:
Бэкон понимал, что данные из реального мира часто бывают искажены. Он выделил четыре типа заблуждений, которые назвал «идолами разума». Эти философские концепции удивительно точно описывают современные проблемы систематического смещения данных (Data Bias) и переобучения:
* '''Идолы Рода''' (природа человека). Ошибки, связанные с несовершенством человеческих органов чувств. В машинном обучении это эквивалентно аппаратному шуму сенсоров или ограничениям измерительных приборов, которые искажают значения признаков <tex>f_j(x)</tex>.
* '''Идолы Рода''' (природа человека). Ошибки, связанные с несовершенством человеческих органов чувств. В машинном обучении это эквивалентно аппаратному шуму сенсоров или ограничениям измерительных приборов, которые искажают значения признаков <tex>f_j(x)</tex>.
-
* '''Идолы Пещеры''' (личный опыт). Искажения из-за узкого кругозора конкретного человека. В ML это классическое смещение выборки (Selection Bias). Если модель обучена распознавать лица только людей европейской внешности, она не сможет обобщить свой опыт на весь мир, так как выборка <tex>X^\ell</tex> нерепрезентативна.
+
* '''Идолы Пещеры''' (личный опыт). Искажения из-за узкого кругозора конкретного человека. В машинном обучении это классическое смещение выборки (Selection Bias). Если модель обучена распознавать лица только людей одной расы, она не сможет обобщить свой опыт на весь мир, так как выборка <tex>X^\ell</tex> нерепрезентативна.
-
* '''Идолы Площади''' (общение и слова). Ошибки из-за неточного использования слов. В ML это соответствует ошибкам разметки датасета (Label Noise), когда асессоры по-разному понимают инструкцию и ставят объектам противоречивые метки <tex>y_i</tex>.
+
* '''Идолы Площади''' (общение и слова). Ошибки из-за неточного использования слов. В машинном обучении это соответствует ошибкам разметки датасета (Label Noise), когда асессоры по-разному понимают инструкцию и ставят объектам противоречивые метки <tex>y_i</tex>.
-
* '''Идолы Театра''' (слепая вера в авторитеты). Доверие к модным, но ошибочным теориям. Сегодня это можно сравнить со стремлением инженеров использовать избыточно сложные, «модные» архитектуры (например, глубокие нейросети) там, где достаточно простой линейной регрессии. Это неизбежно ведёт к переобучению модели.
+
* '''Идолы Театра''' (слепая вера в авторитеты). Доверие к модным, но ошибочным теориям. Сегодня это можно сравнить со стремлением инженеров использовать избыточно сложные архитектуры (например, глубокие нейросети) там, где достаточно простой линейной регрессии. Это неизбежно ведёт к переобучению модели.
 +
=== Автоматизация научного метода: от Бэкона к Попперу ===
 +
Главная слабость чистой индукции заключается в том, что конечное число наблюдений не гарантирует истинность выведенного закона. Если алгоритм просто свежёт эмпирический риск <tex>Q(w)</tex> к нулю, он может выучить данные наизусть вместе со всем шумом. Это явление называется переобучением (Overfitting). Модель станет идеальной для старых данных, но бесполезной для новых.
-
== Автоматизация научного метода: от Бэкона к Попперу ==
+
Чтобы решить эту проблему, современное машинное обучение объединило индукцию Бэкона с критерием фальсифицируемости Карла Поппера. Поппер утверждал: любая научная гипотеза должна подвергаться строгим проверкам и попыткам опровержения.<ref>Поппер К. Логика научного исследования. — М.: Республика, 2005.</ref>
-
Главная слабость чистой индукции заключается в том, что конечное число наблюдений не гарантирует истинность выведенного закона. Если алгоритм просто сведёт эмпирический риск <tex>Q(w)</tex> к нулю, он может выучить данные наизусть вместе со всем шумом. Это явление называется переобучением (Overfitting). Модель станет идеальной для старых данных, но бесполезной для новых.
+
На практике это достигается через разделение данных (train/test split). Обучающая выборка <tex>X^\ell</tex> используется по Бэкону — для создания гипотезы (модели <tex>a(x, w^*)</tex>). Но успешность этой модели проверяется по Попперу — на совершенно независимой тестовой выборке объёма <tex>k</tex>:
-
 
+
-
Чтобы решить эту проблему, современное машинное обучение объединило индукцию Бэкона с критерием фальсифицируемости Карла Поппера. Поппер утверждал: любая научная гипотеза должна подвергаться строгим проверкам и попыткам опровержения.
+
-
 
+
-
На практике это достигается через разделение данных (train/test split). Обучающая выборка <tex>X^\ell</tex> используется по Бэкону — для создания гипотезы (модели <tex>a(x, w^*)</tex>). Но успех этой модели проверяется по Попперу — на совершенно независимой тестовой выборке объёма <tex>k</tex>:
+
::<tex>X^k = \{ (x'_1, y'_1), \dots, (x'_k, y'_k) \}</tex>
::<tex>X^k = \{ (x'_1, y'_1), \dots, (x'_k, y'_k) \}</tex>
Строка 66: Строка 64:
::<tex>Q_{\text{test}}(w^*) = \frac{1}{k} \sum_{i=1}^k \mathcal{L}(a(x'_i, w^*), y'_i)</tex>
::<tex>Q_{\text{test}}(w^*) = \frac{1}{k} \sum_{i=1}^k \mathcal{L}(a(x'_i, w^*), y'_i)</tex>
-
Если тестовая ошибка <tex>Q_{\text{test}}(w^*)</tex> значительно превышает ошибку на обучении <tex>Q(w)</tex>, гипотеза объявляется фальсифицированной (модель переобучилась) и отвергается как несостоятельная.
+
Только в том случае, если ошибка на независимом тесте <tex>Q_{\text{test}}(w^*)</tex> остаётся низкой, выведенная алгоритмом закономерность признаётся надёжной. Таким образом, весь цикл машинного обучения — от сбора датасета до кросс-валидации — это блестящая алгоритмическая реализация эволюции научного метода познания.
== См. также ==
== См. также ==
Строка 73: Строка 71:
* [[Скользящий контроль]]
* [[Скользящий контроль]]
-
== Примечания ==
 
-
<references/>
 
== Литература ==
== Литература ==
-
* {{книга | author = Бэкон Ф. | заглавие = Новый Органон, или Истинные указания для истолкования природы | место = М. | издательство = Мысль | год = 1978 }}
+
* {{книга | автор = Бэкон Ф. | заглавие = Новый Органон, или Истинные указания для истолкования природы | место = М. | издательство = Мысль | год = 1978 }}
-
* {{книга | author = Воронцов К. В. | заглавие = Машинное обучение (курс лекций) | ссылка = http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_(курс_лекций,_К.В.Воронцов) | год = 2023 }}
+
* {{книга | автор = Воронцов К. В. | заглавие = Машинное обучение (курс лекций) | ссылка = http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_(курс_лекций,_К.В.Воронцов) | год = 2023 }}
-
* {{книга | author = Вьюгин В. В. | заглавие = Математические основы теории машинного обучения и прогнозирования | место = М. | издательство = МЦНМО | год = 2013 }}
+
* {{книга | автор = Вьюгин В. В. | заглавие = Математические основы теории машинного обучения и прогнозирования | место = М. | издательство = МЦНМО | год = 2013 }}
-
 
+
-
[[Категория:Машинное обучение]]
+
-
[[Категория:Теория вычислительного обучения]]
+

Текущая версия

Статья написана с использованием LLM Gemini 3.1 Pro Preview и проверена участником Polina Khadralinova 17:29, 28 июня 2026 (MSD)


Промпт приводится полностью в Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении

Содержание

Введение

Принцип эмпирической индукции в машинном обучении — это базовый подход к извлечению знаний из данных. В контексте искусственного интеллекта машинное обучение представляет собой автоматизацию научного метода: алгоритм выводит общее правило из конечного набора частных примеров (прецедентов).

Традиционное программирование использует дедукцию: инженер вручную пишет чёткие правила для преобразования входных данных в ответ. Машинное обучение переворачивает этот процесс. Алгоритму показывают готовые пары «вход-выход», и он самостоятельно конструирует модель, которая связывает эти данные. Исторически этот индуктивный подход берёт начало в работах английского мыслителя Фрэнсиса Бэкона. Именно он первым превратил индукцию из философской абстракции в строгий рабочий метод сбора и анализа фактов.

Исторический контекст и «Таблицы открытия»

Критика дедукции Аристотеля

В 1620 году Фрэнсис Бэкон выпустил книгу «Новый Органон». Она была задумана как прямой ответ на «Органон» Аристотеля, который веками определял научную мысль в Европе. Аристотель опирался на дедукцию и силлогизмы — логические выводы от общего к частному.[1]

Бэкон утверждал, что дедукция не позволяет совершать научные открытия. Силлогизм лишь уточняет то, что уже заложено в его базовых посылках. Если мы хотим узнать что-то новое о реальном мире, мы должны идти обратным путём — от наблюдений к обобщениям. Для этого Бэкон предложил систематизировать сбор эмпирических фактов с помощью специального инструмента, который он назвал «Таблицами открытия».

Три таблицы открытия как прототип датасета

Бэкон выделил три вида таблиц для сбора данных. Поразительно, но эта структура XVII века в точности повторяет устройство современных наборов данных (датасетов) для машинного обучения.

Чтобы понять их суть, рассмотрим классический пример, который использовал сам Бэкон в 1620 году — поиск физической природы тепла (жара):

  • Таблица присутствия (Table of Presence): В неё заносились все известные случаи, когда тепло чётко проявляется (например, лучи солнца, открытое пламя, кипящая вода, раскалённый уголь). В современном машинном обучении это соответствует формированию класса положительных примеров (объектов класса y_i = +1) в задаче бинарной классификации.
  • Таблица отсутствия или отклонения (Table of Absence): Сюда записывались случаи, которые максимально похожи на предыдущие, но тепла в них нет (например, лунный свет — он светит ярко, как солнце, но не греет; или холодное железо). В машинном обучении это сбор отрицательных примеров (объектов класса y_i = -1). Без них алгоритм не сможет построить разделяющую границу между классами (модель решит, что «всё, что светит — греет»).
  • Таблица степеней (Table of Degrees): Здесь фиксировалось, как сильно проявляется тепло в разных условиях (например, пламя горит ярче — тепла больше; солнце в полдень греет сильнее, чем на закате). На языке математики это прямой аналог непрерывных признаков и задачи регрессии, где целевая переменная является не дискретной, а непрерывной величиной (y_i \in \mathbb{R}).

Совокупность этих трёх таблиц образует матрицу «объект-признак». Строки в ней — это отдельные наблюдения Бэкона, а столбцы — конкретные условия среды, которые мы сегодня называем признаками.

Математическая формализация: от индукции к эмпирическому риску

Обучающая выборка и признаковое пространство

Чтобы алгоритм мог работать с наблюдениями, переведём идею Бэкона на язык математики.[1]

Обозначим через X пространство всех возможных объектов, а через Y — пространство возможных ответов. Наблюдения Бэкона образуют конечную обучающую выборку объёма \ell:

X^\ell = \{ (x_1, y_1), \dots, (x_{\ell}, y_{\ell}) \},

где x_i \in X — это конкретный объект, а y_i \in Y — известный для него ответ.

Для компьютерных вычислений каждый объект x нужно описать набором чисел. Для этого вводится признаковое описание, где f_j(x) — это j-й признак объекта:

x \mapsto (f_1(x), f_2(x), \dots, f_n(x))

Поиск закономерности и минимизация эмпирического риска (ERM)

Целью Бэкона был поиск «формы» — скрытого закона, который управляет явлением. В машинном обучении эта «форма» представлена параметрическим семейством алгоритмов a(x, w), где w \in W — вектор настраиваемых весов модели.

Чтобы найти правильный закон, алгоритму нужно подобрать такие веса w^*, при которых предсказания модели a(x, w) будут максимально совпадать с реальными ответами из выборки X^\ell. Степень ошибки алгоритма на одном объекте измеряется функцией потерь \mathcal{L}(a(x, w), y).

В итоге, индуктивный метод Бэкона принимает форму строгой задачи оптимизации — принципа минимизации эмпирического риска (Empirical Risk Minimization). Эмпирический риск Q(w) показывает среднюю ошибку модели на всех собранных данных:

Q(w) = \frac{1}{\ell} \sum_{i=1}^{\ell} \mathcal{L}(a(x_i, w), y_i) \to \min_{w}

Минимизируя функцию Q(w) (например, методом градиентного спуска), алгоритм выводит общую закономерность из таблиц сырых данных.

Проблемы индукции: Идолы разума и переобучение

Четыре «идола» Бэкона и смещение данных (Data Bias)

Бэкон понимал, что данные из реального мира часто бывают искажены. Он выделил четыре типа заблуждений, которые назвал «идолами разума». Эти философские концепции удивительно точно описывают современные проблемы систематического смещения данных (Data Bias) и переобучения:

  • Идолы Рода (природа человека). Ошибки, связанные с несовершенством человеческих органов чувств. В машинном обучении это эквивалентно аппаратному шуму сенсоров или ограничениям измерительных приборов, которые искажают значения признаков f_j(x).
  • Идолы Пещеры (личный опыт). Искажения из-за узкого кругозора конкретного человека. В машинном обучении это классическое смещение выборки (Selection Bias). Если модель обучена распознавать лица только людей одной расы, она не сможет обобщить свой опыт на весь мир, так как выборка X^\ell нерепрезентативна.
  • Идолы Площади (общение и слова). Ошибки из-за неточного использования слов. В машинном обучении это соответствует ошибкам разметки датасета (Label Noise), когда асессоры по-разному понимают инструкцию и ставят объектам противоречивые метки y_i.
  • Идолы Театра (слепая вера в авторитеты). Доверие к модным, но ошибочным теориям. Сегодня это можно сравнить со стремлением инженеров использовать избыточно сложные архитектуры (например, глубокие нейросети) там, где достаточно простой линейной регрессии. Это неизбежно ведёт к переобучению модели.

Автоматизация научного метода: от Бэкона к Попперу

Главная слабость чистой индукции заключается в том, что конечное число наблюдений не гарантирует истинность выведенного закона. Если алгоритм просто свежёт эмпирический риск Q(w) к нулю, он может выучить данные наизусть вместе со всем шумом. Это явление называется переобучением (Overfitting). Модель станет идеальной для старых данных, но бесполезной для новых.

Чтобы решить эту проблему, современное машинное обучение объединило индукцию Бэкона с критерием фальсифицируемости Карла Поппера. Поппер утверждал: любая научная гипотеза должна подвергаться строгим проверкам и попыткам опровержения.[1]

На практике это достигается через разделение данных (train/test split). Обучающая выборка X^\ell используется по Бэкону — для создания гипотезы (модели a(x, w^*)). Но успешность этой модели проверяется по Попперу — на совершенно независимой тестовой выборке объёма k:

X^k = \{ (x'_1, y'_1), \dots, (x'_k, y'_k) \}

Качество обобщения оценивается через ошибку на тесте Q_{\text{test}}(w^*):

Q_{\text{test}}(w^*) = \frac{1}{k} \sum_{i=1}^k \mathcal{L}(a(x'_i, w^*), y'_i)

Только в том случае, если ошибка на независимом тесте Q_{\text{test}}(w^*) остаётся низкой, выведенная алгоритмом закономерность признаётся надёжной. Таким образом, весь цикл машинного обучения — от сбора датасета до кросс-валидации — это блестящая алгоритмическая реализация эволюции научного метода познания.

См. также


Литература

  • Бэкон Ф. Новый Органон, или Истинные указания для истолкования природы. — М.: Мысль, 1978.
  • Воронцов К. В. Машинное обучение (курс лекций). — 2023.
  • Вьюгин В. В. Математические основы теории машинного обучения и прогнозирования. — М.: МЦНМО, 2013.