Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Работа над статьёй велась последовательно, путём итеративного уточнения запросов к языковой модели.

Содержание

1 Этап 1: Проектирование структуры и базовый промпт
2 Этап 2: Упрощение стиля и углубление структуры
3 Этап 3: Корректировка разметки
4 Этап 4: Ручная доработка

Этап 1: Проектирование структуры и базовый промпт

Статья создавалась полностью с нуля, так как на портале отсутствовал материал по данной теме. На первом этапе был сформулирован подробный базовый промпт для определения структуры статьи, её связи с лекционным курсом и первоначального наброска математического аппарата:

Роль: Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.

Задача: Написать глубокую и объемную статью "Принцип эмпирической индукции Бэкона в машинном обучении" для энциклопедии MachineLearning.ru. Формат: MediaWiki-разметка. Математику строго оборачивать в теги <tex>...</tex>. Модель: Gemini 3.1 Pro Preview. Ограничения и структура: 1. Введение: связь эмпирической индукции и парадигмы обучения по прецедентам. 2. Исторический контекст: Фрэнсис Бэкон, "Таблицы открытия" как прообраз датасетов. 3. Формализация идей: описать переход от философии к математике (выборка X^\ell, признаки f_j(x)). 4. Минимизация эмпирического риска: ЯВНО прописать формулу эмпирического риска Q(w) и функции потерь \mathcal{L}. 5. Автоматизация научного метода: провести аналогию шагов познания (Верификация Бэкона -> Обучение/ERM; Фальсифицируемость Поппера -> Кросс-валидация и ошибка на тесте X^k).

ОБЯЗАТЕЛЬНАЯ СТРУКТУРА СТАТЬИ И ТРЕБОВАНИЯ К ОФОРМЛЕНИЮ: В самом начале исходного кода строго выведи три строки: {{well|Статья написана с использованием LLM '''Gemini 3.1 Pro Preview''' и проверена участником ~~~~}} Промпт приводится полностью в Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении {{TOCright}}

== Введение == Дай чёткое определение концепции. Напиши, что машинное обучение — это алгоритмическая автоматизация индуктивного метода (вывод общего правила из частного набора прецедентов).

== Исторический контекст и «Таблицы открытия» == Расскажи про Фрэнсис Бэкона, его труд "Новый Органон" (1620) и критику дедукции Аристотеля. Подробно опиши его "Таблицы открытия" (таблицы присутствия, отсутствия и степеней) и покажи, как они концептуально предвосхитили современные датасеты (матрицы объект-признак, бинарную классификацию и регрессию).

== Математическая формализация: от индукции к эмпирическому риску == Переведи философию Бэкона на строгий язык математики, используя обозначения из лекций К.В. Воронцова: 1. Задай обучающую выборку X^\ell = { (x_1, y_1), ..., (x_\ell, y_\ell) }. 2. Задай признаки объектов f_j(x) и параметрическое семейство моделей a(x, w). 3. Объясни, как поиск бэконовской "формы" (закона) сводится к принципу минимизации эмпирического риска (ERM). Выведи формулу эмпирического риска Q(w) через функцию потерь \mathcal{L}(a(x,w), y).

== Автоматизация научного метода: от Бэкона к Попперу == Объясни, почему чистая индукция ведет к переобучению (overfitting). Покажи, как в современном ML решается конфликт между верификацией по Бэкону (обучение на train-выборке) и фальсифицируемостью по Карлу Попперу (проверка обобщающей способности на независимой test-выборке X^k). Выведи формулу ошибки на тесте Q_{test}(w).

== См. также == Добавь ссылки на внутренние статьи портала: Минимизация эмпирического риска, Переобучение, Скользящий контроль.

== Примечания == Добавь только тег.

== Литература == Укажи 2-3 источника (Новый Органон Бэкона, лекции Воронцова).

КРИТИЧЕСКИ ВАЖНЫЕ ПРАВИЛА ФОРМАТИРОВАНИЯ (MediaWiki):

Движок сайта КАТЕГОРИЧЕСКИ не поддерживает маркдаун (знаки доллара $). Их использование ЗАПРЕЩЕНО.
Абсолютно все переменные, индексы и формулы в тексте должны быть строго внутри HTML-подобных тегов <tex>...</tex> (например: X^\ell, y_i, a(x,w)).
Выключные (отдельные) формулы начинай с двойного двоеточия: ::<tex>...</tex>
Везде используй букву "ё".

Этап 2: Упрощение стиля и углубление структуры

Вторая версия статьи получилась излишне перегруженной сложной терминологией, а оглавление статьи выглядело слишком плоским. Был отправлен точный уточняющий промпт на реструктуризацию и упрощение языка:

Проанализируй текст статьи, который ты только что сгенерировала. Он получился слишком перегруженным сложными академическими терминами (избыточный канцелярит), а оглавление статьи выглядит слишком плоским и простым.

Пожалуйста, перепиши статью заново, выполнив следующие важные доработки:

1. Упрости язык изложения: сделай предложения короче, замени избыточные философские нагромождения (вроде "эпистемологический сдвиг", "гносеологическая парадигма") на более простые и понятные для студентов формулировки. Текст должен читаться легко и интересно, но при этом сохранять строгий академический стиль. 2. Углуби структуру статьи: разбей основные разделы на подразделы, используя заголовки третьего уровня (=== Название ===). Это сделано для того, чтобы автоматическое оглавление (Содержание) статьи на портале стало древовидным, подробным и структурированным.

Обязательно выдели в отдельные подразделы: критику Аристотеля Бэконом, подробный разбор его трёх таблиц открытия (присутствия, отсутствия, степеней), математическое описание выборки и признаков, аналогию между четырьмя "идолами разума" Бэкона и систематическими смещениями данных (data bias) / переобучением в машинном обучении.

3. Полностью сохрани всю математическую строгость и все формулы (формулу эмпирического риска, ошибку на тестовой выборке). 4. Строго соблюдай технические ограничения форматирования MediaWiki:

Абсолютно все переменные, индексы и формулы (включая одиночные латинские буквы X, Y, a, w, M, h, l, k, d) в тексте оберни в теги ....
Выключные формулы начни с двойного двоеточия: ::...
Списки оформляй только через вики-звёздочки (*).
Запрещено использовать обратные апострофы (backticks) и маркдаун-код.
Строго используй букву "ё".

Этап 3: Корректировка разметки

Модель частично проигнорировала правила форматирования MediaWiki. Был отправлен третий точный уточняющий промпт на исправление разметки:

Ты отлично справилась с упрощением текста и глубиной структуры! Текст и разделы теперь идеальны. Но возникли серьезные проблемы с техническим оформлением MediaWiki на сайте.

Пожалуйста, перепиши статью заново, исправив ТОЛЬКО следующие технические косяки оформления (весь текст, стиль изложения, логику и примеры оставь абсолютно нетронутыми!):

1. Убери "страшные синие рамочки": Движок MediaWiki ломается, если перед строкой стоит хотя бы один пробел. Категорически запрещено ставить пробелы перед звёздочками списков (например, " * Таблица" или " * Идолы"). Начни все пункты списков СТРОГО с начала строки с символа "*" без единого пробела перед ним. 2. Перенеси оглавление налево: Удали тег {{TOCright}} из самого начала кода статьи. Оглавление должно встать на свое стандартное место слева перед текстом. 3. Исправь пропущенные теги: Ты всё ещё пропустила много одиночных латинских переменных (таких как X, Y, a, w, M, h, l, k, d) внутри предложений. Пожалуйста, найди абсолютно каждую математическую переменную, индекс и формулу в тексте и аккуратно оберни их в теги .... Например: X, M, y_i = -1. 4. Запрещено использовать обратные апострофы (backticks) и маркдаун-код.

Этап 4: Ручная доработка

Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте и упорно вставляла пробелы перед звёздочками списков, финальная разметка была скорректирована человеком вручную:

Из списков "Таблицы открытия" и "Идолы разума" были удалены лидирующие пробелы, что позволило избавиться от некорректных синих рамок на предпросмотре.
Оглавление перенесено на стандартную позицию слева.
Все пропущенные переменные и индексы (включая одиночные $X$ , $Y$ , $a$ , $w$ , $M$ ) были вручную обёрнуты в теги <tex>...</tex>.
Раздел литературы оформлен с использованием шаблонов {{книга}}.

Polina Khadralinova 17:51, 28 июня 2026 (MSD)

Источник — «http://recognition.su/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%9F%D1%80%D0%B8%D0%BD%D1%86%D0%B8%D0%BF_%D1%8D%D0%BC%D0%BF%D0%B8%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B9_%D0%B8%D0%BD%D0%B4%D1%83%D0%BA%D1%86%D0%B8%D0%B8_%D0%91%D1%8D%D0%BA%D0%BE%D0%BD%D0%B0_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8»

@@ Строка 1: / Строка 1: @@
-Работа над статьёй велась последовательно, с использованием методологии RAG и уточняющих промптов для улучшения стиля и структуры.
+Работа над статьёй велась последовательно, путём итеративного уточнения запросов к языковой модели.
-=== Этап 1: Проектирование и RAG-контекст ===
+=== Этап 1: Проектирование структуры и базовый промпт ===
-Для обеспечения максимального соответствия программе курса, в качестве контекста (Knowledge Base) модели на вход были поданы:
+Статья создавалась полностью с нуля, так как на портале отсутствовал материал по данной теме. На первом этапе был сформулирован подробный базовый промпт для определения структуры статьи, её связи с лекционным курсом и первоначального наброска математического аппарата:
-. Исходный текст заготовки статьи от 2008 года на ML.ru.
-. PDF-презентация первой лекции К.В. Воронцова "Основные понятия машинного обучения".
-Был сформулирован следующий первый системный промпт:
+{{well|1='''Роль:''' Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.
-{{well|'''Роль:''' Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.
 '''Задача:''' Написать глубокую и объемную статью "Принцип эмпирической индукции Бэкона в машинном обучении" для энциклопедии MachineLearning.ru.
 '''Формат:''' MediaWiki-разметка. Математику строго оборачивать в теги <nowiki><tex>...</tex></nowiki>. Модель: Gemini 3.1 Pro Preview.
@@ Строка 16: / Строка 12: @@
 . Формализация идей: описать переход от философии к математике (выборка X^\ell, признаки f_j(x)).
 . Минимизация эмпирического риска: ЯВНО прописать формулу эмпирического риска Q(w) и функции потерь \mathcal{L}.
-. Автоматизация научного метода: провести аналогию шагов познания (Верификация Бэкона -> Обучение/ERM; Фальсифицируемость Поппера -> Кросс-валидация и ошибка на тесте X^k).}}
+. Автоматизация научного метода: провести аналогию шагов познания (Верификация Бэкона -> Обучение/ERM; Фальсифицируемость Поппера -> Кросс-валидация и ошибка на тесте X^k).
+ОБЯЗАТЕЛЬНАЯ СТРУКТУРА СТАТЬИ И ТРЕБОВАНИЯ К ОФОРМЛЕНИЮ:
+В самом начале исходного кода строго выведи три строки: <nowiki>{{well</nowiki>{{!}}<nowiki>Статья написана с использованием LLM '''Gemini 3.1 Pro Preview''' и проверена участником ~~~~}}</nowiki>
+Промпт приводится полностью в [[Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении]] <nowiki>{{TOCright}}</nowiki>
+== Введение == Дай чёткое определение концепции. Напиши, что машинное обучение — это алгоритмическая автоматизация индуктивного метода (вывод общего правила из частного набора прецедентов).
+== Исторический контекст и «Таблицы открытия» == Расскажи про Фрэнсис Бэкона, его труд "Новый Органон" (1620) и критику дедукции Аристотеля. Подробно опиши его "Таблицы открытия" (таблицы присутствия, отсутствия и степеней) и покажи, как они концептуально предвосхитили современные датасеты (матрицы объект-признак, бинарную классификацию и регрессию).
+== Математическая формализация: от индукции к эмпирическому риску == Переведи философию Бэкона на строгий язык математики, используя обозначения из лекций К.В. Воронцова:
+. Задай обучающую выборку X^\ell = { (x_1, y_1), ..., (x_\ell, y_\ell) }.
+. Задай признаки объектов f_j(x) и параметрическое семейство моделей a(x, w).
+. Объясни, как поиск бэконовской "формы" (закона) сводится к принципу минимизации эмпирического риска (ERM). Выведи формулу эмпирического риска Q(w) через функцию потерь \mathcal{L}(a(x,w), y).
+== Автоматизация научного метода: от Бэкона к Попперу == Объясни, почему чистая индукция ведет к переобучению (overfitting). Покажи, как в современном ML решается конфликт между верификацией по Бэкону (обучение на train-выборке) и фальсифицируемостью по Карлу Попперу (проверка обобщающей способности на независимой test-выборке X^k). Выведи формулу ошибки на тесте Q_{test}(w).
+== См. также == Добавь ссылки на внутренние статьи портала: [[Минимизация эмпирического риска]], [[Переобучение]], [[Скользящий контроль]].
+== Примечания == Добавь только тег.
+== Литература == Укажи 2-3 источника (Новый Органон Бэкона, лекции Воронцова).
+КРИТИЧЕСКИ ВАЖНЫЕ ПРАВИЛА ФОРМАТИРОВАНИЯ (MediaWiki):
+* Движок сайта КАТЕГОРИЧЕСКИ не поддерживает маркдаун (знаки доллара $). Их использование ЗАПРЕЩЕНО.
+* Абсолютно все переменные, индексы и формулы в тексте должны быть строго внутри HTML-подобных тегов <nowiki><tex>...</tex></nowiki> (например: X^\ell, y_i, a(x,w)).
+* Выключные (отдельные) формулы начинай с двойного двоеточия: ::<nowiki><tex>...</tex></nowiki>
+* Везде используй букву "ё".}}
 === Этап 2: Упрощение стиля и углубление структуры ===
-Первая версия статьи получилась излишне перегруженной сложной терминологией, а оглавление статьи выглядело слишком плоским. Был отправлен уточняющий промпт на реструктуризацию и упрощение языка.
+Вторая версия статьи получилась излишне перегруженной сложной терминологией, а оглавление статьи выглядело слишком плоским. Был отправлен точный уточняющий промпт на реструктуризацию и упрощение языка:
+{{well|1=Проанализируй текст статьи, который ты только что сгенерировала. Он получился слишком перегруженным сложными академическими терминами (избыточный канцелярит), а оглавление статьи выглядит слишком плоским и простым.
+Пожалуйста, перепиши статью заново, выполнив следующие важные доработки:
+. Упрости язык изложения: сделай предложения короче, замени избыточные философские нагромождения (вроде "эпистемологический сдвиг", "гносеологическая парадигма") на более простые и понятные для студентов формулировки. Текст должен читаться легко и интересно, но при этом сохранять строгий академический стиль.
+. Углуби структуру статьи: разбей основные разделы на подразделы, используя заголовки третьего уровня (<nowiki>=== Название ===</nowiki>). Это сделано для того, чтобы автоматическое оглавление (Содержание) статьи на портале стало древовидным, подробным и структурированным.
+* Обязательно выдели в отдельные подразделы: критику Аристотеля Бэконом, подробный разбор его трёх таблиц открытия (присутствия, отсутствия, степеней), математическое описание выборки и признаков, аналогию между четырьмя "идолами разума" Бэкона и систематическими смещениями данных (data bias) / переобучением в машинном обучении.
+. Полностью сохрани всю математическую строгость и все формулы (формулу эмпирического риска, ошибку на тестовой выборке).
+. Строго соблюдай технические ограничения форматирования MediaWiki:
+* Абсолютно все переменные, индексы и формулы (включая одиночные латинские буквы X, Y, a, w, M, h, l, k, d) в тексте оберни в теги ....
+* Выключные формулы начни с двойного двоеточия: ::...
+* Списки оформляй только через вики-звёздочки (*).
+* Запрещено использовать обратные апострофы (backticks) и маркдаун-код.
+* Строго используй букву "ё".}}
+=== Этап 3: Корректировка разметки ===
+Модель частично проигнорировала правила форматирования MediaWiki. Был отправлен третий точный уточняющий промпт на исправление разметки:
-{{well|Текст слишком перегружен тяжелыми философскими терминами. Перепиши статью, выполнив следующие требования:
+{{well|1=Ты отлично справилась с упрощением текста и глубиной структуры! Текст и разделы теперь идеальны. Но возникли серьезные проблемы с техническим оформлением MediaWiki на сайте.
-. Упрости язык изложения: сделай предложения короче и понятнее для студентов. Избавься от избыточного канцелярита, но полностью сохрани строгий математический аппарат.
-. Сделай структуру статьи более глубокой и разветвленной. Разбей основные разделы на подразделы (используя заголовки уровня <nowiki>=== Подраздел ===</nowiki>), чтобы оглавление (содержание) статьи стало древовидным и подробным.
-. Оформи подразделы для "Таблиц открытия", математической формализации признаков, разбора "Идолов разума" и шагов Поппера/Бэкона.}}
-=== Этап 3: Попытка автоматического исправления разметки ===
+Пожалуйста, перепиши статью заново, исправив ТОЛЬКО следующие технические косяки оформления (весь текст, стиль изложения, логику и примеры оставь абсолютно нетронутыми!):
-Модель частично проигнорировала правила форматирования формул MediaWiki. Был отправлен третий корректирующий промпт на расстановку тегов <nowiki><tex></nowiki>.
-{{well|Проанализируй текст, который ты только что выдала. Ты проигнорировала правило о тегах <nowiki><tex></nowiki>! Из-за этого формулы отображаются на сайте как простой текст LaTeX.
+. Убери "страшные синие рамочки": Движок MediaWiki ломается, если перед строкой стоит хотя бы один пробел. Категорически запрещено ставить пробелы перед звёздочками списков (например, " * Таблица" или " * Идолы"). Начни все пункты списков СТРОГО с начала строки с символа "*" без единого пробела перед ним.
-Перепиши всю статью заново, выполнив требования:
+. Перенеси оглавление налево: Удали тег <nowiki>{{TOCright}}</nowiki> из самого начала кода статьи. Оглавление должно встать на свое стандартное место слева перед текстом.
-. Абсолютно все формулы, переменные (включая одиночные латинские буквы X, Y, a, w, M, h, l), индексы и математические знаки оберни в теги <nowiki><tex>...</tex></nowiki>.
+. Исправь пропущенные теги: Ты всё ещё пропустила много одиночных латинских переменных (таких как X, Y, a, w, M, h, l, k, d) внутри предложений. Пожалуйста, найди абсолютно каждую математическую переменную, индекс и формулу в тексте и аккуратно оберни их в теги .... Например: X, M, y_i = -1.
-. Выключные формулы начни с двойного двоеточия: ::<nowiki><tex>...</tex></nowiki>
+. Запрещено использовать обратные апострофы (backticks) и маркдаун-код.}}
-. Замени все маркдаун-списки (-) на стандартные вики-звездочки (*).}}
 === Этап 4: Ручная доработка ===
 Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте и упорно вставляла пробелы перед звёздочками списков, финальная разметка была скорректирована человеком вручную:
 * Из списков "Таблицы открытия" и "Идолы разума" были удалены лидирующие пробелы, что позволило избавиться от некорректных синих рамок на предпросмотре.
-* Оглавление перенесено на стандартную позицию слева (удален плавающий тег TOCright).
+* Оглавление перенесено на стандартную позицию слева.
 * Все пропущенные переменные и индексы (включая одиночные <tex>X</tex>, <tex>Y</tex>, <tex>a</tex>, <tex>w</tex>, <tex>M</tex>) были вручную обёрнуты в теги <nowiki><tex>...</tex></nowiki>.
-* Проведена викификация терминов.
 * Раздел литературы оформлен с использованием шаблонов <nowiki>{{книга}}</nowiki>.
-Polina Khadralinova 19:23, 23 июня 2026 (MSD)
+Polina Khadralinova 17:51, 28 июня 2026 (MSD)

Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении

Материал из MachineLearning.

Текущая версия

Содержание

Этап 1: Проектирование структуры и базовый промпт

Этап 2: Упрощение стиля и углубление структуры

Этап 3: Корректировка разметки

Этап 4: Ручная доработка

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты