Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: Работа над статьёй велась последовательно, с использованием методологии RAG и уточняющих промптов для...)
 
Строка 1: Строка 1:
-
Работа над статьёй велась последовательно, с использованием методологии RAG и уточняющих промптов для улучшения стиля и структуры.
+
Работа над статьёй велась последовательно, путём итеративного уточнения запросов к языковой модели.
-
=== Этап 1: Проектирование и RAG-контекст ===
+
=== Этап 1: Проектирование структуры и базовый промпт ===
-
Для обеспечения максимального соответствия программе курса, в качестве контекста (Knowledge Base) модели на вход были поданы:
+
Статья создавалась полностью с нуля, так как на портале отсутствовал материал по данной теме. На первом этапе был сформулирован подробный базовый промпт для определения структуры статьи, её связи с лекционным курсом и первоначального наброска математического аппарата:
-
1. Исходный текст заготовки статьи от 2008 года на ML.ru.
+
-
2. PDF-презентация первой лекции К.В. Воронцова "Основные понятия машинного обучения".
+
-
Был сформулирован следующий первый системный промпт:
+
{{well|1='''Роль:''' Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.
-
 
+
-
{{well|'''Роль:''' Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.
+
'''Задача:''' Написать глубокую и объемную статью "Принцип эмпирической индукции Бэкона в машинном обучении" для энциклопедии MachineLearning.ru.
'''Задача:''' Написать глубокую и объемную статью "Принцип эмпирической индукции Бэкона в машинном обучении" для энциклопедии MachineLearning.ru.
'''Формат:''' MediaWiki-разметка. Математику строго оборачивать в теги <nowiki><tex>...</tex></nowiki>. Модель: Gemini 3.1 Pro Preview.
'''Формат:''' MediaWiki-разметка. Математику строго оборачивать в теги <nowiki><tex>...</tex></nowiki>. Модель: Gemini 3.1 Pro Preview.
Строка 16: Строка 12:
3. Формализация идей: описать переход от философии к математике (выборка X^\ell, признаки f_j(x)).
3. Формализация идей: описать переход от философии к математике (выборка X^\ell, признаки f_j(x)).
4. Минимизация эмпирического риска: ЯВНО прописать формулу эмпирического риска Q(w) и функции потерь \mathcal{L}.
4. Минимизация эмпирического риска: ЯВНО прописать формулу эмпирического риска Q(w) и функции потерь \mathcal{L}.
-
5. Автоматизация научного метода: провести аналогию шагов познания (Верификация Бэкона -> Обучение/ERM; Фальсифицируемость Поппера -> Кросс-валидация и ошибка на тесте X^k).}}
+
5. Автоматизация научного метода: провести аналогию шагов познания (Верификация Бэкона -> Обучение/ERM; Фальсифицируемость Поппера -> Кросс-валидация и ошибка на тесте X^k).
 +
 
 +
ОБЯЗАТЕЛЬНАЯ СТРУКТУРА СТАТЬИ И ТРЕБОВАНИЯ К ОФОРМЛЕНИЮ:
 +
В самом начале исходного кода строго выведи три строки: <nowiki>{{well</nowiki>{{!}}<nowiki>Статья написана с использованием LLM '''Gemini 3.1 Pro Preview''' и проверена участником ~~~~}}</nowiki>
 +
Промпт приводится полностью в [[Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении]] <nowiki>{{TOCright}}</nowiki>
 +
 
 +
== Введение == Дай чёткое определение концепции. Напиши, что машинное обучение — это алгоритмическая автоматизация индуктивного метода (вывод общего правила из частного набора прецедентов).
 +
 
 +
== Исторический контекст и «Таблицы открытия» == Расскажи про Фрэнсис Бэкона, его труд "Новый Органон" (1620) и критику дедукции Аристотеля. Подробно опиши его "Таблицы открытия" (таблицы присутствия, отсутствия и степеней) и покажи, как они концептуально предвосхитили современные датасеты (матрицы объект-признак, бинарную классификацию и регрессию).
 +
 
 +
== Математическая формализация: от индукции к эмпирическому риску == Переведи философию Бэкона на строгий язык математики, используя обозначения из лекций К.В. Воронцова:
 +
1. Задай обучающую выборку X^\ell = { (x_1, y_1), ..., (x_\ell, y_\ell) }.
 +
2. Задай признаки объектов f_j(x) и параметрическое семейство моделей a(x, w).
 +
3. Объясни, как поиск бэконовской "формы" (закона) сводится к принципу минимизации эмпирического риска (ERM). Выведи формулу эмпирического риска Q(w) через функцию потерь \mathcal{L}(a(x,w), y).
 +
 
 +
== Автоматизация научного метода: от Бэкона к Попперу == Объясни, почему чистая индукция ведет к переобучению (overfitting). Покажи, как в современном ML решается конфликт между верификацией по Бэкону (обучение на train-выборке) и фальсифицируемостью по Карлу Попперу (проверка обобщающей способности на независимой test-выборке X^k). Выведи формулу ошибки на тесте Q_{test}(w).
 +
 
 +
== См. также == Добавь ссылки на внутренние статьи портала: [[Минимизация эмпирического риска]], [[Переобучение]], [[Скользящий контроль]].
 +
 
 +
== Примечания == Добавь только тег.
 +
 
 +
== Литература == Укажи 2-3 источника (Новый Органон Бэкона, лекции Воронцова).
 +
 
 +
КРИТИЧЕСКИ ВАЖНЫЕ ПРАВИЛА ФОРМАТИРОВАНИЯ (MediaWiki):
 +
* Движок сайта КАТЕГОРИЧЕСКИ не поддерживает маркдаун (знаки доллара $). Их использование ЗАПРЕЩЕНО.
 +
* Абсолютно все переменные, индексы и формулы в тексте должны быть строго внутри HTML-подобных тегов <nowiki><tex>...</tex></nowiki> (например: X^\ell, y_i, a(x,w)).
 +
* Выключные (отдельные) формулы начинай с двойного двоеточия: ::<nowiki><tex>...</tex></nowiki>
 +
* Везде используй букву "ё".}}
=== Этап 2: Упрощение стиля и углубление структуры ===
=== Этап 2: Упрощение стиля и углубление структуры ===
-
Первая версия статьи получилась излишне перегруженной сложной терминологией, а оглавление статьи выглядело слишком плоским. Был отправлен уточняющий промпт на реструктуризацию и упрощение языка.
+
Вторая версия статьи получилась излишне перегруженной сложной терминологией, а оглавление статьи выглядело слишком плоским. Был отправлен точный уточняющий промпт на реструктуризацию и упрощение языка:
 +
 
 +
{{well|1=Проанализируй текст статьи, который ты только что сгенерировала. Он получился слишком перегруженным сложными академическими терминами (избыточный канцелярит), а оглавление статьи выглядит слишком плоским и простым.
 +
 
 +
Пожалуйста, перепиши статью заново, выполнив следующие важные доработки:
 +
 
 +
1. Упрости язык изложения: сделай предложения короче, замени избыточные философские нагромождения (вроде "эпистемологический сдвиг", "гносеологическая парадигма") на более простые и понятные для студентов формулировки. Текст должен читаться легко и интересно, но при этом сохранять строгий академический стиль.
 +
2. Углуби структуру статьи: разбей основные разделы на подразделы, используя заголовки третьего уровня (<nowiki>=== Название ===</nowiki>). Это сделано для того, чтобы автоматическое оглавление (Содержание) статьи на портале стало древовидным, подробным и структурированным.
 +
* Обязательно выдели в отдельные подразделы: критику Аристотеля Бэконом, подробный разбор его трёх таблиц открытия (присутствия, отсутствия, степеней), математическое описание выборки и признаков, аналогию между четырьмя "идолами разума" Бэкона и систематическими смещениями данных (data bias) / переобучением в машинном обучении.
 +
3. Полностью сохрани всю математическую строгость и все формулы (формулу эмпирического риска, ошибку на тестовой выборке).
 +
4. Строго соблюдай технические ограничения форматирования MediaWiki:
 +
* Абсолютно все переменные, индексы и формулы (включая одиночные латинские буквы X, Y, a, w, M, h, l, k, d) в тексте оберни в теги ....
 +
* Выключные формулы начни с двойного двоеточия: ::...
 +
* Списки оформляй только через вики-звёздочки (*).
 +
* Запрещено использовать обратные апострофы (backticks) и маркдаун-код.
 +
* Строго используй букву "ё".}}
 +
 
 +
=== Этап 3: Корректировка разметки ===
 +
Модель частично проигнорировала правила форматирования MediaWiki. Был отправлен третий точный уточняющий промпт на исправление разметки:
-
{{well|Текст слишком перегружен тяжелыми философскими терминами. Перепиши статью, выполнив следующие требования:
+
{{well|1=Ты отлично справилась с упрощением текста и глубиной структуры! Текст и разделы теперь идеальны. Но возникли серьезные проблемы с техническим оформлением MediaWiki на сайте.
-
1. Упрости язык изложения: сделай предложения короче и понятнее для студентов. Избавься от избыточного канцелярита, но полностью сохрани строгий математический аппарат.
+
-
2. Сделай структуру статьи более глубокой и разветвленной. Разбей основные разделы на подразделы (используя заголовки уровня <nowiki>=== Подраздел ===</nowiki>), чтобы оглавление (содержание) статьи стало древовидным и подробным.
+
-
3. Оформи подразделы для "Таблиц открытия", математической формализации признаков, разбора "Идолов разума" и шагов Поппера/Бэкона.}}
+
-
=== Этап 3: Попытка автоматического исправления разметки ===
+
Пожалуйста, перепиши статью заново, исправив ТОЛЬКО следующие технические косяки оформления (весь текст, стиль изложения, логику и примеры оставь абсолютно нетронутыми!):
-
Модель частично проигнорировала правила форматирования формул MediaWiki. Был отправлен третий корректирующий промпт на расстановку тегов <nowiki><tex></nowiki>.
+
-
{{well|Проанализируй текст, который ты только что выдала. Ты проигнорировала правило о тегах <nowiki><tex></nowiki>! Из-за этого формулы отображаются на сайте как простой текст LaTeX.
+
1. Убери "страшные синие рамочки": Движок MediaWiki ломается, если перед строкой стоит хотя бы один пробел. Категорически запрещено ставить пробелы перед звёздочками списков (например, " * Таблица" или " * Идолы"). Начни все пункты списков СТРОГО с начала строки с символа "*" без единого пробела перед ним.
-
Перепиши всю статью заново, выполнив требования:
+
2. Перенеси оглавление налево: Удали тег <nowiki>{{TOCright}}</nowiki> из самого начала кода статьи. Оглавление должно встать на свое стандартное место слева перед текстом.
-
1. Абсолютно все формулы, переменные (включая одиночные латинские буквы X, Y, a, w, M, h, l), индексы и математические знаки оберни в теги <nowiki><tex>...</tex></nowiki>.
+
3. Исправь пропущенные теги: Ты всё ещё пропустила много одиночных латинских переменных (таких как X, Y, a, w, M, h, l, k, d) внутри предложений. Пожалуйста, найди абсолютно каждую математическую переменную, индекс и формулу в тексте и аккуратно оберни их в теги .... Например: X, M, y_i = -1.
-
2. Выключные формулы начни с двойного двоеточия: ::<nowiki><tex>...</tex></nowiki>
+
4. Запрещено использовать обратные апострофы (backticks) и маркдаун-код.}}
-
3. Замени все маркдаун-списки (-) на стандартные вики-звездочки (*).}}
+
=== Этап 4: Ручная доработка ===
=== Этап 4: Ручная доработка ===
Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте и упорно вставляла пробелы перед звёздочками списков, финальная разметка была скорректирована человеком вручную:
Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте и упорно вставляла пробелы перед звёздочками списков, финальная разметка была скорректирована человеком вручную:
* Из списков "Таблицы открытия" и "Идолы разума" были удалены лидирующие пробелы, что позволило избавиться от некорректных синих рамок на предпросмотре.
* Из списков "Таблицы открытия" и "Идолы разума" были удалены лидирующие пробелы, что позволило избавиться от некорректных синих рамок на предпросмотре.
-
* Оглавление перенесено на стандартную позицию слева (удален плавающий тег TOCright).
+
* Оглавление перенесено на стандартную позицию слева.
* Все пропущенные переменные и индексы (включая одиночные <tex>X</tex>, <tex>Y</tex>, <tex>a</tex>, <tex>w</tex>, <tex>M</tex>) были вручную обёрнуты в теги <nowiki><tex>...</tex></nowiki>.
* Все пропущенные переменные и индексы (включая одиночные <tex>X</tex>, <tex>Y</tex>, <tex>a</tex>, <tex>w</tex>, <tex>M</tex>) были вручную обёрнуты в теги <nowiki><tex>...</tex></nowiki>.
-
* Проведена викификация терминов.
 
* Раздел литературы оформлен с использованием шаблонов <nowiki>{{книга}}</nowiki>.
* Раздел литературы оформлен с использованием шаблонов <nowiki>{{книга}}</nowiki>.
-
Polina Khadralinova 19:23, 23 июня 2026 (MSD)
+
Polina Khadralinova 17:51, 28 июня 2026 (MSD)

Текущая версия

Работа над статьёй велась последовательно, путём итеративного уточнения запросов к языковой модели.

Содержание

Этап 1: Проектирование структуры и базовый промпт

Статья создавалась полностью с нуля, так как на портале отсутствовал материал по данной теме. На первом этапе был сформулирован подробный базовый промпт для определения структуры статьи, её связи с лекционным курсом и первоначального наброска математического аппарата:


Роль: Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.

Задача: Написать глубокую и объемную статью "Принцип эмпирической индукции Бэкона в машинном обучении" для энциклопедии MachineLearning.ru. Формат: MediaWiki-разметка. Математику строго оборачивать в теги <tex>...</tex>. Модель: Gemini 3.1 Pro Preview. Ограничения и структура: 1. Введение: связь эмпирической индукции и парадигмы обучения по прецедентам. 2. Исторический контекст: Фрэнсис Бэкон, "Таблицы открытия" как прообраз датасетов. 3. Формализация идей: описать переход от философии к математике (выборка X^\ell, признаки f_j(x)). 4. Минимизация эмпирического риска: ЯВНО прописать формулу эмпирического риска Q(w) и функции потерь \mathcal{L}. 5. Автоматизация научного метода: провести аналогию шагов познания (Верификация Бэкона -> Обучение/ERM; Фальсифицируемость Поппера -> Кросс-валидация и ошибка на тесте X^k).

ОБЯЗАТЕЛЬНАЯ СТРУКТУРА СТАТЬИ И ТРЕБОВАНИЯ К ОФОРМЛЕНИЮ: В самом начале исходного кода строго выведи три строки: {{well|Статья написана с использованием LLM '''Gemini 3.1 Pro Preview''' и проверена участником ~~~~}} Промпт приводится полностью в Обсуждение:Принцип эмпирической индукции Бэкона в машинном обучении {{TOCright}}

== Введение == Дай чёткое определение концепции. Напиши, что машинное обучение — это алгоритмическая автоматизация индуктивного метода (вывод общего правила из частного набора прецедентов).

== Исторический контекст и «Таблицы открытия» == Расскажи про Фрэнсис Бэкона, его труд "Новый Органон" (1620) и критику дедукции Аристотеля. Подробно опиши его "Таблицы открытия" (таблицы присутствия, отсутствия и степеней) и покажи, как они концептуально предвосхитили современные датасеты (матрицы объект-признак, бинарную классификацию и регрессию).

== Математическая формализация: от индукции к эмпирическому риску == Переведи философию Бэкона на строгий язык математики, используя обозначения из лекций К.В. Воронцова: 1. Задай обучающую выборку X^\ell = { (x_1, y_1), ..., (x_\ell, y_\ell) }. 2. Задай признаки объектов f_j(x) и параметрическое семейство моделей a(x, w). 3. Объясни, как поиск бэконовской "формы" (закона) сводится к принципу минимизации эмпирического риска (ERM). Выведи формулу эмпирического риска Q(w) через функцию потерь \mathcal{L}(a(x,w), y).

== Автоматизация научного метода: от Бэкона к Попперу == Объясни, почему чистая индукция ведет к переобучению (overfitting). Покажи, как в современном ML решается конфликт между верификацией по Бэкону (обучение на train-выборке) и фальсифицируемостью по Карлу Попперу (проверка обобщающей способности на независимой test-выборке X^k). Выведи формулу ошибки на тесте Q_{test}(w).

== См. также == Добавь ссылки на внутренние статьи портала: Минимизация эмпирического риска, Переобучение, Скользящий контроль.

== Примечания == Добавь только тег.

== Литература == Укажи 2-3 источника (Новый Органон Бэкона, лекции Воронцова).

КРИТИЧЕСКИ ВАЖНЫЕ ПРАВИЛА ФОРМАТИРОВАНИЯ (MediaWiki):

  • Движок сайта КАТЕГОРИЧЕСКИ не поддерживает маркдаун (знаки доллара $). Их использование ЗАПРЕЩЕНО.
  • Абсолютно все переменные, индексы и формулы в тексте должны быть строго внутри HTML-подобных тегов <tex>...</tex> (например: X^\ell, y_i, a(x,w)).
  • Выключные (отдельные) формулы начинай с двойного двоеточия: ::<tex>...</tex>
  • Везде используй букву "ё".


Этап 2: Упрощение стиля и углубление структуры

Вторая версия статьи получилась излишне перегруженной сложной терминологией, а оглавление статьи выглядело слишком плоским. Был отправлен точный уточняющий промпт на реструктуризацию и упрощение языка:


Проанализируй текст статьи, который ты только что сгенерировала. Он получился слишком перегруженным сложными академическими терминами (избыточный канцелярит), а оглавление статьи выглядит слишком плоским и простым.

Пожалуйста, перепиши статью заново, выполнив следующие важные доработки:

1. Упрости язык изложения: сделай предложения короче, замени избыточные философские нагромождения (вроде "эпистемологический сдвиг", "гносеологическая парадигма") на более простые и понятные для студентов формулировки. Текст должен читаться легко и интересно, но при этом сохранять строгий академический стиль. 2. Углуби структуру статьи: разбей основные разделы на подразделы, используя заголовки третьего уровня (=== Название ===). Это сделано для того, чтобы автоматическое оглавление (Содержание) статьи на портале стало древовидным, подробным и структурированным.

  • Обязательно выдели в отдельные подразделы: критику Аристотеля Бэконом, подробный разбор его трёх таблиц открытия (присутствия, отсутствия, степеней), математическое описание выборки и признаков, аналогию между четырьмя "идолами разума" Бэкона и систематическими смещениями данных (data bias) / переобучением в машинном обучении.

3. Полностью сохрани всю математическую строгость и все формулы (формулу эмпирического риска, ошибку на тестовой выборке). 4. Строго соблюдай технические ограничения форматирования MediaWiki:

  • Абсолютно все переменные, индексы и формулы (включая одиночные латинские буквы X, Y, a, w, M, h, l, k, d) в тексте оберни в теги ....
  • Выключные формулы начни с двойного двоеточия: ::...
  • Списки оформляй только через вики-звёздочки (*).
  • Запрещено использовать обратные апострофы (backticks) и маркдаун-код.
  • Строго используй букву "ё".


Этап 3: Корректировка разметки

Модель частично проигнорировала правила форматирования MediaWiki. Был отправлен третий точный уточняющий промпт на исправление разметки:


Ты отлично справилась с упрощением текста и глубиной структуры! Текст и разделы теперь идеальны. Но возникли серьезные проблемы с техническим оформлением MediaWiki на сайте.

Пожалуйста, перепиши статью заново, исправив ТОЛЬКО следующие технические косяки оформления (весь текст, стиль изложения, логику и примеры оставь абсолютно нетронутыми!):

1. Убери "страшные синие рамочки": Движок MediaWiki ломается, если перед строкой стоит хотя бы один пробел. Категорически запрещено ставить пробелы перед звёздочками списков (например, " * Таблица" или " * Идолы"). Начни все пункты списков СТРОГО с начала строки с символа "*" без единого пробела перед ним. 2. Перенеси оглавление налево: Удали тег {{TOCright}} из самого начала кода статьи. Оглавление должно встать на свое стандартное место слева перед текстом. 3. Исправь пропущенные теги: Ты всё ещё пропустила много одиночных латинских переменных (таких как X, Y, a, w, M, h, l, k, d) внутри предложений. Пожалуйста, найди абсолютно каждую математическую переменную, индекс и формулу в тексте и аккуратно оберни их в теги .... Например: X, M, y_i = -1. 4. Запрещено использовать обратные апострофы (backticks) и маркдаун-код.


Этап 4: Ручная доработка

Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте и упорно вставляла пробелы перед звёздочками списков, финальная разметка была скорректирована человеком вручную:

  • Из списков "Таблицы открытия" и "Идолы разума" были удалены лидирующие пробелы, что позволило избавиться от некорректных синих рамок на предпросмотре.
  • Оглавление перенесено на стандартную позицию слева.
  • Все пропущенные переменные и индексы (включая одиночные X, Y, a, w, M) были вручную обёрнуты в теги <tex>...</tex>.
  • Раздел литературы оформлен с использованием шаблонов {{книга}}.

Polina Khadralinova 17:51, 28 июня 2026 (MSD)

Личные инструменты