Обсуждение:Минимизация эмпирического риска

Материал из MachineLearning.

(Различия между версиями)

Текущая версия

Работа над статьёй велась в несколько этапов с использованием модели Gemini 3.1 Pro Preview. Поскольку старая версия статьи от 2008 года устарела и потеряла форматирование, было принято решение полностью переписать её с нуля, совместив академическую строгость с понятностью для новичков.

Содержание

1 Этап 1: Проектирование и RAG-контекст
2 Этап 2: Адаптация текста и уточнения
3 Этап 3: Попытка автоматического исправления разметки
4 Этап 4: Ручная доработка

Этап 1: Проектирование и RAG-контекст

Для обеспечения максимального соответствия программе курса, в качестве контекста (Knowledge Base) модели на вход были поданы: 1. Исходный текст заготовки статьи от 2008 года на ML.ru. 2. PDF-презентация первой лекции К.В. Воронцова "Основные понятия машинного обучения".

Был сформулирован следующий первый системный промпт:

Роль: Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.

Задача: Написать глубокую и объемную статью "Минимизация эмпирического риска" (ERM) для энциклопедии MachineLearning.ru, опираясь на предоставленные материалы первой лекции и старую заготовку статьи. Формат: MediaWiki-разметка. Математику строго оборачивать в теги <tex>...</tex>. Модель: Gemini 3.1 Pro Preview. Ограничения и структура: 1. Введение: связь эмпирической индукции и парадигмы обучения по прецедентам. 2. Исторический контекст: Гаусс, Рональд Фишер, Вапник и Червоненкис. 3. Ожидаемый и эмпирический риск: прописать формулы ожидаемого риска R(a) и эмпирического Q(a, X^\ell) с функциями потерь. 4. Переобучение и регуляризация (оценка VC-размерности). 5. Основные типы функций потерь (для регрессии и классификации) и методы оптимизации (градиентный спуск, SGD).

Этап 2: Адаптация текста и уточнения

Первая генерация получилась излишне академичной и тяжелой для восприятия. Модели был отправлен второй уточняющий запрос на упрощение языка и внедрение жизненных примеров для начинающих.

Текст получился слишком сложным. Твоя задача — сделать Введение и раздел "Ожидаемый и эмпирический риск" более доступными для понимания.

1. Добавь простую, интуитивно понятную аналогию из реальной жизни (например, подготовка школьника к ЕГЭ по математике по сборникам прошлых лет), которая объясняет разницу между истинным (ожидаемым) и эмпирическим риском. 2. Сделай предложения короче, убери излишний канцелярит. 3. Сохрани всю строгую математику для профессионалов, но сопроводи её понятными текстовыми объяснениями.

Этап 3: Попытка автоматического исправления разметки

Модель частично проигнорировала правила форматирования формул MediaWiki. Был отправлен третий корректирующий промпт на расстановку тегов <tex>.

Проанализируй текст, который ты только что выдала. Ты проигнорировала правило о тегах <tex>! Из-за этого формулы отображаются на сайте как простой текст LaTeX.

Перепиши всю статью заново, выполнив требования: 1. Абсолютно все формулы, переменные (включая одиночные латинские буквы X, Y, a, w, M, h, l), индексы и математические знаки оберни в теги <tex>...</tex>. 2. Выключные формулы начни с двойного двоеточия: ::<tex>...</tex> 3. Замени все маркдаун-списки (-) на стандартные вики-звездочки (*).

Этап 4: Ручная доработка

Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте, финальная разметка была скорректирована человеком вручную:

Все пропущенные переменные и индексы (включая одиночные $X$ , $Y$ , $a$ , $w$ , $M$ ) были вручную обёрнуты в теги <tex>...</tex>.
Греческие символы $\lambda$ и $\eta$ были заменены на лекционные обозначения $\tau$ (коэффициент регуляризации) и $h$ (темп обучения) для соответствия курсу МОИИ.
Маркеры списков (дефисы) заменены на стандартные звездочки (*).
Расставлены внутренние вики-ссылки на статьи портала (викификация).
Литература оформлена по шаблонам {{книга}}.

Polina Khadralinova 15:35, 22 июня 2026 (MSD)

Источник — «http://recognition.su/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%9C%D0%B8%D0%BD%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_%D1%8D%D0%BC%D0%BF%D0%B8%D1%80%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D1%80%D0%B8%D1%81%D0%BA%D0%B0»

@@ Строка 1: / Строка 1: @@
-Работа над статьёй велась в несколько этапов с использованием модели Gemini 3.1 Pro Preview. Поскольку старая версия статьи от 2008 года устарела и потеряла форматирование, было принято решение переписать её с нуля, совместив академическую строгость с понятностью для новичков.
+Работа над статьёй велась в несколько этапов с использованием модели Gemini 3.1 Pro Preview. Поскольку старая версия статьи от 2008 года устарела и потеряла форматирование, было принято решение полностью переписать её с нуля, совместив академическую строгость с понятностью для новичков.
-=== Этап 1: Базовая генерация структуры и математики ===
+=== Этап 1: Проектирование и RAG-контекст ===
-Сначала был задан системный промпт для формирования математического ядра статьи.
+Для обеспечения максимального соответствия программе курса, в качестве контекста (Knowledge Base) модели на вход были поданы:
+. Исходный текст заготовки статьи от 2008 года на ML.ru.
+. PDF-презентация первой лекции К.В. Воронцова "Основные понятия машинного обучения".
+Был сформулирован следующий первый системный промпт:
 {{well|'''Роль:''' Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.
-'''Задача:''' Написать глубокую и объемную статью "Минимизация эмпирического риска" (ERM) для энциклопедии MachineLearning.ru.
+'''Задача:''' Написать глубокую и объемную статью "Минимизация эмпирического риска" (ERM) для энциклопедии MachineLearning.ru, опираясь на предоставленные материалы первой лекции и старую заготовку статьи.
-'''Формат:''' MediaWiki-разметка. Математику строго оборачивать в теги <tex>...</tex>.
+'''Формат:''' MediaWiki-разметка. Математику строго оборачивать в теги <nowiki><tex>...</tex></nowiki>. Модель: Gemini 3.1 Pro Preview.
 '''Ограничения и структура:'''
-. Введение: что такое ERM в парадигме обучения по прецедентам.
+. Введение: связь эмпирической индукции и парадигмы обучения по прецедентам.
-. Исторический контекст: Гаусс, Фишер, Вапник и Червоненкис.
+. Исторический контекст: Гаусс, Рональд Фишер, Вапник и Червоненкис.
-. Ожидаемый и эмпирический риск: прописать формулы Q(w) и функции потерь \mathcal{L}.
+. Ожидаемый и эмпирический риск: прописать формулы ожидаемого риска R(a) и эмпирического Q(a, X^\ell) с функциями потерь.
 . Переобучение и регуляризация (оценка VC-размерности).
-. Основные типы функций потерь (для регрессии и классификации) и методы оптимизации (SGD).}}
+. Основные типы функций потерь (для регрессии и классификации) и методы оптимизации (градиентный спуск, SGD).}}
-=== Этап 2: Адаптация текста для новичков ===
+=== Этап 2: Адаптация текста и уточнения ===
-Первая версия получилась слишком сложной и тяжеловесной. Согласно критериям портала, статья должна быть понятна новичкам. Был применен уточняющий промпт.
+Первая генерация получилась излишне академичной и тяжелой для восприятия. Модели был отправлен второй уточняющий запрос на упрощение языка и внедрение жизненных примеров для начинающих.
 {{well|Текст получился слишком сложным. Твоя задача — сделать Введение и раздел "Ожидаемый и эмпирический риск" более доступными для понимания.
-. Добавь простую, интуитивно понятную аналогию из реальной жизни (например, подготовка к экзамену), которая объясняет разницу между истинным и эмпирическим риском.
+. Добавь простую, интуитивно понятную аналогию из реальной жизни (например, подготовка школьника к ЕГЭ по математике по сборникам прошлых лет), которая объясняет разницу между истинным (ожидаемым) и эмпирическим риском.
 . Сделай предложения короче, убери излишний канцелярит.
 . Сохрани всю строгую математику для профессионалов, но сопроводи её понятными текстовыми объяснениями.}}
-=== Этап 3: Исправление форматирования ===
+=== Этап 3: Попытка автоматического исправления разметки ===
-Модель частично проигнорировала требования к разметке специфического старого движка сайта. Был отправлен корректирующий промпт.
+Модель частично проигнорировала правила форматирования формул MediaWiki. Был отправлен третий корректирующий промпт на расстановку тегов <nowiki><tex></nowiki>.
-{{well|Ты проигнорировала правило про теги.
+{{well|Проанализируй текст, который ты только что выдала. Ты проигнорировала правило о тегах <nowiki><tex></nowiki>! Из-за этого формулы отображаются на сайте как простой текст LaTeX.
-. АБСОЛЮТНО ВСЕ переменные, индексы и формулы (даже одиночные буквы вроде X или w) в тексте должны быть внутри HTML-подобных тегов <tex>...</tex>.
+Перепиши всю статью заново, выполнив требования:
-. Выключные формулы начинай с двойного двоеточия: ::<tex>...</tex>.
+. Абсолютно все формулы, переменные (включая одиночные латинские буквы X, Y, a, w, M, h, l), индексы и математические знаки оберни в теги <nowiki><tex>...</tex></nowiki>.
-. Запрещено использовать символ обратного апострофа (маркдаун). Исправь весь текст.}}
+. Выключные формулы начни с двойного двоеточия: ::<nowiki><tex>...</tex></nowiki>
+. Замени все маркдаун-списки (-) на стандартные вики-звездочки (*).}}
 === Этап 4: Ручная доработка ===
-После финальной генерации текст был отредактирован вручную:
+Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте, финальная разметка была скорректирована человеком вручную:
-* Исправлены единичные ошибки парсера (замена нечитаемого символа присваивания на стандартное равенство).
+* Все пропущенные переменные и индексы (включая одиночные <tex>X</tex>, <tex>Y</tex>, <tex>a</tex>, <tex>w</tex>, <tex>M</tex>) были вручную обёрнуты в теги <nowiki><tex>...</tex></nowiki>.
-* Расширена внутренняя викификация (расставлены ссылки на смежные алгоритмы и философские концепции).
+* Греческие символы <tex>\lambda</tex> и <tex>\eta</tex> были заменены на лекционные обозначения <tex>\tau</tex> (коэффициент регуляризации) и <tex>h</tex> (темп обучения) для соответствия курсу МОИИ.
-* Литература оформлена в строгом соответствии с шаблонами {{книга}}.
+* Маркеры списков (дефисы) заменены на стандартные звездочки (*).
+* Расставлены внутренние вики-ссылки на статьи портала (викификация).
+* Литература оформлена по шаблонам <nowiki>{{книга}}</nowiki>.
-Polina Khadralinova 15:03, 22 июня 2026 (MSD)
+Polina Khadralinova 15:35, 22 июня 2026 (MSD)

Обсуждение:Минимизация эмпирического риска

Материал из MachineLearning.

Текущая версия

Содержание

Этап 1: Проектирование и RAG-контекст

Этап 2: Адаптация текста и уточнения

Этап 3: Попытка автоматического исправления разметки

Этап 4: Ручная доработка

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты