Обсуждение:Минимизация эмпирического риска

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая: == Обновление статьи от июня 2026 == Старая версия статьи висела в статусе "Незавершённая" с 2008 года, в ней ...)
 
(2 промежуточные версии не показаны)
Строка 1: Строка 1:
-
== Обновление статьи от июня 2026 ==
+
Работа над статьёй велась в несколько этапов с использованием модели Gemini 3.1 Pro Preview. Поскольку старая версия статьи от 2008 года устарела и потеряла форматирование, было принято решение полностью переписать её с нуля, совместив академическую строгость с понятностью для новичков.
-
Старая версия статьи висела в статусе "Незавершённая" с 2008 года, в ней сломалось отображение формул и отсутствовала современная математическая постановка. Я приняла решение полностью переписать и расширить статью, ориентируясь на стандарты курса "Математические основы машинного обучения" и эталонные статьи портала.
+
-
Ниже привожу промпт, с помощью которого был сгенерирован новый текст:
+
=== Этап 1: Проектирование и RAG-контекст ===
 +
Для обеспечения максимального соответствия программе курса, в качестве контекста (Knowledge Base) модели на вход были поданы:
 +
1. Исходный текст заготовки статьи от 2008 года на ML.ru.
 +
2. PDF-презентация первой лекции К.В. Воронцова "Основные понятия машинного обучения".
-
'''Промпт:'''
+
Был сформулирован следующий первый системный промпт:
-
Роль: Эксперт в области машинного обучения, математической оптимизации и академический писатель.
+
 
-
Задача: Написать глубокую, энциклопедическую статью по теме "Минимизация эмпирического риска" (Empirical Risk Minimization, ERM) для портала MachineLearning.ru, переписав старую короткую заготовку.
+
{{well|'''Роль:''' Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.
-
Формат: Вики-разметка MediaWiki с использованием тегов <math>...</math> для математических формул и тегов <ref> для сносок на литературу.
+
'''Задача:''' Написать глубокую и объемную статью "Минимизация эмпирического риска" (ERM) для энциклопедии MachineLearning.ru, опираясь на предоставленные материалы первой лекции и старую заготовку статьи.
-
Ограничения и критерии:
+
'''Формат:''' MediaWiki-разметка. Математику строго оборачивать в теги <nowiki><tex>...</tex></nowiki>. Модель: Gemini 3.1 Pro Preview.
-
1. Текст должен быть научно строгим, академичным. Использовать структуру: Введение, Историческая справка, Ожидаемый и эмпирический риск (математика), Условия состоятельности (теория Вапника-Червоненкиса), Типы функций потерь, Регуляризация, Методы оптимизации.
+
'''Ограничения и структура:'''
-
2. Использовать обозначения из лекций К.В. Воронцова (выборка X^\ell, модель a(x,w), функция потерь \mathcal{L}(w,x)).
+
1. Введение: связь эмпирической индукции и парадигмы обучения по прецедентам.
-
3. Статья должна быть полностью викифицирована (внутренние ссылки на другие понятия ML).
+
2. Исторический контекст: Гаусс, Рональд Фишер, Вапник и Червоненкис.
 +
3. Ожидаемый и эмпирический риск: прописать формулы ожидаемого риска R(a) и эмпирического Q(a, X^\ell) с функциями потерь.
 +
4. Переобучение и регуляризация (оценка VC-размерности).
 +
5. Основные типы функций потерь (для регрессии и классификации) и методы оптимизации (градиентный спуск, SGD).}}
 +
 
 +
=== Этап 2: Адаптация текста и уточнения ===
 +
Первая генерация получилась излишне академичной и тяжелой для восприятия. Модели был отправлен второй уточняющий запрос на упрощение языка и внедрение жизненных примеров для начинающих.
 +
 
 +
{{well|Текст получился слишком сложным. Твоя задача — сделать Введение и раздел "Ожидаемый и эмпирический риск" более доступными для понимания.
 +
1. Добавь простую, интуитивно понятную аналогию из реальной жизни (например, подготовка школьника к ЕГЭ по математике по сборникам прошлых лет), которая объясняет разницу между истинным (ожидаемым) и эмпирическим риском.
 +
2. Сделай предложения короче, убери излишний канцелярит.
 +
3. Сохрани всю строгую математику для профессионалов, но сопроводи её понятными текстовыми объяснениями.}}
 +
 
 +
=== Этап 3: Попытка автоматического исправления разметки ===
 +
Модель частично проигнорировала правила форматирования формул MediaWiki. Был отправлен третий корректирующий промпт на расстановку тегов <nowiki><tex></nowiki>.
 +
 
 +
{{well|Проанализируй текст, который ты только что выдала. Ты проигнорировала правило о тегах <nowiki><tex></nowiki>! Из-за этого формулы отображаются на сайте как простой текст LaTeX.
 +
Перепиши всю статью заново, выполнив требования:
 +
1. Абсолютно все формулы, переменные (включая одиночные латинские буквы X, Y, a, w, M, h, l), индексы и математические знаки оберни в теги <nowiki><tex>...</tex></nowiki>.
 +
2. Выключные формулы начни с двойного двоеточия: ::<nowiki><tex>...</tex></nowiki>
 +
3. Замени все маркдаун-списки (-) на стандартные вики-звездочки (*).}}
 +
 
 +
=== Этап 4: Ручная доработка ===
 +
Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте, финальная разметка была скорректирована человеком вручную:
 +
* Все пропущенные переменные и индексы (включая одиночные <tex>X</tex>, <tex>Y</tex>, <tex>a</tex>, <tex>w</tex>, <tex>M</tex>) были вручную обёрнуты в теги <nowiki><tex>...</tex></nowiki>.
 +
* Греческие символы <tex>\lambda</tex> и <tex>\eta</tex> были заменены на лекционные обозначения <tex>\tau</tex> (коэффициент регуляризации) и <tex>h</tex> (темп обучения) для соответствия курсу МОИИ.
 +
* Маркеры списков (дефисы) заменены на стандартные звездочки (*).
 +
* Расставлены внутренние вики-ссылки на статьи портала (викификация).
 +
* Литература оформлена по шаблонам <nowiki>{{книга}}</nowiki>.
 +
 
 +
Polina Khadralinova 15:35, 22 июня 2026 (MSD)

Текущая версия

Работа над статьёй велась в несколько этапов с использованием модели Gemini 3.1 Pro Preview. Поскольку старая версия статьи от 2008 года устарела и потеряла форматирование, было принято решение полностью переписать её с нуля, совместив академическую строгость с понятностью для новичков.

Содержание

Этап 1: Проектирование и RAG-контекст

Для обеспечения максимального соответствия программе курса, в качестве контекста (Knowledge Base) модели на вход были поданы: 1. Исходный текст заготовки статьи от 2008 года на ML.ru. 2. PDF-презентация первой лекции К.В. Воронцова "Основные понятия машинного обучения".

Был сформулирован следующий первый системный промпт:


Роль: Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.

Задача: Написать глубокую и объемную статью "Минимизация эмпирического риска" (ERM) для энциклопедии MachineLearning.ru, опираясь на предоставленные материалы первой лекции и старую заготовку статьи. Формат: MediaWiki-разметка. Математику строго оборачивать в теги <tex>...</tex>. Модель: Gemini 3.1 Pro Preview. Ограничения и структура: 1. Введение: связь эмпирической индукции и парадигмы обучения по прецедентам. 2. Исторический контекст: Гаусс, Рональд Фишер, Вапник и Червоненкис. 3. Ожидаемый и эмпирический риск: прописать формулы ожидаемого риска R(a) и эмпирического Q(a, X^\ell) с функциями потерь. 4. Переобучение и регуляризация (оценка VC-размерности). 5. Основные типы функций потерь (для регрессии и классификации) и методы оптимизации (градиентный спуск, SGD).


Этап 2: Адаптация текста и уточнения

Первая генерация получилась излишне академичной и тяжелой для восприятия. Модели был отправлен второй уточняющий запрос на упрощение языка и внедрение жизненных примеров для начинающих.


Текст получился слишком сложным. Твоя задача — сделать Введение и раздел "Ожидаемый и эмпирический риск" более доступными для понимания.

1. Добавь простую, интуитивно понятную аналогию из реальной жизни (например, подготовка школьника к ЕГЭ по математике по сборникам прошлых лет), которая объясняет разницу между истинным (ожидаемым) и эмпирическим риском. 2. Сделай предложения короче, убери излишний канцелярит. 3. Сохрани всю строгую математику для профессионалов, но сопроводи её понятными текстовыми объяснениями.


Этап 3: Попытка автоматического исправления разметки

Модель частично проигнорировала правила форматирования формул MediaWiki. Был отправлен третий корректирующий промпт на расстановку тегов <tex>.


Проанализируй текст, который ты только что выдала. Ты проигнорировала правило о тегах <tex>! Из-за этого формулы отображаются на сайте как простой текст LaTeX.

Перепиши всю статью заново, выполнив требования: 1. Абсолютно все формулы, переменные (включая одиночные латинские буквы X, Y, a, w, M, h, l), индексы и математические знаки оберни в теги <tex>...</tex>. 2. Выключные формулы начни с двойного двоеточия: ::<tex>...</tex> 3. Замени все маркдаун-списки (-) на стандартные вики-звездочки (*).


Этап 4: Ручная доработка

Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте, финальная разметка была скорректирована человеком вручную:

  • Все пропущенные переменные и индексы (включая одиночные X, Y, a, w, M) были вручную обёрнуты в теги <tex>...</tex>.
  • Греческие символы \lambda и \eta были заменены на лекционные обозначения \tau (коэффициент регуляризации) и h (темп обучения) для соответствия курсу МОИИ.
  • Маркеры списков (дефисы) заменены на стандартные звездочки (*).
  • Расставлены внутренние вики-ссылки на статьи портала (викификация).
  • Литература оформлена по шаблонам {{книга}}.

Polina Khadralinova 15:35, 22 июня 2026 (MSD)

Личные инструменты