Материал из MachineLearning.
Работа над статьёй велась в несколько этапов с использованием модели Gemini 3.1 Pro Preview. Поскольку старая версия статьи от 2008 года устарела и потеряла форматирование, было принято решение полностью переписать её с нуля, совместив академическую строгость с понятностью для новичков.
Этап 1: Проектирование и RAG-контекст
Для обеспечения максимального соответствия программе курса, в качестве контекста (Knowledge Base) модели на вход были поданы:
1. Исходный текст заготовки статьи от 2008 года на ML.ru.
2. PDF-презентация первой лекции К.В. Воронцова "Основные понятия машинного обучения".
Был сформулирован следующий первый системный промпт:
| Роль: Ты — ведущий академический исследователь, эксперт на стыке машинного обучения (ML) и философии науки.
Задача: Написать глубокую и объемную статью "Минимизация эмпирического риска" (ERM) для энциклопедии MachineLearning.ru, опираясь на предоставленные материалы первой лекции и старую заготовку статьи.
Формат: MediaWiki-разметка. Математику строго оборачивать в теги <tex>...</tex>. Модель: Gemini 3.1 Pro Preview.
Ограничения и структура:
1. Введение: связь эмпирической индукции и парадигмы обучения по прецедентам.
2. Исторический контекст: Гаусс, Рональд Фишер, Вапник и Червоненкис.
3. Ожидаемый и эмпирический риск: прописать формулы ожидаемого риска R(a) и эмпирического Q(a, X^\ell) с функциями потерь.
4. Переобучение и регуляризация (оценка VC-размерности).
5. Основные типы функций потерь (для регрессии и классификации) и методы оптимизации (градиентный спуск, SGD).
|
Этап 2: Адаптация текста и уточнения
Первая генерация получилась излишне академичной и тяжелой для восприятия. Модели был отправлен второй уточняющий запрос на упрощение языка и внедрение жизненных примеров для начинающих.
| Текст получился слишком сложным. Твоя задача — сделать Введение и раздел "Ожидаемый и эмпирический риск" более доступными для понимания.
1. Добавь простую, интуитивно понятную аналогию из реальной жизни (например, подготовка школьника к ЕГЭ по математике по сборникам прошлых лет), которая объясняет разницу между истинным (ожидаемым) и эмпирическим риском.
2. Сделай предложения короче, убери излишний канцелярит.
3. Сохрани всю строгую математику для профессионалов, но сопроводи её понятными текстовыми объяснениями.
|
Этап 3: Попытка автоматического исправления разметки
Модель частично проигнорировала правила форматирования формул MediaWiki. Был отправлен третий корректирующий промпт на расстановку тегов <tex>.
| Проанализируй текст, который ты только что выдала. Ты проигнорировала правило о тегах <tex>! Из-за этого формулы отображаются на сайте как простой текст LaTeX.
Перепиши всю статью заново, выполнив требования:
1. Абсолютно все формулы, переменные (включая одиночные латинские буквы X, Y, a, w, M, h, l), индексы и математические знаки оберни в теги <tex>...</tex>.
2. Выключные формулы начни с двойного двоеточия: ::<tex>...</tex>
3. Замени все маркдаун-списки (-) на стандартные вики-звездочки (*).
|
Этап 4: Ручная доработка
Поскольку модель не смогла со 100% точностью расставить теги к одиночным переменным в тексте, финальная разметка была скорректирована человеком вручную:
- Все пропущенные переменные и индексы (включая одиночные
,
,
,
,
) были вручную обёрнуты в теги <tex>...</tex>.
- Греческие символы
и
были заменены на лекционные обозначения
(коэффициент регуляризации) и
(темп обучения) для соответствия курсу МОИИ.
- Маркеры списков (дефисы) заменены на стандартные звездочки (*).
- Расставлены внутренние вики-ссылки на статьи портала (викификация).
- Литература оформлена по шаблонам {{книга}}.
Polina Khadralinova 15:35, 22 июня 2026 (MSD)