Direct Preference Optimization
Материал из MachineLearning.
| | Статья написана с использованием LLM OpenAI GPT-5.4 и проверена участником Ilia Prokofev 13:34, 16 июня 2026 (MSD) |
Direct Preference Optimization (DPO) — метод дообучения больших языковых моделей по данным о предпочтениях, позволяющий оптимизировать поведение модели без явного обучения отдельной reward-модели и без полного цикла обучения с подкреплением. Метод был предложен как более простая альтернатива классическому конвейеру RLHF, в котором сначала обучается модель награды, а затем языковая модель дооптимизируется, например, методом Proximal Policy Optimization.
Ключевая идея DPO состоит в том, что задача оптимизации по предпочтениям может быть сведена к задаче бинарной классификации пар ответов. Если для одного и того же запроса известно, какой из двух ответов предпочёл человек, то модель можно обучать так, чтобы вероятность предпочтительного ответа возрастала относительно менее предпочтительного. Благодаря этому удаётся напрямую использовать сравнительные аннотации вида «ответ A лучше ответа B», не строя промежуточную reward-модель как отдельный объект.
Содержание |
Мотивация
После этапа предварительного обучения языковая модель хорошо предсказывает следующий токен, но её поведение не обязательно согласуется с человеческими ожиданиями по полезности, безопасности, точности или стилю ответа. Для решения этой проблемы развились методы обучения по предпочтениям.
Классическая схема RLHF включает несколько шагов:
- сбор пар или ранжирований ответов по человеческим предпочтениям;
- обучение reward-модели, приближающей эти предпочтения;
- оптимизацию политики языковой модели по сигналу reward-модели;
- регуляризацию относительно базовой модели, чтобы не разрушить языковую компетентность.
Хотя такой конвейер оказался практически успешным, он сложен в реализации и чувствителен к настройке. Нужно отдельно обучать reward-модель, следить за её переобучением, стабилизировать оптимизацию политики и контролировать отклонение от исходной модели. DPO был предложен как способ упростить этот процесс, сохранив связь с оптимизацией по предпочтениям.
Основная идея
Пусть для запроса x имеются два ответа: предпочтительный и менее предпочтительный
. DPO обучает модель так, чтобы отношение вероятностей этих ответов под целевой моделью росло по сравнению с опорной моделью.
Если обозначить целевую модель через , а замороженную опорную модель через
, то оптимизация строится вокруг следующей идеи: предпочтительный ответ должен становиться относительно более вероятным, но не произвольно, а с контролем отклонения от опорной модели.
Интуитивно DPO можно понимать так:
- опорная модель задаёт исходное распределение ответов;
- данные предпочтений указывают, в какую сторону это распределение нужно сдвигать;
- параметр регуляризации управляет тем, насколько агрессивно модель будет менять своё поведение.
Вместо явного обучения функции награды метод напрямую обновляет параметры языковой модели, используя логистическую функцию потерь на парах предпочтений.
Связь с RLHF
DPO тесно связан с постановкой RLHF, в которой ищется стратегия, максимизирующая ожидаемую награду при ограничении на KL-дивергенцию относительно опорной политики. Авторы метода показывают, что при определённых предположениях оптимальную политику можно выразить через reward-функцию и опорную модель, а затем переписать обучение так, чтобы reward-модель не обучалась явно.
Поэтому DPO часто описывают как «RLHF без отдельного шага RL». Это не означает, что метод никак не связан с обучением с подкреплением. Скорее, он использует результат анализа одной из классических RLHF-постановок и переводит его в более простой режим оптимизации по размеченным предпочтениям.
Функция потерь
Для каждого объекта обучения берётся тройка , где:
- x — запрос;
-
— предпочитаемый ответ;
-
— отвергнутый ответ.
Целевая функция поощряет ситуацию, в которой логарифм отношения вероятностей предпочтительного и непредпочтительного ответов под настраиваемой моделью больше, чем соответствующее отношение под опорной моделью. В стандартной парной постановке основная формула DPO записывается так:
Здесь — сигмоидная функция, а
— распределение обучающих троек предпочтений. Иначе говоря, метод максимизирует вероятность того, что предпочтительный ответ окажется лучше отвергнутого не сам по себе, а относительно опорной модели.
На практике это приводит к простой и устойчивой процедуре дообучения, близкой по вычислительной организации к supervised fine-tuning, но использующей не абсолютные эталонные ответы, а сравнительные пары.
Вывод формулы
Вывод DPO начинается со стандартной RLHF-постановки, в которой требуется найти политику, максимизирующую ожидаемую награду, но не слишком удаляющуюся от опорной модели:
Из этой задачи получается замкнутая форма оптимальной политики:
где — нормировочная константа. Отсюда можно выразить награду через оптимальную политику:
Далее вводится модель парных предпочтений Бредли-Терри, в которой вероятность того, что ответ y+ предпочтительнее ответа y-, равна:
Подставляя выражение для награды, получаем:
После этого остаётся максимизировать логарифм правдоподобия наблюдаемых предпочтений, что и даёт DPO-loss. Таким образом, отдельная reward-модель исчезает из вычислительного конвейера: её роль неявно берёт на себя отношение вероятностей между целевой и опорной политиками.
Параметр регулирует силу предпочтительного сдвига. Слишком малое значение может сделать обучение вялым, а слишком большое — привести к переоптимизации на шумных или неоднозначных предпочтениях.
Преимущества
По сравнению с классическим RLHF метод DPO имеет несколько достоинств.
- Простота. Не требуется отдельно обучать reward-модель и запускать полноценный RL-цикл.
- Стабильность. Обучение сводится к стандартной градиентной оптимизации по фиксированному датасету предпочтений.
- Вычислительная эффективность. На практике DPO часто дешевле и проще в воспроизведении, чем RLHF с онлайн-сэмплированием.
- Естественная работа с парными предпочтениями. Во многих случаях именно такие данные проще собирать от людей или автоматических судей.
Благодаря этим свойствам DPO быстро стал одним из базовых методов посттренировки открытых языковых моделей.
Ограничения
Несмотря на простоту, DPO не решает автоматически все проблемы выравнивания моделей.
- Качество результата по-прежнему сильно зависит от качества данных предпочтений.
- Метод предполагает, что предпочтения уже собраны; сам по себе он не решает задачу их получения.
- Если предпочтения противоречивы, шумны или систематически смещены, модель будет наследовать эти искажения.
- DPO обычно работает в офлайн-режиме и не использует богатую обратную связь, которая может возникать при активном взаимодействии со средой.
- В ряде сложных задач прямой оптимизации по предпочтениям может быть недостаточно, и тогда требуются более сложные схемы обучения политики.
Кроме того, DPO оптимизирует поведение модели относительно заданной опорной модели и конкретного набора сравнений. Поэтому он не устраняет фундаментальную проблему спецификации цели: если предпочтения отражают лишь суррогат качества, модель может адаптироваться именно к этой суррогатной метрике.
Развитие идеи
После появления DPO возникло множество его модификаций и родственных методов. Исследователи предлагали:
- варианты с другой функцией потерь;
- способы лучше учитывать силу предпочтения, а не только его знак;
- методы для групповых сравнений и списков ответов;
- схемы, связывающие оптимизацию по предпочтениям с более общими подходами к обучению с подкреплением.
В этом ряду особенно заметны методы, ориентированные на более масштабные и структурированные сигналы качества, например Group Relative Policy Optimization, а также работы, использующие автоматически создаваемые рубрики и judge-модели.
Применение
DPO применяется при дообучении языковых моделей для:
- повышения полезности и согласованности ответов;
- улучшения следования инструкциям;
- снижения токсичности и нежелательного поведения;
- адаптации стиля модели под конкретные предпочтения пользователя или разработчика;
- обучения на синтетических предпочтениях, полученных от других моделей.
Метод также оказался удобным исследовательским инструментом: из-за относительной простоты его часто используют как базовую отправную точку при сравнении новых алгоритмов post-training.
Интерпретация
С методологической точки зрения DPO интересен тем, что показывает: далеко не всякая успешная оптимизация по предпочтениям требует явной reward-модели и сложного цикла взаимодействия со средой. В некоторых случаях достаточно правильно переписать задачу и перейти от «обучения по награде» к «обучению по сравнительным предпочтениям».
Поэтому DPO можно рассматривать как мост между обучением с учителем и обучением с подкреплением. С одной стороны, обучение идёт по фиксированному набору размеченных примеров. С другой стороны, сама постановка возникает из задачи оптимизации политики по внешнему сигналу качества.
См. также
- Обучение с подкреплением
- Proximal Policy Optimization
- Group Relative Policy Optimization
- Цепочка рассуждений
- Большая языковая модель
Литература
- Rafailov R., Sharma A., Mitchell E., Ermon S., Manning C. D., Finn C. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. 2023.
- Ouyang L. et al. Training language models to follow instructions with human feedback. 2022.
- Schulman J. et al. Proximal Policy Optimization Algorithms. 2017.

