Большая языковая модель

Материал из MachineLearning.

(Различия между версиями)
Перейти к: навигация, поиск
(Новая статья о больших языковых моделях (LLM), написана с Claude Sonnet 4)
(Исправлены формулы LaTeX)
 
Строка 1: Строка 1:
-
{{well|Статья написана с использованием LLM '''Claude Sonnet 4''' и проверена участником [[Участник:Emil Petrov|Emil Petrov]] [[Участник:Emil Petrov|Emil Petrov]] 14:43, 16 июня 2026 (MSD)
+
{{well|Статья написана с использованием LLM '''Claude Sonnet 4''' и проверена участником [[Участник:Emil Petrov|Emil Petrov]] 14:58, 16 июня 2026 (MSD)
Промпт приводится полностью в [[Обсуждение:Большая языковая модель]]
Промпт приводится полностью в [[Обсуждение:Большая языковая модель]]
}}
}}
Строка 7: Строка 7:
== Определение и масштаб ==
== Определение и масштаб ==
-
 
-
Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие. Практически, LLM — это языковая модель, обученная на корпусе объёмом от десятков до триллионов токенов при вычислительном бюджете, делающем обучение недоступным для большинства академических организаций без специализированного оборудования.
 
Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:
Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:
-
:<tex>P(x_1, x_2, ldots, x_n) = prod_{t=1}^{n} P(x_t mid x_1, ldots, x_{t-1}).</tex>
+
:<tex>P(x_1, x_2, \ldots, x_n) = \prod_{t=1}^{n} P(x_t \mid x_1, \ldots, x_{t-1}).</tex>
На каждом шаге <tex>t</tex> модель предсказывает распределение по словарю, из которого семплируется следующий токен.
На каждом шаге <tex>t</tex> модель предсказывает распределение по словарю, из которого семплируется следующий токен.
 +
 +
Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие.
== Предобучение ==
== Предобучение ==
-
=== Цель и данные ===
+
=== Задачи предобучения ===
LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:
LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:
Строка 25: Строка 25:
* '''Маскированное языковое моделирование''' (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.
* '''Маскированное языковое моделирование''' (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.
-
Корпус данных собирается из Common Crawl (веб-страницы), книг (Books3, Gutenberg), научных статей, кода (GitHub), Википедии и других источников. Для моделей GPT-4, LLaMA, Claude объём обучающих данных составляет от нескольких сотен миллиардов до нескольких триллионов токенов.
+
Корпус данных собирается из Common Crawl (веб-страницы), книг, научных статей, кода (GitHub), Википедии и других источников. Для GPT-4, LLaMA, Claude объём обучающих данных составляет от сотен миллиардов до нескольких триллионов токенов.
-
=== Вычислительные законы масштабирования ===
+
=== Законы масштабирования ===
Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров <tex>N</tex> и объёма обучающих данных <tex>D</tex>:
Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров <tex>N</tex> и объёма обучающих данных <tex>D</tex>:
-
:<tex>L(N, D) approx A cdot N^{-alpha} + B cdot D^{-�eta} + L_infty,</tex>
+
:<tex>L(N, D) \approx A \cdot N^{-\alpha} + B \cdot D^{-\beta} + L_\infty,</tex>
-
где <tex>alpha approx �eta approx 0{,}5</tex>, а <tex>L_infty</tex> — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla (70 млрд параметров, 1{,}4 трлн токенов) показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.
+
где <tex>\alpha \approx \beta \approx 0{,}5</tex>, а <tex>L_\infty</tex> — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.
== Тонкая настройка (fine-tuning) ==
== Тонкая настройка (fine-tuning) ==
Строка 41: Строка 41:
# Дообучение с учителем (SFT) на демонстрациях правильного поведения.
# Дообучение с учителем (SFT) на демонстрациях правильного поведения.
# Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
# Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
-
# Оптимизацию политики с помощью алгоритма [[Proximal Policy Optimization|PPO]] или аналогов.
+
# Оптимизацию политики с помощью алгоритма PPO или аналогов.
-
Это позволяет выровнять поведение модели с человеческими ценностями и предпочтениями (alignment).
+
Альтернативные методы: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning позволяют дообучать модели с меньшим числом параметров.
-
 
+
-
Альтернативные методы тонкой настройки: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning. Они позволяют дообучать модели с меньшим числом обучаемых параметров и меньшими вычислительными затратами.
+
== Возникающие способности ==
== Возникающие способности ==
-
При увеличении числа параметров LLM демонстрируют '''возникающие способности''' (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба и практически отсутствующие у меньших моделей. К ним относятся:
+
При увеличении числа параметров LLM демонстрируют '''возникающие способности''' (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба:
* Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
* Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
* Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
* Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
* Выполнение инструкций, не встречавшихся при обучении (instruction following).
* Выполнение инструкций, не встречавшихся при обучении (instruction following).
-
* Простейшие арифметические операции, написание кода, перевод без специализированного обучения.
 
-
 
-
Природа этих способностей остаётся предметом научной дискуссии: часть исследователей считает их подлинными emergent properties, другие объясняют артефактами метрик оценки.
 
== Применения ==
== Применения ==
Строка 65: Строка 60:
* '''Вопросно-ответные системы''' — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
* '''Вопросно-ответные системы''' — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
* '''Программирование''' — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
* '''Программирование''' — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
-
* '''Научные исследования''' — обзор литературы, генерация гипотез, анализ данных.
+
* '''Мультимодальные системы''' — понимание и генерация изображений совместно с текстом.
-
* '''Образование''' — персонализированные объяснения, адаптивные учебные программы.
+
-
* '''Мультимодальные системы''' — понимание и генерация изображений совместно с текстом (GPT-4V, Gemini, Claude).
+
== Ограничения и риски ==
== Ограничения и риски ==
* '''Галлюцинации''' — модели уверенно генерируют фактически неверные утверждения.
* '''Галлюцинации''' — модели уверенно генерируют фактически неверные утверждения.
-
* '''Сдвиг обучающего распределения''' — поведение модели может существенно меняться за пределами данных предобучения.
+
* '''Предвзятости''' (bias) — LLM воспроизводят и усиливают предвзятости обучающих данных.
-
* '''Предвзятости''' (bias) — LLM воспроизводят и усиливают предвзятости, присутствующие в обучающих данных.
+
* '''Безопасность''' — возможность злоупотреблений: дезинформация, фишинг, вредоносный контент.
-
* '''Безопасность''' — возможность злоупотреблений (дезинформация, фишинг, синтез вредоносного контента).
+
* '''Непрозрачность''' — механизм принятия решений остаётся слабо интерпретируемым.
-
* '''Непрозрачность''' — механизм принятия решений остаётся слабо интерпретируемым (см. [[Интерпретируемость моделей машинного обучения|interpretability]]).
+
== Исторические вехи ==
== Исторические вехи ==
Строка 94: Строка 86:
|-
|-
| 2023 || LLaMA 2 || 70 млрд || Meta AI
| 2023 || LLaMA 2 || 70 млрд || Meta AI
-
|-
 
-
| 2024 || Gemini Ultra || неизвестно || Google DeepMind
 
|-
|-
| 2024 || Claude 3 Opus || неизвестно || Anthropic
| 2024 || Claude 3 Opus || неизвестно || Anthropic
Строка 106: Строка 96:
* [[Промпт-инжиниринг]]
* [[Промпт-инжиниринг]]
* [[Нейросетевое встраивание]]
* [[Нейросетевое встраивание]]
-
* [[Нейронная сеть]]
 
* [[Машинное обучение]]
* [[Машинное обучение]]
Строка 117: Строка 106:
* {{статья |автор=Brown T. et al. |заглавие=Language Models are Few-Shot Learners |издание=Advances in Neural Information Processing Systems |год=2020 |том=33 |ссылка=https://arxiv.org/abs/2005.14165}}
* {{статья |автор=Brown T. et al. |заглавие=Language Models are Few-Shot Learners |издание=Advances in Neural Information Processing Systems |год=2020 |том=33 |ссылка=https://arxiv.org/abs/2005.14165}}
* {{статья |автор=Wei J. et al. |заглавие=Emergent Abilities of Large Language Models |издание=Transactions on Machine Learning Research |год=2022 |ссылка=https://arxiv.org/abs/2206.07682}}
* {{статья |автор=Wei J. et al. |заглавие=Emergent Abilities of Large Language Models |издание=Transactions on Machine Learning Research |год=2022 |ссылка=https://arxiv.org/abs/2206.07682}}
-
* {{статья |автор=Ouyang L. et al. |заглавие=Training language models to follow instructions with human feedback |издание=Advances in Neural Information Processing Systems |год=2022 |том=35 |ссылка=https://arxiv.org/abs/2203.02155}}
 
[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]
[[Категория:Нейронные сети]]
[[Категория:Нейронные сети]]
[[Категория:Обработка естественного языка]]
[[Категория:Обработка естественного языка]]

Текущая версия

Статья написана с использованием LLM Claude Sonnet 4 и проверена участником Emil Petrov 14:58, 16 июня 2026 (MSD)

Промпт приводится полностью в Обсуждение:Большая языковая модель


Содержание

Больша́я языкова́я мо́дель (англ. large language model, LLM) — класс нейронных сетей, обученных на огромных корпусах текстов и способных генерировать, анализировать и преобразовывать текст на естественном языке. Современные LLM, как правило, строятся на архитектуре трансформера и содержат от нескольких миллиардов до триллионов параметров. Наиболее известные представители — серии GPT (OpenAI), Gemini (Google DeepMind), Claude (Anthropic) и LLaMA (Meta AI).

Определение и масштаб

Языковая модель формально задаёт вероятностное распределение над последовательностями токенов. Авторегрессионная модель факторизует вероятность последовательности как произведение условных вероятностей:

P(x_1, x_2, \ldots, x_n) = \prod_{t=1}^{n} P(x_t \mid x_1, \ldots, x_{t-1}).

На каждом шаге t модель предсказывает распределение по словарю, из которого семплируется следующий токен.

Понятие «большая» не имеет точной границы и исторически смещалось: модели, считавшиеся огромными в 2018 году (BERT — 340 млн параметров), сегодня воспринимаются как небольшие.

Предобучение

Задачи предобучения

LLM обучаются методом самообучения (self-supervised learning): обучающий сигнал извлекается непосредственно из текстов без ручной разметки. Наиболее распространены две задачи:

  • Языковое моделирование (causal language modeling, CLM) — предсказание следующего токена по всем предыдущим. Используется в моделях семейства GPT.
  • Маскированное языковое моделирование (masked language modeling, MLM) — предсказание замаскированных токенов по контексту слева и справа. Используется в BERT и его вариантах.

Корпус данных собирается из Common Crawl (веб-страницы), книг, научных статей, кода (GitHub), Википедии и других источников. Для GPT-4, LLaMA, Claude объём обучающих данных составляет от сотен миллиардов до нескольких триллионов токенов.

Законы масштабирования

Исследования Kaplan et al. (2020) и Hoffmann et al. (2022, «Chinchilla») установили, что потери языковой модели убывают как степенная функция от числа параметров N и объёма обучающих данных D:

L(N, D) \approx A \cdot N^{-\alpha} + B \cdot D^{-\beta} + L_\infty,

где \alpha \approx \beta \approx 0{,}5, а L_\infty — нижняя граница ошибки, обусловленная шумом данных. Модели Chinchilla показали, что при фиксированном бюджете вычислений оптимально иметь меньшую модель, обученную на бо́льшем объёме данных.

Тонкая настройка (fine-tuning)

Предобученная LLM часто дообучается под конкретные задачи. Наиболее влиятельным методом стало обучение с подкреплением из обратной связи человека (RLHF), включающее:

  1. Дообучение с учителем (SFT) на демонстрациях правильного поведения.
  2. Обучение модели вознаграждения (reward model) на попарных предпочтениях людей.
  3. Оптимизацию политики с помощью алгоритма PPO или аналогов.

Альтернативные методы: LoRA (Low-Rank Adaptation), QLoRA, DPO (Direct Preference Optimization), prefix-tuning — позволяют дообучать модели с меньшим числом параметров.

Возникающие способности

При увеличении числа параметров LLM демонстрируют возникающие способности (emergent abilities) — возможности, неожиданно появляющиеся при достижении определённого масштаба:

  • Решение многошаговых логических задач через цепочку рассуждений (Chain-of-Thought, CoT).
  • Обучение по нескольким примерам в контексте (few-shot in-context learning) без обновления весов.
  • Выполнение инструкций, не встречавшихся при обучении (instruction following).

Применения

LLM нашли применение в широком спектре задач:

  • Генерация текста — написание статей, кода, рекламных материалов, сценариев.
  • Вопросно-ответные системы — поиск с семантическим пониманием запроса (retrieval-augmented generation, RAG).
  • Программирование — автодополнение кода (GitHub Copilot), генерация тестов, объяснение кода.
  • Мультимодальные системы — понимание и генерация изображений совместно с текстом.

Ограничения и риски

  • Галлюцинации — модели уверенно генерируют фактически неверные утверждения.
  • Предвзятости (bias) — LLM воспроизводят и усиливают предвзятости обучающих данных.
  • Безопасность — возможность злоупотреблений: дезинформация, фишинг, вредоносный контент.
  • Непрозрачность — механизм принятия решений остаётся слабо интерпретируемым.

Исторические вехи

Год Модель Параметры Организация
2018 BERT-Large 340 млн Google
2019 GPT-2 1,5 млрд OpenAI
2020 GPT-3 175 млрд OpenAI
2022 ChatGPT (GPT-3.5) ~175 млрд OpenAI
2023 GPT-4 ~1 трлн (оценка) OpenAI
2023 LLaMA 2 70 млрд Meta AI
2024 Claude 3 Opus неизвестно Anthropic

См. также

Примечания

Литература