Обсуждение:Трансформер (модель)

Материал из MachineLearning.

Промпт для генерации статьи

Статья сгенерирована с помощью Claude Sonnet 4 (claude-sonnet-4-6) в среде Cowork (Claude Desktop).

Промпт:

Напиши подробную статью на русском языке для вики-проекта MachineLearning.ru об архитектуре Трансформера
(модели, предложенной в статье «Attention Is All You Need», Vaswani et al., 2017).

Статья должна включать:
1. Вводное определение с ключевыми терминами
2. Предпосылки и мотивировку (проблемы RNN/LSTM)
3. Архитектуру с математическими формулами: позиционное кодирование, механизм scaled dot-product attention,
многоголовое внимание, блок энкодера и декодера с residual connections и layer normalization
4. Параметры базовой и большой модели
5. Схему обучения (Adam, warmup scheduler, label smoothing)
6. Основные варианты архитектуры: BERT, GPT, T5, эффективные трансформеры
7. Законы масштабирования
8. Применения за пределами NLP (компьютерное зрение, биология, диффузионные модели)
9. Историческое значение

Используй вики-разметку: формулы в тегах <tex>...</tex>, внутренние ссылки, шаблон {{well|...}}
в начале, {{TOCright}}, категории, раздел «Примечания» с <ref>, раздел «Литература».

— Emil Petrov Emil Petrov 21:13, 14 июля 2026 (MSD)

Второй промпт

Первый промпт был чеклистом разделов: модель перечисляла пункты, но слабо держала «зачем это читать» — мало аналогий для новичка, мало связки с текущей экосистемой (LLM, scaling, DiT) для специалиста. Переписал целеуказание в духе роли эксперта-популяризатора и перегенерировал статью 14 июля 2026.

Модель: Claude Sonnet 4.

Ты профессор машинного обучения и популяризатор науки.

Напиши энциклопедическую статью для MachineLearning.ru «Трансформер (модель)» (Vaswani et al., 2017).
Статья должна быть полезна новичку (ясные определения, аналогии: почему RNN — «бутылочное горлышко», а attention — «редакционная коллегия») и профессионалу (формулы PE/MHA, Pre-LN vs Post-LN, таблица Base/Big, Adam+warmup, BERT/GPT/T5, Kaplan/Chinchilla scaling, ViT/AlphaFold/диффузия, цена O(n²)).

Обязательно раскрой то, чего обычно не хватает в обзорных текстах:
— мотивировка отказа от рекуррентности (параллелизм vs длина пути зависимостей);
— полный стек: embeddings + PE, scaled dot-product, multi-head, encoder/decoder, маскирование;
— параметры Base и Big;
— планировщик lr и label smoothing;
— развилка encoder-only / decoder-only / encoder-decoder и эффективные варианты;
— scaling laws с формулой и практическим смыслом Chinchilla;
— применения: ViT, AlphaFold, диффузионные денойзеры;
— значение для foundation models и связь с промпт-инжинирингом / RLHF (кратко).

Формат: MediaWiki, {{TOCright}}, формулы в <tex>...</tex>, внутренние ссылки на
[[Механизм внимания]], [[Большая языковая модель]], [[Нейросетевое встраивание]],
[[Промпт-инжиниринг]], [[Диффузионная модель]],
[[Обучение с подкреплением из обратной связи человека (RLHF)]],
«См. также», литература через * {{статья|...}} с реальными arXiv/venue, категории.
Тон экспертный, без воды. Не выдумывай несуществующие работы.

После генерации вручную проверены формулы, параметры Base/Big, ссылки arXiv и связность с соседними статьями Emil Petrov; убран канцелярит.

— Emil Petrov 14 июля 2026

Источник — «http://recognition.su/wiki/index.php?title=%D0%9E%D0%B1%D1%81%D1%83%D0%B6%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5:%D0%A2%D1%80%D0%B0%D0%BD%D1%81%D1%84%D0%BE%D1%80%D0%BC%D0%B5%D1%80_%28%D0%BC%D0%BE%D0%B4%D0%B5%D0%BB%D1%8C%29»

Обсуждение:Трансформер (модель)

Материал из MachineLearning.

Промпт для генерации статьи

Второй промпт

Просмотры

Личные инструменты

Навигация

Поиск

Инструменты