Теория игр
Материал из MachineLearning.
| | Статья написана с использованием LLM Claude (Anthropic) и может содержать неточности. Проверьте критические факты перед публикацией. |
Содержание |
Теория игр
Теория игр — раздел прикладной математики, изучающий математические модели стратегического взаимодействия между несколькими агентами (игроками). Она моделирует ситуации, где результат для каждого участника зависит не только от его собственного выбора, но и от решений других участников. Теория игр применяется для анализа конфликтных и кооперативных взаимодействий в экономике, политологии, биологии, информатике и, в частности, в машинном обучении.
Историческое развитие
Понимание исторического контекста помогает оценить значение основных концепций теории игр.
Основы теории игр заложил Джон фон Нейман с публикацией теоремы о минимаксе в 1928 году, доказав, что в любой конечной антагонистической игре существует оптимальная стратегия [2]. Фундаментальная монография «Теория игр и экономическое поведение» была написана фон Неймаром совместно с Оскаром Моргенштерном в 1944 году, став отправной точкой для всей современной теории [3].
Джон Нэш в 1950 году доказал существование равновесия в смешанных стратегиях для произвольных конечных игр (не только антагонистических), концепция которого получила его имя и стала центральной в современной теории [1]. За эту работу Нэш был удостоен Нобелевской премии по экономике в 1994 году.
Джон Мейнард Смит развил теорию эволюционных игр в 1970-х годах, применив игровые модели к биологии и популяционной динамике [4]. Эти идеи позже вдохновили исследования в области адаптивных и самообучающихся систем.
В современной информатике теория игр получила новое значение с развитием мультиагентных систем и обучения с подкреплением. Алгоритмы AlphaGo и pokerbots демонстрируют, что игровые концепции критичны для разработки мощных ИИ-систем.
Основные понятия
Формальная модель игры
Игра в нормальной форме — это кортеж:
где:
-
— множество игроков;
-
— множество чистых стратегий игрока
;
-
— функция выигрыша (полезности) игрока
.
Каждый игрок независимо выбирает стратегию . Совместный выбор
определяет выигрыш
для каждого игрока.
Равновесие Нэша
Ключевая концепция — равновесие Нэша — набор стратегий, в котором ни один игрок не может улучшить свой выигрыш, односторонне изменив стратегию при фиксированных выборах других:
где — набор стратегий всех игроков, кроме
.
Интуиция: в равновесии каждый игрок играет лучший ответ на стратегии других игроков.
Чистые и смешанные стратегии
Чистая стратегия — конкретный выбор из .
Смешанная стратегия — вероятностное распределение над чистыми стратегиями:
где — множество всех вероятностных распределений на
.
Центральная теорема: каждая конечная игра имеет хотя бы одно равновесие в смешанных стратегиях [1].
Доминирование стратегий
Стратегия строго доминирует стратегию
, если:
Рациональный игрок никогда не выбирает доминируемую стратегию. Итеративное исключение доминируемых стратегий часто позволяет сузить множество возможных равновесий.
Практические примеры
Дилемма заключённого
Это классический пример, демонстрирующий центральный парадокс теории игр: конфликт между индивидуальной и коллективной рациональностью.
Два задержанных могут либо сотрудничать (молчать), либо предать друг друга (дать показания). Выигрыши (отрицательные, так как это наказания):
| Сотрудничество (молчание) | Предательство | |
|---|---|---|
| Сотрудничество | -1, -1 | -3, 0 |
| Предательство | 0, -3 | -2, -2 |
Анализ: Если противник выбирает молчание, предательство даёт 0 вместо -1 (выгодно). Если противник предаёт, предательство даёт -2 вместо -3 (выгодно). Таким образом, предательство — доминирующая стратегия для обоих игроков.
Единственное равновесие Нэша: (Предательство, Предательство) с выигрышами (-2, -2).
Парадокс: Взаимное сотрудничество (-1, -1) обоим лучше, но равновесие этому не соответствует. Разрешение: требуется либо многократное взаимодействие (эволюция кооперации), либо внешний механизм (контракты, наказание, репутация).
[[Файл:Prisoners_dilemma.png|thumb|300px|Платёжная матрица «Дилемма заключённого». Равновесие Нэша выделено рамкой
Игра «Ястреб–Голубь»
Модель биологической конкуренции за ресурс. Два животных встречаются; каждое может проявить агрессию (Ястреб) или избежать конфликта (Голубь).
| Ястреб | Голубь | |
|---|---|---|
| Ястреб | (V-C)/2, (V-C)/2 | V, 0 |
| Голубь | 0, V | V/2, V/2 |
где — стоимость ресурса,
— стоимость боевого ранения.
Интерпретация: Если оба агрессивны, оба несут убытки. Если один агрессивен, другой покоряется. Чистого равновесия обычно нет (кроме граничных случаев).
Смешанное равновесие: в популяции сосуществуют оба типа в пропорции
Эта модель объясняет биологическое разнообразие поведения в популяции и применяется в эволюционной биологии и экологии [4].
Теория игр в машинном обучении
Связь между теорией игр и ML глубока и многослойна. Рассмотрим ключевые приложения.
Многоагентное обучение с подкреплением (MARL)
Обучение с подкреплением в мультиагентной среде сводится к поиску равновесия Нэша в стохастической игре. Каждый агент учится максимизировать кумулятивное вознаграждение:
где — действие агента
,
— дисконт-фактор [5].
Задача усложняется: выигрыш каждого зависит от политик других агентов, которые одновременно обучаются. Стандартные алгоритмы (Q-обучение) адаптируются:
- Independent Q-Learning — каждый агент обновляет значения, игнорируя других (неустойчиво);
- Joint Action Learners — совместное обновление с моделью поведения других агентов;
- Алгоритмы, ищущие равновесие Нэша — сходятся к равновесию в определённых классах игр.
Практическое применение: роботы-конкуренты, торговые агенты, сетевые протоколы.
Генеративно-состязательные сети (GAN)
GAN — элегантное применение антагонистической игры к генеративному моделированию [6].
Две нейросети играют друг против друга:
- Генератор
преобразует шум
в синтетические данные
;
- Дискриминатор
различает реальные и поддельные данные.
Функция потерь формулируется как антагонистическая игра:
Идеально, при равновесии Нэша, генератор создаёт неотличимые от реальных данные, а дискриминатор — несмещённый классификатор.
Вызовы: сходимость не гарантирована; часто наблюдается нестабильность. Модификации (WGAN, Spectral Normalization) вводят альтернативные функции потерь и регуляризацию, опираясь на глубокое понимание игровой динамики.
thumb|300px|Упрощённая архитектура GAN: генератор и дискриминатор играют друг против друга.
Значение Шепли и объяснимость моделей
Из кооперативной теории игр берётся концепция значения Шепли — справедливое распределение вклада каждого игрока в общий результат [7].
В контексте ML (SHAP — SHapley Additive exPlanations) значение Шепли показывает маржинальный вклад каждого признака в прогноз:
Это позволяет интерпретировать "чёрные ящики" (нейросети, ансамбли) и объяснять решения моделей. Значение Шепли имеет аксиоматическую обоснованность: это единственное решение, удовлетворяющее симметрии и маржинальности [7].
thumb|300px|SHAP beeswarm plot: вклад каждого признака в предсказание модели.
Аукционы и механизм дизайн
Теория игр применяется при проектировании рекомендательных систем, торговых платформ и систем распределения ресурсов. Участники имеют частную информацию о своих предпочтениях и стимулы исказить её. Теория раскрывает совместимые по стимулам механизмы, где честное сообщение информации — равновесие Нэша [1]. Эти идеи лежат в основе рекламных аукционов (Google, Facebook) и платформ маршрутизации.
Критика и ограничения
Классические модели опираются на нереалистичные предположения, и их применимость ограничена.
- Полная рациональность и общее знание: Предполагается, что игроки максимизируют ожидаемую полезность и имеют полную информацию о правилах и выигрышах других. На практике информация неполна и асимметрична; люди часто действуют иррационально, подвержены эмоциям и когнитивным предубеждениям.
- Вычислительная сложность: Нахождение равновесия Нэша NP-трудно в общем случае. В больших играх практический расчёт равновесия невозможен; требуются аппроксимационные алгоритмы и эвристики.
- Множественность равновесий: Часто существует много равновесий; неясно, какое реализуется на практике. Требуются дополнительные концепции (рафинирование, равновесие в эволюционно стабильных стратегиях).
- Статичность: Классическая теория рассматривает игры как однократные. Динамические взаимодействия (повторяющиеся игры, развёрнутая форма) требуют расширений и часто более сложного анализа.
Поведенческая теория игр и экспериментальные исследования показывают отклонения от классических предсказаний [8]. Современные подходы интегрируют идеи из психологии, нейронауки и социологии.
Заключение
Теория игр предоставляет мощный математический язык для моделирования стратегических взаимодействий. В машинном обучении она становится необходимой для разработки мультиагентных систем, генеративных моделей и интерпретируемых решений. Хотя классические предположения часто нарушаются, основные идеи (равновесие, доминирование, значение Шепли) остаются практически полезными.
Литература
[1] Nash, J. F. (1950). "Equilibrium points in N-person games". Proceedings of the National Academy of Sciences, 36(1), 48–49.
[2] von Neumann, J. (1928). "Zur Theorie der Gesellschaftsspiele". Mathematische Annalen, 100(1), 295–320.
[3] von Neumann, J., & Morgenstern, O. (1944). Theory of Games and Economic Behavior. Princeton University Press.
[4] Maynard Smith, J. (1982). Evolution and the Theory of Games. Cambridge University Press.
[5] Buşoniu, L., Babuška, R., & De Schutter, B. (2008). "Multi-agent reinforcement learning: An overview". In Innovations in Multi-Agent Systems and Applications - 1 (pp. 183–221). Springer.
[6] Goodfellow, I., Pouget-Abadie, J., Mirza, M., et al. (2014). "Generative adversarial nets". In Advances in Neural Information Processing Systems (pp. 2672–2680). NIPS.
[7] Shapley, L. S. (1953). "A value for n-person games". Contributions to the Theory of Games, 2(28), 307–317.
[8] Camerer, C. F. (2003). Behavioral Game Theory: Experiments in Strategic Interaction. Princeton University Press.
Примечания
Полный промпт, использованный при создании этой статьи, доступен на странице обсуждения.
Рекомендуется изучить также связанные статьи: Обучение с подкреплением, Многоагентные системы, Генеративно-состязательная сеть, Объяснимость моделей машинного обучения.


