Дилемма заключённого: симулятор турнирных стратегий Аксельрода

simulator intermediate ~10 min
Загрузка симуляции...
TFT ≈ 2,68 за раунд — «Око за око» побеждает в турнире

При параметрах по умолчанию (200 раундов, 5% шума, 50% TFT, 25% предателей, 25% кооператоров) «Око за око» показывает наивысший средний результат за раунд, подтверждая вывод Аксельрода: взаимное сотрудничество — наиболее устойчивая стратегия.

Формула

Payoff matrix: T=5, R=3, P=1, S=0 with T > R > P > S and 2R > T + S
TFT strategy: cooperate on round 1, then copy opponent's previous move
Expected score (TFT vs TFT): R = 3 per round

Дилемма заключённого

Дилемма заключённого — самая изученная модель в теории игр. Два игрока одновременно выбирают: сотрудничать (C) или предать (D). Если оба сотрудничают, каждый получает награду R=3. Если оба предают — наказание P=1. Но если один предаёт, а другой сотрудничает, предатель получает искушение T=5, а кооператор — проигрыш простака S=0. В чём дилемма: рациональный эгоизм толкает обоих предать, хотя взаимное сотрудничество лучше для обоих.

Турнир Аксельрода

В 1980 году политолог Роберт Аксельрод пригласил теоретиков игр прислать стратегии для компьютерного турнира по итерированной дилемме заключённого. Победила «Око за око» (TFT), присланная Анатолем Рапопортом — простейшая из присланных стратегий. TFT сотрудничает в первом ходе, затем копирует предыдущий ход оппонента. Она победила не за счёт выигрыша у конкретного оппонента, а за счёт накопления высоких результатов против широкого спектра стратегий.

Почему взаимность работает

TFT воплощает четыре принципа, которые Аксельрод определил как ключевые: доброта (никогда не предавай первым), возмездие (немедленно реагируй на предательство), прощение (возвращайся к сотрудничеству, если оппонент тоже) и ясность (будь достаточно предсказуемым, чтобы оппоненты научились с тобой сотрудничать). Эти принципы имеют глубокие импликации далеко за пределами теории игр — они проливают свет на эволюцию кооперации в биологии, дипломатии и повседневном социальном взаимодействии.

Роль шума

В реальных взаимодействиях сигналы несовершенны. Параметр «шум» моделирует случайные предательства или ошибочно интерпретированное сотрудничество. При высоком шуме строгая TFT может застрять в циклах взаимного возмездия, запущенных единственной ошибкой. Это привело исследователей Новака и Зигмунда к открытию стратегий вроде «Выиграл — остайся, проиграл — меняй» (Павлов), более устойчивых к шуму. Увеличьте ползунок шума, чтобы увидеть, как ошибки подрывают кооперативные стратегии.

Интерпретация симуляции

Меняйте доли популяций, чтобы увидеть, как различный экологический состав влияет на результат. В мире, где доминируют предатели, даже TFT проигрывает. Но когда достаточно кооперативных или взаимных стратегий, они образуют кластеры взаимного сотрудничества, превосходящие чистое предательство. В этом суть прозрения Аксельрода: кооперация может возникнуть и поддерживаться даже среди эгоистичных агентов при наличии повторения и возможности взаимности.

Частые вопросы

Что такое дилемма заключённого?

Дилемма заключённого — каноническая игра в теории игр, где два рациональных агента выбирают: сотрудничать или предавать. Взаимное сотрудничество даёт хороший результат обоим (R=3,3), но у каждого есть стимул предать (T=5 против S=0), что приводит к взаимному предательству (P=1,1) — худшему результату для обоих.

Почему «Око за око» побеждает в итерированных играх?

В знаменитых компьютерных турнирах Роберта Аксельрода 1984 года «Око за око» победило благодаря четырём свойствам: она добрая (никогда не предаёт первой), карающая (немедленно наказывает предательство), прощающая (возвращается к сотрудничеству после наказания) и понятная (противнику легко её распознать).

Что означает матрица выигрышей T=5, R=3, P=1, S=0?

Стандартные выигрыши дилеммы заключённого: T (искушение предать) = 5, R (награда за взаимное сотрудничество) = 3, P (наказание за взаимное предательство) = 1, S (выигрыш простака) = 0. Условие T > R > P > S обеспечивает структуру дилеммы.

Как шум влияет на дилемму заключённого?

Шум — случайные ошибки в исполнении намерения — может вызвать «эхо-эффекты» в стратегии «Око за око», когда одна ошибка порождает цепочку чередующихся предательств. Поэтому более прощающие стратегии вроде «щедрой TFT» или «выиграл — остайся, проиграл — меняй» могут превзойти строгую TFT в шумной среде.

Источники

Встроить

<iframe src="https://homo-deus.com/lab/game-theory/prisoners-dilemma/embed" width="100%" height="400" frameborder="0"></iframe>
View source on GitHub