Simulador del Dilema del Prisionero: estrategias de torneo de Axelrod

simulator intermediate ~10 min
Cargando simulación...
TFT ≈ 2,68 por ronda — Tit-for-Tat gana el torneo

Con los parámetros por defecto (200 rondas, 5% de ruido, 50% TFT, 25% Desertores, 25% Cooperadores), Tit-for-Tat obtiene la puntuación media más alta por ronda, confirmando el hallazgo de Axelrod de que la cooperación recíproca es la estrategia más robusta.

Fórmula

Payoff matrix: T=5, R=3, P=1, S=0 with T > R > P > S and 2R > T + S
TFT strategy: cooperate on round 1, then copy opponent's previous move
Expected score (TFT vs TFT): R = 3 per round

El Dilema del Prisionero

El Dilema del Prisionero es el modelo más estudiado de la teoría de juegos. Dos jugadores eligen simultáneamente cooperar (C) o desertar (D). Si ambos cooperan, cada uno recibe una recompensa R=3. Si ambos desertan, cada uno obtiene un castigo P=1. Pero si uno deserta mientras el otro coopera, el desertor obtiene la tentación T=5 mientras el cooperador recibe el pago del engañado S=0. El dilema: el interés racional individual empuja a ambos a desertar, aunque la cooperación mutua sería mejor para los dos.

El torneo de Axelrod

En 1980, el politólogo Robert Axelrod invitó a teóricos de juegos a presentar estrategias para un torneo informático del Dilema del Prisionero Iterado. El ganador fue Tit-for-Tat (TFT), presentado por Anatol Rapoport, la estrategia más simple de todas las inscritas. TFT coopera en el primer movimiento y luego copia lo que hizo el oponente en el movimiento anterior. Ganó no derrotando a ningún oponente individual, sino acumulando puntuaciones altas contra una amplia gama de estrategias.

Por qué funciona la reciprocidad

TFT encarna cuatro principios que Axelrod identificó como claves del éxito: amabilidad (nunca ser el primero en desertar), represalia (responder a la deserción inmediatamente), indulgencia (volver a cooperar si el oponente lo hace) y claridad (ser lo suficientemente predecible para que los oponentes aprendan a cooperar contigo). Estos principios tienen implicaciones profundas mucho más allá de la teoría de juegos: iluminan la evolución de la cooperación en biología, diplomacia e interacción social cotidiana.

El papel del ruido

En las interacciones del mundo real, las señales son imperfectas. El parámetro «ruido» modela deserciones accidentales o cooperaciones malinterpretadas. Con ruido, el TFT estricto puede quedar atrapado en ciclos de represalia mutua desencadenados por un solo error. Esto llevó a investigadores como Nowak y Sigmund a descubrir estrategias como Ganar-Quedarse Perder-Cambiar (Pavlov) que son más robustas frente al ruido. Aumenta el control de ruido para ver cómo los errores degradan las estrategias cooperativas.

Interpretación de la simulación

Ajusta las proporciones de población para ver cómo diferentes composiciones ecológicas cambian los resultados. En un mundo dominado por desertores, incluso TFT lo tiene difícil. Pero cuando hay suficientes estrategias cooperativas o recíprocas, estas forman grupos de cooperación mutua que superan a la deserción pura. Esta es la esencia del hallazgo de Axelrod: la cooperación puede evolucionar y sostenerse incluso entre agentes egoístas, siempre que haya suficiente repetición y posibilidad de reciprocidad.

Preguntas frecuentes

¿Qué es el Dilema del Prisionero?

El Dilema del Prisionero es un juego canónico de la teoría de juegos donde dos agentes racionales eligen simultáneamente cooperar o desertar. La cooperación mutua da un buen resultado para ambos (R=3,3), pero cada uno tiene un incentivo individual para desertar (T=5 vs S=0), lo que lleva a la deserción mutua (P=1,1), un resultado peor para ambos.

¿Por qué gana Tit-for-Tat en juegos iterados?

En los famosos torneos informáticos de Robert Axelrod de 1984, Tit-for-Tat ganó porque combina cuatro propiedades clave: es amable (nunca deserta primero), represalia (castiga la deserción inmediatamente), indulgente (vuelve a cooperar después de un castigo) y claro (su estrategia es fácil de reconocer).

¿Qué es la matriz de pagos T=5, R=3, P=1, S=0?

Son los pagos estándar del Dilema del Prisionero: T (Tentación de desertar) = 5, R (Recompensa por cooperación mutua) = 3, P (Penalización por deserción mutua) = 1, S (Pago del engañado) = 0. La condición T > R > P > S asegura la estructura del dilema.

¿Cómo afecta el ruido al Dilema del Prisionero?

El ruido (errores aleatorios al ejecutar la acción prevista) puede provocar «efectos de eco» en Tit-for-Tat, donde un solo error desencadena deserciones alternadas. Por eso estrategias más indulgentes como TFT Generoso o Ganar-Quedarse Perder-Cambiar pueden superar al TFT estricto en entornos ruidosos.

Fuentes

Insertar

<iframe src="https://homo-deus.com/lab/game-theory/prisoners-dilemma/embed" width="100%" height="400" frameborder="0"></iframe>
View source on GitHub