Gefangenendilemma-Simulator: Axelrod-Turnier-Strategien

simulator intermediate ~10 min
Simulation wird geladen...
TFT ≈ 2,68 pro Runde — Tit-for-Tat gewinnt das Turnier

Mit den Standardparametern (200 Runden, 5 % Rauschen, 50 % TFT, 25 % Defektieren, 25 % Kooperieren) erzielt Tit-for-Tat die höchste durchschnittliche Punktzahl pro Runde und bestätigt Axelrods Erkenntnis, dass reziproke Kooperation die robusteste Strategie ist.

Formel

Payoff matrix: T=5, R=3, P=1, S=0 with T > R > P > S and 2R > T + S
TFT strategy: cooperate on round 1, then copy opponent's previous move
Expected score (TFT vs TFT): R = 3 per round

Das Gefangenendilemma

Das Gefangenendilemma ist das meistuntersuchte Modell der Spieltheorie. Zwei Spieler wählen gleichzeitig zwischen Kooperieren (K) und Defektieren (D). Kooperieren beide, erhält jeder eine Belohnung R=3. Defektieren beide, erhält jeder eine Strafe P=1. Defektiert aber einer, während der andere kooperiert, bekommt der Defekteur die Versuchungsauszahlung T=5, während der Kooperierende die Naivenauszahlung S=0 erhält. Das Dilemma: Rationales Eigeninteresse treibt beide zur Defektion, obwohl gegenseitige Kooperation für beide besser wäre.

Axelrods Turnier

1980 lud der Politikwissenschaftler Robert Axelrod Spieltheoretiker ein, Strategien für ein Computerturnier des iterierten Gefangenendilemmas einzureichen. Der Gewinner war Tit-for-Tat (TFT), eingereicht von Anatol Rapoport — die einfachste aller eingereichten Strategien. TFT kooperiert im ersten Zug und kopiert dann den letzten Zug des Gegners. Es gewann nicht, indem es einen einzelnen Gegner schlug, sondern indem es gegen eine breite Palette von Strategien hohe Punktzahlen erzielte.

Warum Reziprozität funktioniert

TFT verkörpert vier Prinzipien, die Axelrod als Schlüssel zum Erfolg identifizierte: Freundlichkeit (nie zuerst defektieren), Vergeltung (sofort auf Defektion reagieren), Vergebung (nach Bestrafung zur Kooperation zurückkehren) und Transparenz (vorhersagbar genug sein, damit Gegner lernen können, mit einem zu kooperieren). Diese Prinzipien haben tiefgreifende Implikationen weit über die Spieltheorie hinaus — sie erhellen die Evolution der Kooperation in Biologie, Diplomatie und alltäglichen sozialen Interaktionen.

Die Rolle des Rauschens

In realen Interaktionen sind Signale unvollkommen. Der «Rausch»-Parameter modelliert versehentliche Defektionen oder missverstandene Kooperationen. Unter Rauschen kann strenges TFT in Zyklen gegenseitiger Vergeltung gefangen werden, ausgelöst durch einen einzigen Fehler. Dies führte Forscher wie Nowak und Sigmund zur Entdeckung von Strategien wie Win-Stay Lose-Shift (Pavlov), die robuster gegenüber Rauschen sind. Erhöhen Sie den Rausch-Regler, um zu sehen, wie Fehler kooperative Strategien beeinträchtigen.

Die Simulation verstehen

Passen Sie die Populationsanteile an, um zu sehen, wie verschiedene ökologische Zusammensetzungen die Ergebnisse verändern. In einer von Defekteuren dominierten Welt hat selbst TFT Schwierigkeiten. Aber wenn genügend kooperative oder reziproke Strategien vorhanden sind, bilden sie Cluster gegenseitiger Kooperation, die reine Defektion übertreffen. Das ist der Kern von Axelrods Erkenntnis: Kooperation kann sich entwickeln und aufrechterhalten — selbst unter eigennützigen Akteuren, sofern ausreichend Wiederholung und die Möglichkeit zur Reziprozität bestehen.

Häufige Fragen

Was ist das Gefangenendilemma?

Das Gefangenendilemma ist ein Grundmodell der Spieltheorie, bei dem zwei rationale Akteure gleichzeitig zwischen Kooperieren und Defektieren wählen. Gegenseitige Kooperation bringt ein gutes Ergebnis für beide (R=3,3), aber jeder hat einen individuellen Anreiz zu defektieren (T=5 vs S=0), was zur gegenseitigen Defektion führt (P=1,1) — ein schlechteres Ergebnis für beide.

Warum gewinnt Tit-for-Tat in iterierten Spielen?

In Robert Axelrods berühmten Computerturnieren von 1984 gewann Tit-for-Tat, weil es vier Schlüsseleigenschaften vereint: Es ist freundlich (defektiert nie zuerst), vergeltend (bestraft Defektion sofort), vergebend (kehrt nach einer Bestrafung zur Kooperation zurück) und transparent (seine Strategie ist leicht erkennbar).

Was bedeutet die Auszahlungsmatrix T=5, R=3, P=1, S=0?

Das sind die Standard-Auszahlungen des Gefangenendilemmas: T (Versuchung zu defektieren) = 5, R (Belohnung für gegenseitige Kooperation) = 3, P (Strafe für gegenseitige Defektion) = 1, S (Naivenauszahlung) = 0. Die Bedingung T > R > P > S stellt die Dilemmastruktur sicher.

Wie beeinflusst Rauschen das Gefangenendilemma?

Rauschen — zufällige Fehler bei der Ausführung der beabsichtigten Aktion — kann bei Tit-for-Tat «Echoeffekte» auslösen, bei denen ein einzelner Fehler zu einer Kaskade abwechselnder Defektionen führt. Deshalb können vergebungsvollere Strategien wie Großzügiges TFT oder Win-Stay Lose-Shift strenges TFT in verrauschten Umgebungen übertreffen.

Quellen

Einbetten

<iframe src="https://homo-deus.com/lab/game-theory/prisoners-dilemma/embed" width="100%" height="400" frameborder="0"></iframe>
View source on GitHub