computer-science

KI-Risiko & Alignment

Die existenzielle Herausforderung, superintelligente Systeme zu bauen, die mit menschlichen Werten und Interessen vereinbar bleiben.

KI-SicherheitAlignmentSuperintelligenzExistenzrisikoGoodharts GesetzMesa-Optimierung

Künstliche Intelligenz entwickelt sich rasant. Große Sprachmodelle, autonome Agenten und rekursive Selbstverbesserung sind keine Science-Fiction mehr. Das wirft auf, was viele Forscher als die wichtigste Frage des 21. Jahrhunderts betrachten: Wie stellen wir sicher, dass KI-Systeme, die den Menschen weit übertreffen, dem Wohl der Menschheit dienen?

Das Alignment-Problem — sicherzustellen, dass die Ziele einer KI mit menschlichen Absichten übereinstimmen — ist technisch ungelöst. Zentrale Herausforderungen sind: die Intelligenzexplosion (rekursive Selbstverbesserung mit rasch wachsenden Fähigkeiten), Goodharts Gesetz (Optimierung eines Proxy-Ziels, das vom eigentlichen Ziel abweicht), Mesa-Optimierung (gelernte Optimierer mit eigenen emergenten Zielen) und das Koordinationsproblem (mehrere Akteure im Wettlauf um den Einsatz leistungsstarker KI ohne ausreichende Sicherheitsmaßnahmen).

Diese Simulationen modellieren die Kerndynamiken des KI-Risikos mithilfe mathematischer Rahmenwerke aus Wirtschaft, Spieltheorie und Entscheidungstheorie. Erkunden Sie, wie unterschiedliche Annahmen über die Natur des Intelligenzwachstums zu radikal verschiedenen Ergebnissen führen und warum das Alignment-Problem so schwer zu lösen ist.

4 interaktive Simulationen

simulation

KI-Governance-Wettlauf-Simulator

Modellieren Sie den KI-Entwicklungswettlauf mit mehreren Akteuren, bei dem Wettbewerbsdruck, Sicherheitsinvestition und internationale Koordination das Katastrophenrisiko bestimmen. Erkunden Sie, wie Wettlaufdynamiken kollektive Handlungsprobleme erzeugen und wie Governance-Mechanismen existenzielles Risiko reduzieren können.

simulation

Alignment-Steuer-Rechner

Quantifizieren Sie den Kompromiss zwischen KI-Leistungsfähigkeit und Sicherheit. Die «Alignment-Steuer» ist der Leistungskosten sicherer KI-Systeme. Dieser Simulator modelliert, wie Alignment-Overhead das Leistungswachstum, das Katastrophenrisiko und die gesellschaftliche Wohlfahrt beeinflusst und die optimale Sicherheitsinvestition aufzeigt.

simulation

Intelligenzexplosion-Simulator

Erkunden Sie die Dynamik rekursiver Selbstverbesserung und die Bedingungen, unter denen künstliche Intelligenz einen langsamen, exponentiellen oder hyperbolischen (FOOM) Takeoff durchläuft. Basierend auf I.J. Goods Intelligenzexplosions-Hypothese und formalisiert durch Bostroms Modell rekursiver Selbstverbesserung.

simulation

Mesa-Optimierung & Goodharts-Gesetz-Simulator

Visualisieren Sie, wie die Optimierung eines Proxy-Ziels unter Verteilungsverschiebung vom wahren Ziel abweicht, und wie Mesa-Optimierer täuschend aligniert werden können, wenn die Leistungsfähigkeit die Aufsicht übersteigt. Kombiniert Goodharts Gesetz mit dem Mesa-Optimierungs-Rahmenwerk von Hubinger et al.