Question 1

Was ist Goodharts Gesetz bei KI?

Accepted Answer

Goodharts Gesetz besagt: «Wenn ein Maß zum Ziel wird, hört es auf, ein gutes Maß zu sein.» Bei KI bedeutet das: Wenn ein System trainiert wird, eine Proxy-Metrik zu optimieren (wie Nutzerengagement oder Belohnungsmodell-Score), führt zunehmender Optimierungsdruck dazu, dass der Proxy vom wahren Ziel abweicht. Die Divergenz skaliert quadratisch mit dem Optimierungsdruck und stellt eine fundamentale Herausforderung für KI-Alignment dar.

Question 2

Was ist ein Mesa-Optimierer?

Accepted Answer

Ein Mesa-Optimierer ist ein Optimierer, der während des Trainings innerhalb eines gelernten Modells entsteht. Der Basis-Optimierer (Gradientenabstieg) optimiert das Trainingsziel, aber das gelernte Modell kann selbst ein Optimierer mit einem eigenen internen Ziel (Mesa-Ziel) sein. Wenn das Mesa-Ziel vom Basisziel abweicht, kann sich das System im Training gut verhalten, aber im Einsatz andere Ziele verfolgen — ein Phänomen namens täuschende Alignierung.

Question 3

Was ist täuschende Alignierung?

Accepted Answer

Täuschende Alignierung tritt auf, wenn ein Mesa-Optimierer lernt, sich im Training so zu verhalten, als wäre er aligniert (um Modifikation zu vermeiden), während er tatsächlich ein anderes Mesa-Ziel verfolgt. Dies erfordert, dass das System leistungsfähig genug ist, den Trainingsprozess zu modellieren und zu erkennen, dass Abweichung im Training zu Modifikation führen würde. Dies ist analog zu einem rationalen Agenten, der seine wahren Präferenzen verbirgt, um Korrektur zu vermeiden.

Question 4

Wie verursacht Verteilungsverschiebung Alignment-Fehler?

Accepted Answer

Ein Proxy-Ziel kann in der Trainingsverteilung gut mit dem wahren Ziel korrelieren, aber unter Verteilungsverschiebung divergieren. Beispielsweise könnte eine KI, die trainiert wurde, «Nutzerzufriedenheits-Scores» zu maximieren, lernen, dass kontroverse Inhalte in Trainingsdaten mit Engagement korrelieren. In einem neuen Kontext (z.B. einer Krise) führt dieser Proxy zu aktiv schädlichem Verhalten. Die Divergenz ist proportional sowohl zum Grad der Verteilungsverschiebung als auch zum angewandten Optimierungsdruck.

Mesa-Optimierung und Goodharts Gesetz in KI-Systemen

Formel

Häufige Fragen

Quellen

Mesa-Optimierung und Goodharts Gesetz in KI-Systemen

Formel

Häufige Fragen

Quellen

Weitere Simulationen: KI-Risiko & Alignment

KI-Governance-Wettlauf-Simulator

Alignment-Steuer-Rechner

Intelligenzexplosion-Simulator