La inteligencia artificial avanza a un ritmo vertiginoso. Los grandes modelos de lenguaje, los agentes autónomos y la auto-mejora recursiva ya no son ciencia ficción. Esto plantea lo que muchos investigadores consideran la pregunta más importante del siglo XXI: ¿cómo nos aseguramos de que sistemas de IA mucho más capaces que los humanos sigan siendo beneficiosos?
El problema del alineamiento —garantizar que los objetivos de una IA coincidan con las intenciones humanas— no tiene solución técnica comprobada. Los desafíos clave incluyen: la explosión de inteligencia (auto-mejora recursiva que genera un aumento rápido de capacidades), la Ley de Goodhart (optimizar un objetivo proxy que diverge del objetivo real), la mesa-optimización (optimizadores aprendidos con sus propios objetivos emergentes) y el problema de coordinación (múltiples actores compitiendo por desplegar IA poderosa sin medidas de seguridad adecuadas).
Estas simulaciones modelan las dinámicas centrales del riesgo de IA utilizando marcos matemáticos de economía, teoría de juegos y teoría de la decisión. Explora cómo distintos supuestos sobre la naturaleza del crecimiento de la inteligencia conducen a resultados radicalmente distintos, y por qué el problema del alineamiento es tan difícil de resolver.