computer-science

Riesgo Existencial de la IA y Alineamiento

El desafío existencial de construir sistemas superinteligentes que permanezcan alineados con los valores e intereses humanos.

seguridad de la IAalineamientosuperinteligenciariesgo existencialley de Goodhartmesa-optimización

La inteligencia artificial avanza a un ritmo vertiginoso. Los grandes modelos de lenguaje, los agentes autónomos y la auto-mejora recursiva ya no son ciencia ficción. Esto plantea lo que muchos investigadores consideran la pregunta más importante del siglo XXI: ¿cómo nos aseguramos de que sistemas de IA mucho más capaces que los humanos sigan siendo beneficiosos?

El problema del alineamiento —garantizar que los objetivos de una IA coincidan con las intenciones humanas— no tiene solución técnica comprobada. Los desafíos clave incluyen: la explosión de inteligencia (auto-mejora recursiva que genera un aumento rápido de capacidades), la Ley de Goodhart (optimizar un objetivo proxy que diverge del objetivo real), la mesa-optimización (optimizadores aprendidos con sus propios objetivos emergentes) y el problema de coordinación (múltiples actores compitiendo por desplegar IA poderosa sin medidas de seguridad adecuadas).

Estas simulaciones modelan las dinámicas centrales del riesgo de IA utilizando marcos matemáticos de economía, teoría de juegos y teoría de la decisión. Explora cómo distintos supuestos sobre la naturaleza del crecimiento de la inteligencia conducen a resultados radicalmente distintos, y por qué el problema del alineamiento es tan difícil de resolver.

4 simulaciones interactivas

simulation

Simulador de Dinámica de Carrera en Gobernanza de IA

Modela la carrera de desarrollo de IA entre múltiples actores donde la presión competitiva, la inversión en seguridad y la coordinación internacional determinan el riesgo catastrófico. Explora cómo la dinámica de carrera crea problemas de acción colectiva y cómo los mecanismos de gobernanza pueden reducir el riesgo existencial.

simulation

Calculadora del Impuesto de Alineamiento

Cuantifica el compromiso entre capacidad y seguridad de la IA. El 'impuesto de alineamiento' es el coste en capacidad de construir sistemas de IA seguros. Este simulador modela cómo la sobrecarga de alineamiento afecta el crecimiento de capacidades, el riesgo catastrófico y el bienestar social, revelando la inversión óptima en seguridad.

simulation

Simulador de Explosión de Inteligencia

Explora la dinámica de la auto-mejora recursiva y las condiciones bajo las cuales la inteligencia artificial experimenta un despegue lento, exponencial o hiperbólico (FOOM). Basado en la hipótesis de explosión de inteligencia de I.J. Good y formalizado por el modelo de auto-mejora recursiva de Bostrom.

simulation

Simulador de Mesa-Optimización y Ley de Goodhart

Visualiza cómo optimizar un objetivo proxy diverge del objetivo real bajo cambio de distribución, y cómo los mesa-optimizadores pueden alinearse engañosamente cuando la capacidad supera la supervisión. Combina la Ley de Goodhart con el marco de mesa-optimización de Hubinger et al.