Impuesto de alineamiento: el coste de construir inteligencia artificial segura
Fórmula
\text{Capability}_{\text{aligned}}(t) = R \cdot (1 - o)^t\text{Risk}(t) = \frac{C(t) \cdot (1 - q)}{C(t) + 1}\text{Welfare}(t) = C(t) \cdot (1 - \text{Risk}(t))o^* = \arg\max_o \; C(T, o) \cdot (1 - \text{Risk}(T, o)) Preguntas frecuentes
¿Qué es el impuesto de alineamiento en IA?
El impuesto de alineamiento es el coste en capacidad que impone construir sistemas de IA seguros y alineados con los valores humanos. Representa la brecha de rendimiento entre un sistema de IA desarrollado sin restricciones de seguridad y uno desarrollado con técnicas de alineamiento como RLHF, IA constitucional o verificación formal. Paul Christiano acuñó el término para enmarcar el alineamiento no como un obstáculo sino como un coste a minimizar.
¿Por qué el alineamiento ralentiza el desarrollo de la IA?
La sobrecarga de alineamiento consume recursos (cómputo, tiempo de investigadores, datos) que de otro modo se dedicarían a la mejora pura de capacidades. Técnicas como el aprendizaje por refuerzo con retroalimentación humana requieren una anotación humana extensiva. Las pruebas de equipo rojo y las evaluaciones de seguridad añaden ciclos de desarrollo. La verificación formal impone restricciones arquitectónicas. Estos costes se acumulan con el tiempo, ampliando la brecha entre las trayectorias de capacidad alineada y no alineada.
¿Cuál es el nivel óptimo de inversión en alineamiento?
La sobrecarga óptima de alineamiento maximiza el bienestar social, definido como capacidad multiplicada por (1 - riesgo). Muy poco alineamiento significa que el alto riesgo erosiona el bienestar. Demasiado significa capacidad insuficiente. El óptimo depende de la calidad del alineamiento — mejores técnicas desplazan el óptimo hacia más inversión porque cada unidad de sobrecarga compra más seguridad.
¿Cómo afecta la competencia entre laboratorios de IA al alineamiento?
La dinámica de carrera crea un problema de acción colectiva. Cada laboratorio tiene un incentivo individual para minimizar la sobrecarga de alineamiento por ventaja competitiva, pero el efecto agregado es un mayor riesgo social. Los mecanismos de coordinación como estándares de seguridad, requisitos regulatorios o compromisos voluntarios pueden empujar el equilibrio hacia el óptimo social.
Fuentes
- [object Object]
- [object Object]
- [object Object]
- [object Object]