Налог на выравнивание: цена создания безопасного искусственного интеллекта
Формула
\text{Capability}_{\text{aligned}}(t) = R \cdot (1 - o)^t\text{Risk}(t) = \frac{C(t) \cdot (1 - q)}{C(t) + 1}\text{Welfare}(t) = C(t) \cdot (1 - \text{Risk}(t))o^* = \arg\max_o \; C(T, o) \cdot (1 - \text{Risk}(T, o)) Частые вопросы
Что такое налог на выравнивание в ИИ?
Налог на выравнивание — это цена в способностях, которую приходится платить за создание безопасных систем ИИ, согласованных с человеческими ценностями. Он представляет разрыв в производительности между системой ИИ, разработанной без ограничений безопасности, и системой с техниками выравнивания — такими как RLHF, конституционный ИИ или формальная верификация. Пол Кристиано ввёл этот термин, чтобы представить выравнивание не как препятствие, а как затрату, которую нужно минимизировать.
Почему выравнивание замедляет развитие ИИ?
Накладные расходы на выравнивание потребляют ресурсы (вычисления, время исследователей, данные), которые иначе были бы потрачены на чистое улучшение способностей. Техники вроде обучения с подкреплением на основе обратной связи от людей требуют обширной человеческой аннотации. Красная команда и тестирование безопасности добавляют циклы разработки. Формальная верификация налагает архитектурные ограничения. Эти затраты накапливаются со временем, расширяя разрыв между траекториями выровненных и невыровненных способностей.
Каков оптимальный уровень инвестиций в выравнивание?
Оптимальные накладные расходы на выравнивание максимизируют общественное благосостояние, определяемое как способности × (1 − риск). Слишком мало выравнивания — высокий риск подрывает благосостояние. Слишком много — недостаточные способности. Оптимум зависит от качества выравнивания: лучшие техники сдвигают оптимум в сторону больших инвестиций, поскольку каждая единица накладных расходов покупает больше безопасности.
Как конкуренция между лабораториями ИИ влияет на выравнивание?
Динамика гонки создаёт проблему коллективного действия. Каждая лаборатория имеет индивидуальный стимул минимизировать накладные расходы на выравнивание для конкурентного преимущества, но совокупный эффект — повышение общественного риска. Механизмы координации — стандарты безопасности, регуляторные требования или добровольные обязательства — могут сдвинуть равновесие к социальному оптимуму.
Источники
- [object Object]
- [object Object]
- [object Object]
- [object Object]