computer-science

Риски ИИ и проблема выравнивания

Экзистенциальный вызов создания сверхразумных систем, которые остаются согласованными с человеческими ценностями и интересами.

безопасность ИИвыравниваниесверхразумэкзистенциальный рискзакон Гудхартамеза-оптимизация

Искусственный интеллект развивается стремительно. Большие языковые модели, автономные агенты и рекурсивное самоулучшение — это уже не научная фантастика. Это ставит вопрос, который многие исследователи считают важнейшим в XXI веке: как гарантировать, что системы ИИ, значительно превосходящие человека, останутся полезными?

Проблема выравнивания (alignment) — обеспечение соответствия целей ИИ намерениям людей — технически не решена. Ключевые вызовы включают: взрыв интеллекта (рекурсивное самоулучшение, ведущее к скачку возможностей), закон Гудхарта (оптимизация прокси-цели, расходящейся с истинной), меза-оптимизацию (обученные оптимизаторы с собственными эмерджентными целями) и проблему координации (множество игроков, спешащих развернуть мощный ИИ без должных мер безопасности).

Эти симуляции моделируют ключевые динамики риска ИИ с использованием математических фреймворков из экономики, теории игр и теории принятия решений. Исследуйте, как различные предположения о природе роста интеллекта ведут к радикально разным исходам, и почему проблема выравнивания так трудно поддаётся решению.

4 интерактивных симуляций

simulation

Симулятор динамики гонки в управлении ИИ

Моделируйте гонку разработки ИИ с множеством участников, где конкурентное давление, инвестиции в безопасность и международная координация определяют катастрофический риск. Исследуйте, как динамика гонки создаёт проблемы коллективного действия и как механизмы управления могут снизить экзистенциальный риск.

simulation

Калькулятор налога на выравнивание

Количественно оцените компромисс между способностями ИИ и безопасностью. «Налог на выравнивание» — это цена в способностях за создание безопасных систем ИИ. Симулятор моделирует, как накладные расходы на выравнивание влияют на рост способностей, катастрофический риск и общественное благосостояние, выявляя оптимальный уровень инвестиций в безопасность.

simulation

Симулятор взрыва интеллекта

Исследуйте динамику рекурсивного самоулучшения и условия, при которых ИИ переходит к медленному, экспоненциальному или гиперболическому (FOOM) взлёту. На основе гипотезы взрыва интеллекта И.Дж. Гуда и формализованной модели рекурсивного самоулучшения Бострома.

simulation

Симулятор меза-оптимизации и закона Гудхарта

Визуализируйте, как оптимизация прокси-цели расходится с истинной целью при сдвиге распределения, и как меза-оптимизаторы могут стать обманчиво выровненными, когда способности превышают надзор. Объединяет закон Гудхарта с фреймворком меза-оптимизации от Хубингера и соавторов.