Представлен ИИ-агент IronCurtain, призванный предотвратить выход из-под контроля

США - Информационное агентство Эхбари

Представлен ИИ-агент IronCurtain, призванный предотвратить выход из-под контроля

Бурный рост популярности ИИ-агентов, таких как OpenClaw, кардинально изменил наше взаимодействие с цифровым миром. Эти сложные помощники обещают оптимизировать задачи: от составления персонализированных новостных лент и ведения переговоров со службами поддержки клиентов от нашего имени до тщательного управления списками дел. Их основная функция заключается в доступе к учетным записям пользователей и выполнении команд. Эта возможность, хоть и чрезвычайно мощная, также привела к значительным и часто непредвиденным проблемам. Появлялись сообщения об ИИ-агентах, ошибочно удаляющих важные электронные письма, создающих вредоносный контент на основе недоразумений и даже организующих фишинговые атаки на своих собственных пользователей.

Став свидетелем этого нарастающего цифрового хаоса, опытный инженер по безопасности и исследователь Нильс Провос представил революционное решение: IronCurtain. Этот безопасный ИИ-помощник с открытым исходным кодом разработан для обеспечения жизненно важного уровня контроля, снижая риски, связанные с автономными цифровыми агентами. В отличие от традиционных подходов, где агенты напрямую взаимодействуют с системами пользователей, IronCurtain работает в изолированной виртуальной машине. Каждое действие, которое пытается предпринять агент, тщательно проверяется на соответствие набору политик, которые Провос концептуально определил как "конституцию", созданную пользователем для ИИ.

Читайте также

Ключевая инновация IronCurtain заключается в его способности интерпретировать и применять эти политики, которые могут быть сформулированы на естественном языке, например, на английском. Система использует сложный многоэтапный процесс, задействуя большую языковую модель (LLM) для преобразования директив на естественном языке в конкретные, применимые политики безопасности. "Сервисы вроде OpenClaw сейчас на пике популярности, но я надеюсь, что появится возможность сказать: 'Ну, вероятно, мы не должны делать это так'," — пояснил Провос. "Вместо этого, давайте разработаем что-то, что по-прежнему дает вам очень высокую полезность, но не будет идти по этим совершенно неизведанным, иногда разрушительным путям."

Провос подчеркивает критическую роль детерминированного применения политик IronCurtain в решении присущей LLM вероятностной природы. "LLM известны своей стохастичностью и вероятностным характером," — отметил он. "Другими словами, они не обязательно всегда генерируют один и тот же контент или предоставляют одну и ту же информацию в ответ на один и тот же запрос." Эта непредсказуемость представляет собой серьезную проблему для мер безопасности ИИ, поскольку системы ИИ могут развиваться таким образом, что изменяют свое толкование механизмов контроля, что потенциально может привести к неконтролируемым действиям. IronCurtain стремится установить четкие, неизменные границы.

В качестве примера Провос привел образец политики IronCurtain: "Агент может читать всю мою электронную почту. Он может отправлять электронные письма людям из моего списка контактов без моего разрешения. Для кого-либо другого, спроси меня сначала. Никогда не удаляй ничего окончательно." IronCurtain преобразует такие инструкции в исполняемую политику. Затем он действует как посредник, управляя взаимодействием между агентом-помощником, работающим в виртуальной машине, и серверными системами, которые предоставляют LLM доступ к данным и сервисам. Такое контролируемое делегирование полномочий вводит важный механизм контроля доступа, который текущие веб-платформы, разработанные для одного пользователя, обычно не предлагают для совместного доступа к учетной записи человека и ИИ.

Похожие новости

Кроме того, IronCurtain разработан для постоянного совершенствования. По мере того, как система сталкивается с новыми ситуациями или крайними случаями, она может запрашивать ввод пользователя для уточнения "конституции" с течением времени. Платформа также не зависит от конкретной модели, что означает, что она может быть интегрирована с любой LLM, и она тщательно ведет журнал аудита всех решений по политикам, обеспечивая прозрачность и подотчетность. В настоящее время IronCurtain является исследовательским прототипом, а не коммерческим продуктом, и Провос призывает сообщество вносить свой вклад для содействия его развитию. Известный исследователь в области кибербезопасности Дино Дай Зови, который тестировал ранние версии, высоко оценил концептуальную основу. "Многие агенты до сих пор добавляли системы разрешений, которые фактически возлагают все бремя на пользователя, чтобы он говорил 'да, разреши это', 'да, разреши то'," — отметил Дай Зови. "Большинство пользователей начнут терять интерес и в конечном итоге просто скажут: 'да, да, да'." Он противопоставил это подходу IronCurtain, где определенные высокорискованные возможности, такие как удаление файлов, могут быть полностью выведены из сферы досягаемости LLM, не позволяя агенту действовать независимо от запроса. Дай Зови утверждает, что такие, казалось бы, жесткие ограничения "черно-белые" на самом деле необходимы для предоставления ИИ большей автономии. "Если мы хотим большей скорости и большей автономии, нам нужна поддерживающая структура," — заявил он, используя аналогию: "Вы помещаете ракетный двигатель внутрь настоящей ракеты, чтобы у нее была стабильность, чтобы добраться туда, куда вы хотите. Я мог бы привязать реактивный двигатель к спине в рюкзаке, и я бы точно погиб."

Информационное агентство Эхбари

Представлен ИИ-агент IronCurtain, призванный предотвратить выход из-под контроля

Исследователь в области безопасности запустил помощник с отк