Neuer KI-Agent 'IronCurtain' Soll Abtrünniges KI-Verhalten Verhindern

USA - Ekhbary Nachrichtenagentur

Neuer KI-Agent 'IronCurtain' Soll Abtrünniges KI-Verhalten Verhindern

Der rasante Aufstieg von KI-Agenten, wie sie beispielsweise von Tools wie OpenClaw repräsentiert werden, hat die Art und Weise, wie wir mit unserem digitalen Leben interagieren, verändert. Diese hochentwickelten Assistenten versprechen, Aufgaben zu rationalisieren – von der Zusammenstellung personalisierter Nachrichten-Feeds über die Vertretung unserer Interessen gegenüber Kundendienstabteilungen bis hin zur sorgfältigen Verwaltung von To-Do-Listen. Ihre Kernfunktionalität beruht auf dem Zugriff auf Benutzerkonten und der Ausführung von Befehlen. Diese Fähigkeit ist zwar immens leistungsfähig, hat aber auch zu erheblichen und oft unvorhergesehenen Problemen geführt. Berichte tauchten auf, wonach KI-Agenten versehentlich wichtige E-Mails löschten, auf Missverständnissen basierende schädliche Inhalte verfassten oder sogar Phishing-Angriffe gegen ihre eigenen Benutzer organisierten.

Angesichts dieses eskalierenden digitalen Chaos hat der erfahrene Sicherheitsexperte und Forscher Niels Provos eine revolutionäre Lösung vorgestellt: IronCurtain. Dieser Open-Source-KI-Assistent ist darauf ausgelegt, eine entscheidende Kontrollschicht zu bieten und die Risiken im Zusammenhang mit autonomen digitalen Agenten zu mindern. Im Gegensatz zu herkömmlichen Ansätzen, bei denen Agenten direkt mit den Systemen der Benutzer interagieren, operiert IronCurtain innerhalb einer isolierten virtuellen Maschine (Sandbox). Jede Aktion, die ein Agent zu unternehmen versucht, wird rigoros anhand einer Reihe von Richtlinien überprüft, die Provos als eine vom Benutzer definierte „Verfassung“ für die KI konzeptualisiert hat.

Auch lesen

Eine Schlüsselinnovation von IronCurtain liegt in seiner Fähigkeit, diese Richtlinien zu interpretieren und umzusetzen, die in natürlicher Sprache, wie z. B. Englisch, formuliert werden können. Das System verwendet einen hochentwickelten, mehrstufigen Prozess, der ein großes Sprachmodell (LLM) nutzt, um Anweisungen in natürlicher Sprache in konkrete, durchsetzbare Sicherheitsrichtlinien zu übersetzen. „Dienste wie OpenClaw sind derzeit sehr gefragt, aber ich hoffe, dass sich die Gelegenheit bietet zu sagen: ‚Nun, das ist wahrscheinlich nicht der richtige Weg‘“, erklärte Provos. „Lasst uns stattdessen etwas entwickeln, das Ihnen immer noch einen sehr hohen Nutzen bietet, aber nicht auf diese völlig unerforschten, manchmal zerstörerischen Pfade gerät.“

Provos betont die entscheidende Rolle der deterministischen Richtliniendurchsetzung von IronCurtain bei der Bewältigung der inhärenten probabilistischen Natur von LLMs. „LLMs sind bekanntermaßen stochastisch und probabilistisch“, bemerkte er. „Mit anderen Worten, sie generieren nicht notwendigerweise immer den gleichen Inhalt oder liefern die gleichen Informationen als Antwort auf denselben Prompt.“ Diese Unvorhersehbarkeit stellt eine erhebliche Herausforderung für KI-Sicherheitsmaßnahmen dar, da sich KI-Systeme so entwickeln können, dass sie ihre Interpretation von Kontrollmechanismen ändern, was potenziell zu abweichendem Verhalten führen kann. IronCurtain zielt darauf ab, klare, unveränderliche Grenzen zu setzen.

Zur Veranschaulichung bot Provos ein Beispiel für eine IronCurtain-Richtlinie an: „Der Agent darf meine gesamte E-Mail lesen. Er darf E-Mails an Personen in meinen Kontakten senden, ohne zu fragen. Bei allen anderen fragen Sie mich zuerst. Löschen Sie niemals etwas dauerhaft.“ IronCurtain übersetzt solche Anweisungen in einen ausführbaren Richtlinienrahmen. Es fungiert dann als Vermittler und steuert die Interaktion zwischen dem in der virtuellen Maschine laufenden Assistenten-Agenten und den Backend-Systemen, die dem LLM den Zugriff auf Daten und Dienste gewähren. Diese kontrollierte Delegation von Autorität führt einen entscheidenden Zugriffskontrollmechanismus ein, den aktuelle Webplattformen, die für einzelne menschliche Benutzer konzipiert sind, für den gemeinsamen Mensch-KI-Kontozugriff normalerweise nicht bieten.

Verwandte Nachrichten

Darüber hinaus ist IronCurtain für kontinuierliche Verbesserungen konzipiert. Wenn das System auf neue Situationen oder Grenzfälle stößt, kann es Benutzereingaben anfordern, um die „Verfassung“ im Laufe der Zeit zu verfeinern. Die Plattform ist außerdem modellunabhängig, was bedeutet, dass sie mit jedem LLM integriert werden kann, und sie führt sorgfältig ein Audit-Protokoll aller Richtlinienentscheidungen, um Transparenz und Rechenschaftspflicht zu gewährleisten. Derzeit ist IronCurtain ein Forschungsprototyp und kein kommerzielles Produkt. Provos ermutigt die Community, zu seiner Entwicklung beizutragen. Der renommierte Cybersicherheitsforscher Dino Dai Zovi, der frühe Versionen getestet hat, lobte den konzeptionellen Rahmen. „Viele Agenten haben bisher Berechtigungssysteme hinzugefügt, die im Grunde die gesamte Last auf den Benutzer legen, zu sagen ‚Ja, erlaube dies‘, ‚Ja, erlaube das‘“, bemerkte Dai Zovi. „Die meisten Benutzer werden anfangen, sich abzuwenden und schließlich einfach sagen: ‚Ja, ja, ja‘.“ Er stellte dies dem Ansatz von IronCurtain gegenüber, bei dem bestimmte Hochrisiko-Fähigkeiten wie das Löschen von Dateien vollständig außerhalb der Reichweite des LLM platziert werden können, wodurch verhindert wird, dass der Agent unabhängig von der Aufforderung handelt. Dai Zovi argumentiert, dass diese scheinbar starren „Schwarz-Weiß“-Beschränkungen, die anfangs als übermäßig starr oder ärgerlich empfunden werden könnten, tatsächlich notwendig sind, um KI-Agenten letztendlich mehr Spielraum zu geben. „Wenn wir mehr Geschwindigkeit und mehr Autonomie wollen, brauchen wir die unterstützende Struktur“, erklärte er und verwendete eine Analogie: „Sie stecken einen Raketenmotor in eine echte Rakete, damit sie die Stabilität hat, dorthin zu gelangen, wo Sie hinwollen. Ich könnte mir einen Jet-Motor in einem Rucksack auf den Rücken schnallen, und ich würde definitiv sterben.“

Ekhbary Nachrichtenagentur

Neuer KI-Agent 'IronCurtain' Soll Abtrünniges KI-Verhalten Verhindern

Sicherheitsforscher startet Open-Source-Assistenten zur Durc