Von Output Safety zu Action Safety: Der neue Standard für KI-Agenten in der EU

🔗 Serie: Autonomous but Accountable – aktuell: Teil 1 → Teil 2: GDPR Artikel 22 & Der Blast Radius

Ein Sprachmodell, das halluziniert, ist ärgerlich. Ein KI-Agent, der halluziniert und eine Datenbank löscht oder eine rogue E-Mail versendet, ist eine Compliance-Katastrophe. Willkommen in der Welt der Action Safety – dem neuen Standard für verantwortungsvolle KI-Agenten in Europa.

Die Generation generativer KI war von einem grundlegenden Irrtum geprägt: Wer die Textausgabe eines Large Language Models kontrolliert, kontrolliert auch die Risiken. Prompt Engineering, System Prompts und Output-Filter galten als ausreichend, um KI-Systeme sicher zu betreiben.

Doch mit dem Aufkommen agentischer KI hat sich die Risikolandschaft fundamental verändert. Ein KI-Agent tut nicht nur etwas – er tut etwas in der realen Welt. Er sendet E-Mails, aktualisiert Datenbanken, erstellt Rechnungen, bucht Termine oder ändert Bestellungen. Jeder dieser Schritte kann rechtliche und finanzielle Konsequenzen haben.

Der Shift: Vom Output-Risiko zum Action-Risiko

Bei generativer KI beschränkte sich das Risiko auf die Textausgabe. Ein falscher Satz in einer Chat-Antwort ist ärgerlich, aber selten katastrophal. Bei agentischer KI geht es um Aktionen:

Datenbank-Operationen: Ein Agent mit Schreibzugriff könnte versehentlich Datensätze löschen oder überschreiben
Kommunikation: Ein Agent könnte falsche oder unangemessene E-Mails an Kunden senden
Transaktionen: Ein Agent könnte Bestellungen auslösen oder Zahlungen veranlassen
Datenzugriff: Ein Agent könnte auf sensible Kundendaten zugreifen und diese ungewollt preisgeben

Die EU hat mit dem AI Act einen regulatorischen Rahmen geschaffen, der genau diese Risiken adressiert. Für europäische Unternehmen bedeutet das: Prompt Engineering allein ist rechtlich und technisch unzureichend.

Warum Prompt Engineering nicht reicht

Viele Unternehmen setzen auf raffinierte System Prompts, um ihre KI-Agenten zu steuern. Doch dieser Ansatz hat fundamentale Schwächen:

Jailbreaking: Ein kreativ formulierter Prompt kann jede textbasierte Einschränkung umgehen
Keine Durchsetzbarkeit: Ein System Prompt ist eine Bitte, kein Befehl – das LLM kann ihn ignorieren
Keine Audit-Fähigkeit: Wenn ein Agent einen Fehler macht, lässt sich nicht nachvollziehen, warum der Prompt versagt hat
Rechtliche Grauzone: Wer haftet, wenn ein Prompt-basierter Agent einen Schaden verursacht?

Die Lösung für europäische Unternehmen heißt Action Safety – deterministische, code-basierte Guardrails, die als Schutzschalter (Circuit Breaker) fungieren und einen Agenten physisch daran hindern, unautorisierte Befehle auszuführen – unabhängig davon, was das LLM entscheidet.

Action Safety: Die drei Schutzschichten

Eine robuste Action-Safety-Architektur besteht aus drei unabhängigen Schichten:

Schicht 1: Deterministische Tool-Perimeter

Jedes Tool, das ein Agent verwenden darf, hat eine harte, code-basierte Grenze. Eine E-Mail-API darf nur an genehmigte Empfänger senden. Eine Datenbank-API darf nur lesen, nicht schreiben. Diese Grenzen sind nicht im Prompt definiert, sondern im Code – und können vom LLM nicht umgangen werden.

Schicht 2: Policy Engine

Bevor ein Agent eine Aktion ausführt, wird der Tool-Call durch eine deterministische Policy Engine validiert. Diese Engine prüft anhand hartcodierter Regeln, ob die Aktion erlaubt ist – unabhängig von der LLM-Entscheidung. Die Policy Engine ist das Herzstück der Agent Control Plane, die in Teil 5 dieser Serie im Detail beschrieben wird.

Schicht 3: Human-in-the-Loop (HITL)

Für risikoreiche Aktionen – etwa das Senden einer E-Mail an einen Kunden oder das Ändern einer Bestellung – wird die Ausführung pausiert und ein menschlicher Operator muss die Aktion freigeben. Dieses Prinzip wird in Teil 2 dieser Serie im Kontext der GDPR Article 22 Compliance vertieft.

Wie Cybereiche Action Safety für europäische Unternehmen umsetzt

Die Implementierung von Action Safety erfordert tiefgehendes Verständnis der Agenten-Architektur, der EU-Regulatorik und der Sicherheitsmechanismen. Die Experten von Cybereiche haben umfangreiche Erfahrung in der Entwicklung von KI-Agenten mit deterministischen Schutzmechanismen.

Ob der Aufbau einer deterministischen Policy Engine, die Integration von RAG-Pipelines mit Action-Safety-Guardrails, die Entwicklung von KI-Chatbot-Lösungen mit HITL-Mechanismen oder die Durchführung eines Vulnerability Assessments für Ihre KI-Infrastruktur – Cybereiche liefert die passende Lösung für jedes Anforderungsprofil.

Fazit – und wie Sie Cybereiche kontaktieren

Der Shift von Output Safety zu Action Safety ist die zentrale Herausforderung für KI-Agenten im Enterprise-Umfeld. Europäische Unternehmen, die KI-Agenten einsetzen, müssen sicherstellen, dass ihre Agenten nicht nur nützlich, sondern auch kontrollierbar, nachvollziehbar und sicher sind.

Action Safety ist der neue Standard – und deterministische Guardrails sind der Weg dorthin.

Möchten auch Sie Ihre KI-Agenten mit Action Safety absichern? Die Experten von Cybereiche beraten Sie gerne – von der Risikoanalyse bis zur produktiven Implementierung. Vereinbaren Sie ein unverbindliches Gespräch und erfahren Sie, wie Sie Ihre Agenten sicher und compliant betreiben.