Risikomodell

Risikomodell & Schutzklassen

Wie MCP-first sensible Bereiche schützt, Capabilities in sechs Schutzklassen einteilt und sicherstellt, dass der Mensch vor jeder kritischen Aktion die nötige Information hat.

Vollständige Agentenfähigkeit bedeutet nicht, dass ein Agent alles tun darf. Es bedeutet, dass das System jeden seiner Zustände und jede seiner Fähigkeiten strukturiert beschreiben kann, einschließlich der Fähigkeiten, die einem Agenten grundsätzlich verwehrt bleiben. Das Risikomodell ist das Werkzeug, das diese Grenze zieht: präzise, maschinenlesbar und ohne Ausnahmen.

Sensible Bereiche

Einige Teile eines Systems erfordern einen höheren Schutz, nicht nur vor externen Angreifern, sondern auch vor internen Agents. Ein häufiger Irrtum lautet:

Der Benutzer darf es sehen, also darf die KI es auch sehen.

Das stimmt nicht. Effektiver KI-Zugriff ergibt sich aus der Schnittmenge von Nutzer-Permission, Agent-Permission, Client Trust Level, Ressourcensensitivität, Zweck und Bestätigungsstatus. Jedes dieser Elemente ist eine eigene Schranke, nicht nur die Nutzerrolle.

Zu den sensiblen Bereichen, die besonders geschützt werden müssen, gehören:

  • Finanzdaten, Bankverbindungen, Zahlungsdaten, Abrechnungsdetails
  • Gesundheitsdaten, medizinische Dokumente, Krankenakten, Atteste
  • Gehaltsdaten, Lohn, Boni, Gehaltshistorie, Payroll-Läufe
  • Personalakten, Verträge, Bewerbungsunterlagen, interne Bewertungen
  • Zugangsdaten & API Keys, Passwörter, Private Keys, Access Tokens
  • Lösch- und Massenfunktionen, Benutzer löschen, Mandant löschen, Bulk-Export
  • Rechteverwaltung, Berechtigungen vergeben und entziehen, Rollen ändern
  • Sicherheitslogs, Audit-Trails, Security-Events, aktive Sessions
  • Private Kommunikation, vertrauliche Notizen, interne Einschätzungen
  • Steuerdaten und Verträge, steuerrelevante Dokumente, rechtswirksame Verträge
  • Personenbezogene Daten nach DSGVO, alle Daten, die eine natürliche Person identifizieren

Sechs Schutzklassen

Jede Resource und jedes Tool wird einer von sechs Schutzklassen zugeordnet. Die Klasse bestimmt, wer Zugriff erhält, ob ein Agent das Tool in der Discovery überhaupt sieht, und welche Freigabe vor der Ausführung erforderlich ist.

Public

Low

Öffentlich zugängliche Inhalte ohne Einschränkung. Keine Authentifizierung, keine besondere Rolle, keine Bestätigung erforderlich. Geeignet für Hilfe-Artikel, Produktinformationen und dokumentierte System-Fähigkeiten.

help.article.read
public.product_info.read

Internal

Low

Nur für eingeloggte Benutzer. Die Authentifizierung genügt; keine Sonderrechte notwendig. Typisch für Listenabfragen, Suchen und allgemeine Arbeitsansichten des eigenen Kontexts.

project.list
contact.search

Confidential

Medium

Nur mit expliziter Rolle und zugewiesenem Scope zugänglich. Ein einfacher Login reicht nicht. Die Daten sind intern, aber nicht für alle Mitarbeitenden bestimmt.

contract.read
customer_private_note.read

Sensitive

High

Nur mit zusätzlicher Freigabe oder eingeschränkter Kontextweitergabe. Ein Agent darf diese Daten nicht ungeprüft in seinen Kontext laden. Bei Übergabe an eine KI muss der Umfang eng begrenzt und der Zweck dokumentiert sein.

salary.read
bank_account.read
health_document.read

Critical

Critical

Die KI darf in dieser Klasse nicht autonom handeln. Jede Ausführung erfordert eine explizite Benutzerfreigabe, häufig Step-up Authentication. Die Aktionen erzeugen externe Wirkung, sind schwer rückgängig zu machen oder betreffen Dritte direkt.

payment.execute
user.delete
contract.send
email.send_external
security.change_permissions

Forbidden for AI

Forbidden for AI

Diese Klasse ist eine harte Grenze, keine Policy-Entscheidung. Tools und Resources dieser Klasse werden bei der Tool Discovery für Agents vollständig ausgeblendet. Ein Agent kann sie weder lesen noch aufrufen noch als Referenz verwenden.

password.read
private_key.read
full_database_export
raw_access_token.read

Was ein Agent nicht sehen darf, darf er nicht finden. Forbidden-Tools erscheinen nicht in Discovery-Antworten.

Das Risikomodell

Das Risikomodell übersetzt die Schutzklassen in operative Regeln für jeden Ausführungsfall. Es legt fest, ob Autonomie erlaubt ist, ob Bestätigung nötig ist und welche Art von Freigabe verlangt wird.

Low

Low

Rein lesende Operationen oder Aktionen ohne dauerhafte Außenwirkung. Agents dürfen diese Tools autonom aufrufen.

Low Risk, Beispiele
  • list_projects Low
  • get_current_user Low
  • search_contacts Low
  • get_help_article Low
  • create_reminder Low

Medium

Medium

Daten oder Zustände werden erstellt oder geändert, aber innerhalb eines eng definierten Scopes ohne externe Wirkung. Autonome Ausführung ist erlaubt, wenn Scope und Kontext eindeutig aus dem Workflow hervorgehen.

Medium Risk, Beispiele
  • create_note Medium
  • update_task_status Medium
  • generate_summary Medium
  • create_draft Medium

High

High

Aktionen, die relevante Systemzustände verändern oder andere Nutzer und externe Ressourcen betreffen. Eine explizite Bestätigung ist in der Regel erforderlich.

High Risk, Beispiele
  • change_project_status High
  • invite_calendar_attendee High
  • share_file_link High
  • update_customer_data High

Critical

Critical

Externe Kommunikation, Zahlungen, Löschvorgänge, Berechtigungsänderungen. Immer Bestätigung, häufig Step-up Auth. Autonome Ausführung ist nicht erlaubt.

Critical Risk, Beispiele
  • emails.send_external Critical
  • payment.execute Critical
  • user.delete Critical
  • security.change_permissions Critical
  • payroll.export Critical
  • contract.send Critical

Forbidden

Forbidden for AI

Vollständig gesperrt für AI Agents, weder lesend noch schreibend. Nicht in Discovery sichtbar, nicht aufrufbar, nicht als Referenz verwendbar.

Forbidden, Beispiele
  • password.read Forbidden for AI
  • private_key.read Forbidden for AI
  • raw_access_token.read Forbidden for AI
  • disable_audit_log Forbidden for AI
  • full_database_export Forbidden for AI

Approval UX

Das technische Risikomodell greift erst dann vollständig, wenn auch die Benutzeroberfläche ihrer Rolle gerecht wird. Eine Bestätigung ist nur so gut wie die Information, auf deren Grundlage sie erteilt wird.

Bevor ein Mensch eine kritische Agentenaktion bestätigt, muss er sieben Dinge klar erkennen können:

  1. Was will der Agent tun?, Die konkrete Aktion, nicht die Absicht des Agents in eigenen Worten.
  2. Warum will der Agent das tun?, Welcher Intent oder Auftrag hat diese Aktion ausgelöst.
  3. Welche Daten werden verwendet?, Empfänger, Anhänge, referenzierte Entitäten.
  4. Welche externen Effekte entstehen?, Was verändert sich außerhalb des Systems: E-Mail wird versendet, Zahlung wird ausgelöst, Dokument wird übermittelt.
  5. Wer ist betroffen?, Personen, Firmen, Mandanten, externe Parteien.
  6. Kann die Aktion rückgängig gemacht werden?, Klare Aussage: reversibel oder irreversibel.
  7. Was passiert bei Bestätigung?, Vollständige Beschreibung der nächsten Systemzustände.

Das folgende Beispiel zeigt, wie eine vollständige Approval-Karte für das Tool emails.send_external aussieht:

Sales Assistant

emails.send_external
Critical

Nachfassen zum Projekt Havelblick auf Basis der letzten Interaktion.

Empfänger
Max Müller, Müller GmbH <[email protected]>
Betreff
Follow-up zum Projekt Havelblick
Anhang
Kein direkter Anhang, Download-Link läuft nach 14 Tagen ab.
Externe Wirkung
E-Mail wird versendet und Teil der Kommunikationshistorie.
Reversibel
Nein, nach Versand nicht rückgängig zu machen.

GrundExterne Kommunikation mit projektbezogenen Informationen und Download-Link. Irreversibel nach Versand.

Der Agent wartet auf die Entscheidung des Benutzers. Er darf die Bestätigung nicht vorwegnehmen, keine Standardaktion setzen und die Ausführung nicht auf dem Zeitstempel einer früheren Freigabe basieren.

100 % steuerbar bedeutet nicht 100 % autonom.