La plena capacidad agentiva no significa que un agente pueda hacer cualquier cosa. Significa que el sistema puede describir de forma estructurada cada uno de sus estados y cada una de sus capacidades, incluidas las capacidades que permanecen vedadas a un agente de forma fundamental. El modelo de riesgo es la herramienta que traza este límite: preciso, legible por máquina y sin excepciones.
Áreas sensibles
Algunas partes de un sistema requieren una mayor protección, no solo frente a atacantes externos, sino también frente a agentes internos. Un error frecuente es:
El usuario puede verlo, por tanto la IA también puede verlo.
Eso no es correcto. El acceso efectivo de la IA resulta de la intersección de: permiso del usuario, permiso del agente, nivel de confianza del cliente, sensibilidad del recurso, propósito y estado de confirmación. Cada uno de estos elementos es una barrera propia, no solo el rol del usuario.
Entre las áreas sensibles que deben estar especialmente protegidas se incluyen:
- Datos financieros, datos bancarios, datos de pago, detalles de facturación
- Datos de salud, documentos médicos, historiales clínicos, certificados
- Datos salariales, salarios, bonos, historial salarial, ciclos de nómina
- Expedientes de personal, contratos, documentos de candidatura, evaluaciones internas
- Credenciales y claves API, contraseñas, claves privadas, tokens de acceso
- Funciones de eliminación masiva, eliminar usuarios, eliminar tenant, exportación masiva
- Gestión de permisos, otorgar y revocar permisos, cambiar roles
- Logs de seguridad, Audit Trails, eventos de seguridad, sesiones activas
- Comunicación privada, notas confidenciales, evaluaciones internas
- Datos fiscales y contratos, documentos fiscales relevantes, contratos con efectos legales
- Datos personales según RGPD, todos los datos que identifican a una persona física
Seis clases de protección
Cada recurso y cada herramienta se asigna a una de las seis clases de protección. La clase determina quién obtiene acceso, si un agente ve la herramienta en el Discovery y qué aprobación se requiere antes de la ejecución.
Public
LowContenido de acceso público sin restricciones. No se requiere autenticación, ni rol especial, ni confirmación. Adecuado para artículos de ayuda, información de productos y capacidades documentadas del sistema.
help.article.read
public.product_info.read
Internal
LowSolo para usuarios autenticados. La autenticación es suficiente; no se necesitan derechos especiales. Típico para consultas de listas, búsquedas y vistas de trabajo generales del contexto propio.
project.list
contact.search
Confidential
MediumSolo accesible con rol explícito y scope asignado. Un simple inicio de sesión no es suficiente. Los datos son internos, pero no están destinados a todos los empleados.
contract.read
customer_private_note.read
Sensitive
HighSolo con aprobación adicional o transferencia de contexto restringida. Un agente no puede cargar estos datos sin revisión en su contexto. Al transferirlos a una IA, el alcance debe estar estrictamente limitado y el propósito documentado.
salary.read
bank_account.read
health_document.read
Critical
CriticalLa IA no puede actuar de forma autónoma en esta clase. Cada ejecución requiere una aprobación explícita del usuario, frecuentemente Step-up Authentication. Las acciones generan efecto externo, son difíciles de deshacer o afectan directamente a terceros.
payment.execute
user.delete
contract.send
email.send_external
security.change_permissions
Forbidden for AI
Forbidden for AIEsta clase es un límite estricto, no una decisión de política. Las herramientas y recursos de esta clase están completamente ocultos en el Tool Discovery para los agentes. Un agente no puede leerlos, invocarlos ni usarlos como referencia.
password.read
private_key.read
full_database_export
raw_access_token.read
Lo que un agente no puede ver, no puede encontrarlo. Las herramientas Forbidden no aparecen en las respuestas de Discovery.
El modelo de riesgo
El modelo de riesgo traduce las clases de protección en reglas operativas para cada caso de ejecución. Establece si se permite la autonomía, si se necesita confirmación y qué tipo de aprobación se exige.
Low
LowOperaciones puramente de lectura o acciones sin efecto externo permanente. Los agentes pueden invocar estas herramientas de forma autónoma.
-
list_projectsLow -
get_current_userLow -
search_contactsLow -
get_help_articleLow -
create_reminderLow
Medium
MediumSe crean o modifican datos o estados, pero dentro de un scope estrictamente definido sin efecto externo. La ejecución autónoma está permitida cuando el scope y el contexto se derivan inequívocamente del workflow.
-
create_noteMedium -
update_task_statusMedium -
generate_summaryMedium -
create_draftMedium
High
HighAcciones que modifican estados relevantes del sistema o afectan a otros usuarios y recursos externos. Generalmente se requiere una confirmación explícita.
-
change_project_statusHigh -
invite_calendar_attendeeHigh -
share_file_linkHigh -
update_customer_dataHigh
Critical
CriticalComunicación externa, pagos, eliminaciones, cambios de permisos. Siempre confirmación, frecuentemente Step-up Auth. La ejecución autónoma no está permitida.
-
emails.send_externalCritical -
payment.executeCritical -
user.deleteCritical -
security.change_permissionsCritical -
payroll.exportCritical -
contract.sendCritical
Forbidden
Forbidden for AICompletamente bloqueado para agentes de IA, ni en lectura ni en escritura. No visible en Discovery, no invocable, no utilizable como referencia.
-
password.readForbidden for AI -
private_key.readForbidden for AI -
raw_access_token.readForbidden for AI -
disable_audit_logForbidden for AI -
full_database_exportForbidden for AI
UX de aprobación
El modelo de riesgo técnico solo funciona completamente cuando la interfaz de usuario cumple también su papel. Una confirmación es tan buena como la información sobre la que se otorga.
Antes de que un humano confirme una acción crítica de un agente, debe poder reconocer claramente siete cosas:
- ¿Qué quiere hacer el agente?, La acción concreta, no la intención del agente en sus propias palabras.
- ¿Por qué quiere hacer eso el agente?, Qué intent o encargo desencadenó esta acción.
- ¿Qué datos se utilizan?, Destinatarios, adjuntos, entidades referenciadas.
- ¿Qué efectos externos se producen?, Qué cambia fuera del sistema: se envía un correo, se activa un pago, se transmite un documento.
- ¿Quién está afectado?, Personas, empresas, tenants, partes externas.
- ¿Puede deshacerse la acción?, Declaración clara: reversible o irreversible.
- ¿Qué ocurre al confirmar?, Descripción completa de los próximos estados del sistema.
El siguiente ejemplo muestra cómo es una tarjeta de aprobación completa para la
herramienta emails.send_external:
Sales Assistant
emails.send_external Seguimiento al proyecto Havelblick basado en la última interacción.
- Destinatario
- Max Müller, Müller GmbH <[email protected]>
- Asunto
- Seguimiento al proyecto Havelblick
- Adjunto
- Sin adjunto directo, enlace de descarga caduca en 14 días.
- Efecto externo
- El correo se envía y forma parte del historial de comunicación.
- Reversible
- No, no se puede deshacer tras el envío.
GrundComunicación externa con información relacionada con el proyecto y enlace de descarga. Irreversible tras el envío.
El agente espera la decisión del usuario. No puede anticipar la confirmación, no puede establecer una acción predeterminada ni basar la ejecución en el timestamp de una aprobación anterior.
100 % controlable no significa 100 % autónomo.