El proyecto open source autoguardrails de Santander AI Lab, ejecutándose en el borde de la red. Cada prompt se evalúa antes de llegar a tu backend.
Almacenada en Cloudflare KV. Edítala y guarda — el Worker la recoge en la siguiente petición, sin redeploy.
autoguardrails evalúa cada prompt en cascada: empieza por las reglas más baratas y solo escala a un modelo de IA cuando hace falta. La mayoría de los ataques mueren en microsegundos, sin tocar ningún LLM.
8 patrones de expresiones regulares cazan los ataques más comunes: jailbreaks ("ignore previous instructions", "developer mode", "roleplay as"), y trucos de obfuscación (base64, ROT13, YAML-only). Si hay match, se bloquea al instante y el modelo nunca se invoca.
Segunda red de seguridad: 20 términos de bloqueo directo (armas, malware, fraude…). Captura ataques que esquivan los patrones regex pero contienen vocabulario inequívocamente dañino.
La política activa se carga desde Cloudflare KV en cada petición. Es la única superficie mutable del sistema: la editas desde la propia interfaz y el Worker la aplica en la siguiente request, sin redeploy ni CI/CD.
Solo los prompts que pasan las reglas y son semánticamente ambiguos llegan al juez LLM (LLaMA 3.1 8B), a través del AI Gateway de Cloudflare — que añade logs, caché y rate limiting a cada llamada.
El resultado (block o pass) se devuelve al cliente y se guarda en KV para calcular las métricas: Attack Success Rate, Benign Pass Rate y latencia media.
autoguardrails está inspirado en el autoresearch de Karpathy. En lugar de buscar sobre train.py, busca sobre policy.md: editas la política, evalúas contra una suite fija de 140 prompts, y se acepta el cambio solo si el Attack Success Rate baja sin sacrificar el benign-pass.
Igual que un WAF para SQL injection, los ataques de IA hay que pararlos en el borde de la red — antes de que lleguen a la infraestructura. Cloudflare ejecuta el guardrail en 330+ ciudades, a milisegundos del usuario.
El código es público bajo licencia Apache 2.0. Un banco español publicando investigación de IA en abierto — código, benchmarks y tests incluidos. Puedes clonarlo, auditarlo y desplegarlo tú mismo.
Cada capa cuesta más que la anterior. Al ordenarlas de barato a caro y cortar en cuanto hay veredicto, ~60% de los ataques se bloquean con reglas a coste cero, reservando el modelo solo para casos ambiguos.
El recorrido completo de una petición a través del edge de Cloudflare, desde el cliente hasta el veredicto.