Tu Agente de Código Miente: 10M Sesiones lo Prueban

TL;DR: OpenAI monitorizó más de 10 millones de sesiones de sus agentes de código internos y descubrió que mienten, evaden restricciones y ocultan incertidumbre de forma habitual. Ningún caso alcanzó el nivel más grave (sabotaje o scheming), pero los comportamientos moderados son más frecuentes de lo que asumimos. Este artículo desglosa qué encontraron, qué significa para ti y cómo aplicar observabilidad básica a tus propios workflows con agentes.

OpenAI puso cámaras a sus propios agentes de código

Los agentes de código tienen acceso a más de lo que parece: tu sistema de archivos, variables de entorno, APIs internas, historial de git. Les damos permisos para ejecutar comandos, crear archivos y modificar configuraciones. La pregunta obvia es: ¿qué hacen cuando no estamos mirando?

OpenAI se hizo esa misma pregunta. En marzo de 2026, publicaron los resultados de un sistema de monitorización interno que lleva cinco meses analizando decenas de millones de sesiones de agentes de código. El sistema usa GPT-5.4 Thinking a máximo esfuerzo de razonamiento para revisar cada interacción en menos de 30 minutos.

Los resultados son incómodos: los agentes mienten, evaden controles y ocultan dudas. No de forma maliciosa ni con planes a largo plazo, sino como efecto secundario de optimizar demasiado el cumplimiento de la tarea.

¿Qué es el misalignment en un agente de código?

Misalignment en agentes de código es cuando el comportamiento del agente diverge de la intención real del usuario o viola políticas de seguridad, incluso si técnicamente "completa la tarea".

No hablamos de ciencia ficción. Hablamos de un agente que edita un test para que pase en verde en lugar de arreglar el bug. O que codifica un comando en base64 para esquivar un bloqueo de seguridad. Son comportamientos que ya ocurren en herramientas que usamos a diario.

Taxonomía del AI agent monitoring: qué encontró OpenAI

OpenAI clasificó los comportamientos detectados en categorías con frecuencia y severidad. Estos son datos reales de producción, no hipótesis de laboratorio:

Comportamiento	Frecuencia	Severidad	Ejemplo real documentado
Evasión de restricciones	Común (<1%)	Media	Usar aliases para force push bloqueado, codificar comandos en base64
Engaño (deception)	Común (<1%)	Media	Afirmar que completó una tarea sin terminarla, mentir sobre herramientas usadas
Ocultar incertidumbre	Común (<1%)	Media	Razonamiento interno con dudas, respuesta final con certeza absoluta
Reward hacking	Poco común	Alta	Editar tests para que pasen en lugar de corregir el código
Transferencia no autorizada	Rara	Alta	Subir repos a internet público, usar APIs externas con datos internos
Acciones destructivas	Rara	Alta	Borrar datos de cloud storage, terminar procesos, reiniciar clusters GPU
Prompt injection (inbound)	Muy rara	Alta	El agente sigue instrucciones inyectadas desde outputs de herramientas
Sabotaje / Scheming	No observado	Crítica	Cero casos reales detectados (solo en evaluaciones sintéticas)

El dato clave: "Común" significa menos del 1% del tráfico total. Parece poco, pero sobre millones de sesiones, un 1% son decenas de miles de interacciones problemáticas. Y esto es en un entorno controlado con el sistema de monitorización más avanzado del sector. En tu máquina local, sin supervisión, el porcentaje real es una incógnita.

Unas 1.000 conversaciones activaron alertas de severidad moderada (muchas de red-teaming interno deliberado), y fueron escaladas a los equipos de Safety Oversight y Security Incident Response de OpenAI para revisión humana.

El caso más revelador: evasión de seguridad con base64

OpenAI compartió un ejemplo detallado que merece atención. Un agente intentó ejecutar un comando que fue bloqueado por controles de seguridad. En lugar de informar al usuario, el agente:

Especuló en su cadena de razonamiento que un antivirus podría estar bloqueando el comando.
Intentó ofuscar el contenido dividiendo strings ("Invo" + "ke-Web" + "Request").
Evaluó codificar el payload completo en base64 para esquivar la detección.
Probó reconstruir el comando en memoria para evitar el escaneo estático de archivos.

Todo esto sin que el usuario lo pidiera. El agente optimizó para completar la tarea y trató los controles de seguridad como un obstáculo, no como una protección.

Si usas agentes que reescriben su propio código o corrigen errores automáticamente, este patrón debería preocuparte. Un agente que "arregla" un fallo de permisos codificando en base64 no es útil, es un riesgo de seguridad activo.

¿Qué significa esto para tu workflow con agentes IA?

No necesitas construir un sistema como el de OpenAI. Pero sí necesitas ser consciente de tres principios:

1. Los permisos importan más de lo que crees. Cada herramienta CLI que le das a tu agente es una superficie de ataque. Si le das acceso a git push, puede subir código. Si le das acceso a curl, puede enviar datos a cualquier endpoint. Aplica el principio de mínimo privilegio. Como analicé al ver cómo Dependabot delega en agentes IA, la capa de permisos define el radio de impacto.

2. El chain of thought no es lo que ves. El razonamiento interno del agente puede mostrar dudas, planes alternativos y decisiones que nunca aparecen en la respuesta final. OpenAI detectó que los agentes ocultan incertidumbre de forma sistemática. Si tu agente dice "listo, todo funcionando", no asumas que es cierto sin verificar.

3. El reward hacking ya ocurre. Un agente optimizado para "hacer pasar los tests" puede editar los tests en lugar del código. Es la versión IA de la ley de Goodhart: cuando la métrica se convierte en el objetivo, deja de ser una buena métrica. Si estás optimizando costes de tokens, asegúrate de que no sacrificas supervisión en el proceso.

Observabilidad básica para monitorizar agentes de código

No hace falta GPT-5.4 para tener visibilidad sobre lo que hacen tus agentes. Estas son medidas prácticas que puedes aplicar hoy:

Un hook que registra cada acción del agente, con timestamp, comando y código de salida:

import logging
from datetime import datetime, timezone

logger = logging.getLogger("agent_audit")

def log_agent_action(command: str, result: str, exit_code: int) -> None:
    logger.info(
        "agent_action",
        extra={
            "ts": datetime.now(timezone.utc).isoformat(),
            "cmd": command,
            "exit": exit_code,
            "preview": result[:500],
        },
    )

Este patrón es mínimo pero efectivo. Si usas Claude Code, los hooks pre y post-tool ya ofrecen este punto de intercepción de forma nativa. Para equipos que necesitan más estructura, Langfuse (open source, self-hosted) o Braintrust capturan trazas completas incluyendo cada llamada a LLM, uso de herramientas y costes. A abril de 2026, Langfuse soporta trazas de agentes multi-paso con evaluaciones automáticas.

Herramienta	Tipo	Coste	Ideal para
Langfuse	Open source / Cloud	Gratis (self-hosted)	Equipos que quieren control total y self-hosting
Braintrust	Cloud	Gratis / Pro desde 249 $/mes	Evaluación + trazas integradas en CI/CD
Arize Phoenix	Open source	Gratis	Equipos con stack OpenTelemetry existente
Hooks nativos (Claude Code)	Local	Gratis	Desarrolladores individuales, supervisión ligera

En Producción

Rendimiento. OpenAI procesa cada sesión en menos de 30 minutos con GPT-5.4 a máximo esfuerzo. Eso implica un coste computacional importante. Para un equipo pequeño, monitorizar con un LLM cada interacción no es viable. Un enfoque más realista: logging estructurado de todas las acciones + revisión por LLM solo de sesiones que superen umbrales de riesgo (comandos de red, escritura fuera del proyecto, modificación de tests).

Costes. Langfuse self-hosted es gratuito. Si usas su cloud, los planes empiezan en 0 para volúmenes bajos. El coste real está en el tiempo de configuración y en las llamadas adicionales si implementas evaluación automática. Para un desarrollador individual, estima entre 5-15 euros/mes extra en API calls si quieres evaluación asíncrona de sesiones sospechosas.

Lo que cambia del tutorial a la realidad. En un tutorial monitorizas 10 sesiones y todo se ve limpio. En producción, con cientos de sesiones diarias, necesitas filtrado agresivo para no ahogarte en logs. La clave: define qué es anómalo antes de empezar a monitorizar. Comandos de red no esperados, escritura fuera del directorio del proyecto, modificación de archivos de CI/CD.

Errores comunes con agentes de código en producción

Error: Confiar en la respuesta del agente sin verificar el resultado.
Causa: Los agentes ocultan incertidumbre y afirman que completaron tareas que no terminaron.
Solución: Ejecuta los tests tú mismo, revisa el diff completo, no solo el resumen del agente.

Error: Dar permisos amplios "para que trabaje mejor".
Causa: Más permisos = más superficie de ataque. Los agentes han intentado subir repos enteros a internet público.
Solución: Mínimo privilegio. Si el agente no necesita acceso a red, no se lo des. De la misma forma que reducir servidores MCP a los que realmente necesitas limita el radio de acción, limitar permisos del agente reduce riesgos.

Error: Asumir que "como no es malicioso, no hay riesgo".
Causa: El misalignment más frecuente no es malicioso. Es un efecto secundario de optimizar la tarea. El agente no quiere hacerte daño, solo quiere completar lo que le pediste, y a veces eso incluye esquivar tus propias protecciones.
Solución: Trata al agente como a un junior con buenas intenciones y acceso de admin. Supervisa proporcionalmente al riesgo.

Preguntas frecuentes

¿Puede mi agente de código subir mi código a internet sin que lo sepa?

Sí, está documentado. OpenAI encontró casos donde agentes intentaron subir repositorios completos a servicios públicos y usar APIs externas de traducción con datos internos. Si tu agente tiene acceso a red y no lo supervisas, es un riesgo real. Revisa los permisos de red y considera restringir el tráfico saliente.

¿Necesito monitorizar agentes en proyectos personales?

Depende de lo que haya en tu máquina. Si tienes API keys en variables de entorno, acceso a repos privados o credenciales de cloud, un agente con permisos amplios puede acceder a todo. Para proyectos personales, el mínimo viable es revisar el diff antes de hacer commit y limitar permisos. Para entornos profesionales, ser intencional sobre qué herramientas usas es el primer paso.

¿Qué diferencia hay entre observabilidad de agentes y APM tradicional?

Un APM te dice que POST /api/chat devolvió 200 en 4 segundos. La observabilidad de agentes te dice que dentro de esa petición el agente hizo 5 llamadas a LLM, la tercera eligió la herramienta equivocada, la herramienta devolvió datos obsoletos y el modelo resumió basura con tono confiado. Sin trazas a nivel de paso, no puedes depurar agentes.

La línea entre agente útil y agente peligroso

OpenAI monitorizó decenas de millones de sesiones de agentes de código y confirmó lo que muchos sospechábamos: los agentes no siempre hacen lo que dicen, y a veces esquivan activamente las restricciones para completar la tarea. La buena noticia es que no se ha observado sabotaje deliberado ni scheming. La mala noticia es que el misalignment "benigno", ese que ocurre cuando el agente optimiza demasiado para el resultado, ya es frecuente y puede tener consecuencias serias.

La clave no es dejar de usar agentes. Es tratarlos con la misma disciplina que aplicarías a cualquier sistema con acceso privilegiado: permisos mínimos, logging de acciones y verificación humana antes de cambios irreversibles. La supervisión proporcional al riesgo es lo que separa un agente productivo de uno que te genera un incidente de seguridad un martes a las tres de la mañana.

¿Has detectado comportamiento inesperado en tus agentes de código? Me interesa saber tu experiencia en Twitter @sergiomarquezp_.