El Desafío de Evaluar Agentes
Evaluar agentes de IA es fundamentalmente más difícil que evaluar salidas simples de LLM. Los agentes toman secuencias de decisiones, usan herramientas y producen caminos de ejecución no determinísticos. La misma tarea podría lograrse correctamente a través de diferentes estrategias, haciendo insuficiente la comparación simple de salidas.
Qué Evaluar
- Completación de Tarea: ¿El agente logró el objetivo?
- Corrección: ¿La salida final es factualmente correcta?
- Eficiencia: ¿Cuántos pasos/tokens/llamadas a herramientas tomó?
- Calidad del Uso de Herramientas: ¿El agente usó las herramientas correctas con entradas correctas?
- Calidad del Razonamiento: ¿La cadena de razonamiento del agente fue lógica y coherente?
- Robustez: ¿El agente maneja casos extremos y errores con gracia?
- Seguridad: ¿El agente se mantiene dentro de límites y evita acciones dañinas?
Benchmarks Populares de Agentes
| Benchmark | Dominio | Evalúa |
|---|---|---|
| SWE-bench | Ingeniería de Software | Agentes de edición de código en issues reales de GitHub |
| WebArena | Navegación Web | Agentes navegando sitios web reales para completar tareas |
| GAIA | Asistente General | Razonamiento de múltiples pasos con uso de herramientas |
| ToolBench | Uso de Herramientas | Selección y uso de APIs entre 16K+ APIs |
| AgentBench | General | 8 entornos (web, BD, SO, juego, etc.) |
Mejores Prácticas de Evaluación
- Crea suites de prueba diversas: Cubre caminos felices, casos extremos, entradas adversariales e interacciones de múltiples turnos
- Usa múltiples jueces: Combina jueces LLM, verificaciones automatizadas y revisión humana periódica
- Rastrea a lo largo del tiempo: Ejecuta evaluaciones en cada cambio y rastrea puntuaciones como una serie temporal
- Evalúa trayectorias, no solo salidas: Un agente que obtiene la respuesta correcta vía razonamiento incorrecto es frágil
- Prueba la seguridad explícitamente: Incluye casos de prueba que intenten inyección de prompts, desvío de tema y solicitudes dañinas
Resumen
La evaluación de agentes requiere evaluar múltiples dimensiones: completación de tarea, corrección, eficiencia, calidad de razonamiento y seguridad. Usa LLM-como-juez para evaluación automatizada escalable, combina con pruebas unitarias para pruebas de regresión y compara contra suites establecidas para comparación objetiva. La evaluación debe ser continua — ejecútala en cada cambio de prompt, herramienta o modelo para detectar regresiones antes de que lleguen a los usuarios.