TechLead
Leccion 23 de 24
5 min de lectura
Agentes IA

Evaluación de Agentes

Evalúa y compara agentes de IA con métricas, evaluación humana y frameworks de pruebas automatizadas

El Desafío de Evaluar Agentes

Evaluar agentes de IA es fundamentalmente más difícil que evaluar salidas simples de LLM. Los agentes toman secuencias de decisiones, usan herramientas y producen caminos de ejecución no determinísticos. La misma tarea podría lograrse correctamente a través de diferentes estrategias, haciendo insuficiente la comparación simple de salidas.

Qué Evaluar

  • Completación de Tarea: ¿El agente logró el objetivo?
  • Corrección: ¿La salida final es factualmente correcta?
  • Eficiencia: ¿Cuántos pasos/tokens/llamadas a herramientas tomó?
  • Calidad del Uso de Herramientas: ¿El agente usó las herramientas correctas con entradas correctas?
  • Calidad del Razonamiento: ¿La cadena de razonamiento del agente fue lógica y coherente?
  • Robustez: ¿El agente maneja casos extremos y errores con gracia?
  • Seguridad: ¿El agente se mantiene dentro de límites y evita acciones dañinas?

Benchmarks Populares de Agentes

Benchmark Dominio Evalúa
SWE-benchIngeniería de SoftwareAgentes de edición de código en issues reales de GitHub
WebArenaNavegación WebAgentes navegando sitios web reales para completar tareas
GAIAAsistente GeneralRazonamiento de múltiples pasos con uso de herramientas
ToolBenchUso de HerramientasSelección y uso de APIs entre 16K+ APIs
AgentBenchGeneral8 entornos (web, BD, SO, juego, etc.)

Mejores Prácticas de Evaluación

  • Crea suites de prueba diversas: Cubre caminos felices, casos extremos, entradas adversariales e interacciones de múltiples turnos
  • Usa múltiples jueces: Combina jueces LLM, verificaciones automatizadas y revisión humana periódica
  • Rastrea a lo largo del tiempo: Ejecuta evaluaciones en cada cambio y rastrea puntuaciones como una serie temporal
  • Evalúa trayectorias, no solo salidas: Un agente que obtiene la respuesta correcta vía razonamiento incorrecto es frágil
  • Prueba la seguridad explícitamente: Incluye casos de prueba que intenten inyección de prompts, desvío de tema y solicitudes dañinas

Resumen

La evaluación de agentes requiere evaluar múltiples dimensiones: completación de tarea, corrección, eficiencia, calidad de razonamiento y seguridad. Usa LLM-como-juez para evaluación automatizada escalable, combina con pruebas unitarias para pruebas de regresión y compara contra suites establecidas para comparación objetiva. La evaluación debe ser continua — ejecútala en cada cambio de prompt, herramienta o modelo para detectar regresiones antes de que lleguen a los usuarios.

Continuar Aprendiendo