TechLead
Leccion 17 de 24
5 min de lectura
Agentes IA

Evaluación de RAG

Mide la calidad de RAG con métricas RAGAS incluyendo fidelidad, relevancia y precisión de respuestas

¿Por Qué Evaluar RAG?

Construir un sistema RAG es solo la mitad de la batalla — necesitas saber qué tan bien funciona. Sin evaluación sistemática, vuelas a ciegas: no sabrás si tu fragmentación es demasiado agresiva, tu recuperación está perdiendo documentos relevantes o tu LLM está alucinando a pesar de tener buen contexto. La evaluación de RAG proporciona métricas cuantitativas para guiar la optimización.

Métricas Clave de RAG

  • Fidelidad: ¿La respuesta solo usa información del contexto recuperado? (Sin alucinación)
  • Relevancia de Respuesta: ¿La respuesta es realmente relevante para la pregunta formulada?
  • Precisión del Contexto: ¿Los documentos recuperados son relevantes para la pregunta?
  • Recall del Contexto: ¿La recuperación encontró todos los documentos relevantes?
  • Corrección de Respuesta: ¿La respuesta es factualmente correcta? (Requiere verdad base)

Lista de Verificación de Evaluación

Métrica Objetivo Acción si es Baja
Fidelidad> 0.90Mejorar system prompt, reducir ruido del contexto
Relevancia> 0.85Mejor fragmentación, añadir reranking
Precisión del Contexto> 0.80Mejorar embeddings, añadir filtrado
Recall del Contexto> 0.80Aumentar top-K, probar recuperación multi-consulta

Resumen

La evaluación de RAG es esencial para construir aplicaciones de IA fiables. RAGAS proporciona un framework sólido con métricas automatizadas. Para necesidades personalizadas, construye un pipeline de LLM-como-juez. Las métricas clave son fidelidad (sin alucinación), relevancia (responde la pregunta) y precisión/recall del contexto (calidad de recuperación). Establece líneas base temprano y evalúa continuamente.

Continuar Aprendiendo