TechLead
Leccion 14 de 24
5 min de lectura
Agentes IA

Estrategias de Recuperación

Domina búsqueda por similitud, MMR, búsqueda híbrida y técnicas de reranking para mejor recuperación RAG

Más Allá de la Búsqueda por Similitud Básica

La estrategia de recuperación RAG predeterminada — embeber una consulta, encontrar los K vectores más cercanos — funciona para casos simples pero a menudo se queda corta en producción. Los documentos pueden ser relevantes pero no aparecer, los resultados pueden ser redundantes o la brecha semántica entre preguntas y respuestas puede engañar a la similitud coseno simple. Las estrategias avanzadas de recuperación abordan estos desafíos.

Espectro de Estrategias de Recuperación

  • Similitud Básica: Similitud coseno simple — rápida pero puede perder resultados relevantes
  • MMR (Relevancia Marginal Máxima): Equilibra relevancia con diversidad en resultados
  • Búsqueda Híbrida: Combina vectores semánticos con coincidencia de palabras clave (BM25)
  • Multi-Consulta: Genera múltiples variaciones de consulta para recuperación más amplia
  • HyDE: Genera una respuesta hipotética, luego busca documentos similares
  • Reranking: Usa un modelo cross-encoder para re-puntuar y reordenar resultados iniciales

Comparación de Estrategias

Estrategia Latencia Costo Mejor Para
Similitud BásicaBajaBajoQA simple
MMRBajaBajoEvitar resultados duplicados
Multi-ConsultaMediaMedioPreguntas complejas
HyDEMediaMedioBrecha semántica P-a-R
CompresiónAltaAltoDocumentos largos, reducción de ruido

Resumen

Comienza con búsqueda por similitud básica, luego añade estrategias adicionales según tus requisitos de calidad. MMR es una mejora gratuita para diversidad. Multi-consulta y HyDE añaden costo moderado pero mejoran significativamente la recuperación para preguntas complejas. Combina estas con reranking (cubierto en una lección dedicada) para los mejores resultados. Siempre mide la calidad de recuperación con consultas reales antes y después de aplicar cada estrategia.

Continuar Aprendiendo