¿Qué es el Reranking?
El reranking es un enfoque de recuperación en dos etapas: primero, recuperar un conjunto amplio de documentos candidatos usando métodos aproximados rápidos (similitud vectorial, BM25), luego usar un modelo más preciso pero más lento para re-puntuar y reordenarlos. Esto te da la velocidad de la búsqueda aproximada con la precisión de la coincidencia exacta.
Bi-Encoder vs Cross-Encoder
| Propiedad | Bi-Encoder (Recuperación) | Cross-Encoder (Reranking) |
|---|---|---|
| Entrada | Consulta y documento por separado | Consulta + documento juntos |
| Salida | Vectores independientes | Puntuación única de relevancia |
| Velocidad | Muy rápido (precalculado) | Lento (se ejecuta por par) |
| Precisión | Buena | Excelente |
| Caso de Uso | Recuperación inicial (top 100) | Reranking (top 100 a top 5) |
Mejores Prácticas de Reranking
- Sobre-recupera, luego reranquea: Obtén 20-50 candidatos, reranquea a los top 3-5. Más candidatos = mejores resultados finales.
- Los modelos cross-encoder son pequeños: Los cross-encoders locales se ejecutan en milisegundos — no temas la latencia.
- Cohere Rerank está listo para producción: Si necesitas una API gestionada, Cohere proporciona excelente calidad con integración simple.
- Combina con búsqueda híbrida: Recuperación híbrida + reranking es el estándar de oro para calidad de RAG en 2026.
- Cachea resultados de reranking: Si la misma consulta se hace a menudo, cachea el orden reranqueado para evitar computación repetida.
Resumen
El reranking es una de las mejoras de mayor impacto que puedes hacer a un pipeline de RAG. Al añadir un cross-encoder o reranker basado en API entre recuperación y generación, mejoras dramáticamente la precisión de tu ventana de contexto. Los 50-200ms extra de latencia casi siempre valen la mejora de calidad.