¿Qué es RAG?
La Generación Aumentada por Recuperación (RAG) es un patrón de arquitectura que mejora las respuestas del LLM recuperando información relevante de fuentes de conocimiento externas antes de generar una respuesta. En lugar de depender únicamente de los datos de entrenamiento del modelo (que tiene un corte de conocimiento), RAG obtiene dinámicamente información actualizada y específica del dominio de tus propias fuentes de datos.
¿Por Qué Usar RAG?
- Reducir Alucinaciones: Fundamentar respuestas en documentos y datos reales
- Conocimiento Actualizado: Acceder a información actualizada más allá del corte de entrenamiento
- Especificidad del Dominio: Responder preguntas sobre tus datos propietarios, documentos y código
- Atribución de Fuentes: Citar los documentos exactos que respaldan cada respuesta
- Costo Efectivo: Más barato que el fine-tuning para la mayoría de los casos de uso de fundamentación de conocimiento
- Privacidad de Datos: Mantener datos sensibles en tu propia infraestructura, no en los pesos del modelo
Arquitectura de RAG
El pipeline de RAG consta de dos fases principales: Indexación (offline) y Recuperación + Generación (online).
Pasos del Pipeline de RAG
| Fase | Paso | Descripción |
|---|---|---|
| Indexación | 1. Cargar | Ingerir documentos desde archivos, APIs, bases de datos o web |
| Indexación | 2. Fragmentar | Dividir documentos en piezas más pequeñas y significativas |
| Indexación | 3. Embeber | Convertir fragmentos en embeddings vectoriales |
| Indexación | 4. Almacenar | Guardar embeddings en una base de datos vectorial |
| Consulta | 5. Embeber Consulta | Convertir la pregunta del usuario en un vector |
| Consulta | 6. Recuperar | Encontrar los fragmentos de documentos más similares |
| Consulta | 7. Generar | Pasar contexto recuperado + pregunta al LLM |
RAG vs. Fine-Tuning vs. Ingeniería de Prompts
| Enfoque | Mejor Para | Costo | Actualización de Datos |
|---|---|---|---|
| Ingeniería de Prompts | Contexto pequeño, tareas simples | Bajo | Actualizaciones manuales |
| RAG | Grandes bases de conocimiento, datos dinámicos | Medio | Tiempo real |
| Fine-Tuning | Comportamiento especializado, lenguaje del dominio | Alto | Requiere reentrenamiento |
Resumen
RAG es el enfoque más práctico para construir aplicaciones de IA fundamentadas en conocimiento. Al combinar recuperación con generación, obtienes el poder de razonamiento de los LLMs con la precisión de tus propios datos. El pipeline — cargar, fragmentar, embeber, almacenar, recuperar, generar — es la base sobre la que se construyen todas las técnicas avanzadas de RAG. Domina los fundamentos antes de explorar las optimizaciones cubiertas en las próximas lecciones.