TechLead
Leccion 8 de 24
5 min de lectura
Agentes IA

Fundamentos de RAG

Comprende la arquitectura de Generación Aumentada por Recuperación, por qué importa y cómo funciona de extremo a extremo

¿Qué es RAG?

La Generación Aumentada por Recuperación (RAG) es un patrón de arquitectura que mejora las respuestas del LLM recuperando información relevante de fuentes de conocimiento externas antes de generar una respuesta. En lugar de depender únicamente de los datos de entrenamiento del modelo (que tiene un corte de conocimiento), RAG obtiene dinámicamente información actualizada y específica del dominio de tus propias fuentes de datos.

¿Por Qué Usar RAG?

  • Reducir Alucinaciones: Fundamentar respuestas en documentos y datos reales
  • Conocimiento Actualizado: Acceder a información actualizada más allá del corte de entrenamiento
  • Especificidad del Dominio: Responder preguntas sobre tus datos propietarios, documentos y código
  • Atribución de Fuentes: Citar los documentos exactos que respaldan cada respuesta
  • Costo Efectivo: Más barato que el fine-tuning para la mayoría de los casos de uso de fundamentación de conocimiento
  • Privacidad de Datos: Mantener datos sensibles en tu propia infraestructura, no en los pesos del modelo

Arquitectura de RAG

El pipeline de RAG consta de dos fases principales: Indexación (offline) y Recuperación + Generación (online).

Pasos del Pipeline de RAG

Fase Paso Descripción
Indexación1. CargarIngerir documentos desde archivos, APIs, bases de datos o web
Indexación2. FragmentarDividir documentos en piezas más pequeñas y significativas
Indexación3. EmbeberConvertir fragmentos en embeddings vectoriales
Indexación4. AlmacenarGuardar embeddings en una base de datos vectorial
Consulta5. Embeber ConsultaConvertir la pregunta del usuario en un vector
Consulta6. RecuperarEncontrar los fragmentos de documentos más similares
Consulta7. GenerarPasar contexto recuperado + pregunta al LLM

RAG vs. Fine-Tuning vs. Ingeniería de Prompts

Enfoque Mejor Para Costo Actualización de Datos
Ingeniería de PromptsContexto pequeño, tareas simplesBajoActualizaciones manuales
RAGGrandes bases de conocimiento, datos dinámicosMedioTiempo real
Fine-TuningComportamiento especializado, lenguaje del dominioAltoRequiere reentrenamiento

Resumen

RAG es el enfoque más práctico para construir aplicaciones de IA fundamentadas en conocimiento. Al combinar recuperación con generación, obtienes el poder de razonamiento de los LLMs con la precisión de tus propios datos. El pipeline — cargar, fragmentar, embeber, almacenar, recuperar, generar — es la base sobre la que se construyen todas las técnicas avanzadas de RAG. Domina los fundamentos antes de explorar las optimizaciones cubiertas en las próximas lecciones.

Continuar Aprendiendo