TechLead
Leccion 9 de 24
5 min de lectura
Agentes IA

Estrategias de Fragmentación

Domina las estrategias de fragmentación de tamaño fijo, semántica, recursiva y padre-hijo para una recuperación RAG óptima

Por Qué Importa la Fragmentación

La fragmentación es el proceso de dividir documentos en piezas más pequeñas para embedding y recuperación. Es posiblemente el factor de mayor impacto en la calidad de RAG. Una fragmentación deficiente lleva a una recuperación deficiente, y una recuperación deficiente lleva a respuestas irrelevantes o incorrectas — sin importar qué tan bueno sea tu LLM.

Guía Rápida de Estrategias de Fragmentación

  • Tamaño Fijo: Simple, predecible — buena línea base para documentos homogéneos
  • Caracteres Recursivos: Divide en límites naturales (párrafos, oraciones) — mejor propósito general
  • Semántica: Usa embeddings para encontrar límites naturales de temas — mejor calidad, mayor costo
  • Padre-Hijo: Fragmentos pequeños para recuperación, fragmentos grandes para contexto — lo mejor de ambos mundos
  • Específica del Documento: Encabezados Markdown, funciones de código, etiquetas HTML — mejor para documentos estructurados

Elegir el Tamaño de Fragmento

Directrices de Tamaño de Fragmento

Tipo de Documento Tamaño de Fragmento Superposición Estrategia
Texto general500-1000 caracteres100-200Recursiva
Documentos técnicos1000-1500 caracteres200-300Consciente de Markdown
Legal/médico800-1200 caracteres200Semántica
Archivos de código1000-2000 caracteres100Consciente del lenguaje
Preguntas / FAQ200-500 caracteres0-50Fija o por elemento

Resumen

La fragmentación es la base de la calidad de RAG. Comienza con la división recursiva de caracteres como tu línea base, mide la calidad de recuperación, luego prueba fragmentación semántica o padre-hijo si es necesario. La estrategia correcta depende de tus tipos de documentos, patrones de consulta y requisitos de calidad. Siempre valida con consultas reales e itera.

Continuar Aprendiendo