Por Qué Importa la Fragmentación
La fragmentación es el proceso de dividir documentos en piezas más pequeñas para embedding y recuperación. Es posiblemente el factor de mayor impacto en la calidad de RAG. Una fragmentación deficiente lleva a una recuperación deficiente, y una recuperación deficiente lleva a respuestas irrelevantes o incorrectas — sin importar qué tan bueno sea tu LLM.
Guía Rápida de Estrategias de Fragmentación
- Tamaño Fijo: Simple, predecible — buena línea base para documentos homogéneos
- Caracteres Recursivos: Divide en límites naturales (párrafos, oraciones) — mejor propósito general
- Semántica: Usa embeddings para encontrar límites naturales de temas — mejor calidad, mayor costo
- Padre-Hijo: Fragmentos pequeños para recuperación, fragmentos grandes para contexto — lo mejor de ambos mundos
- Específica del Documento: Encabezados Markdown, funciones de código, etiquetas HTML — mejor para documentos estructurados
Elegir el Tamaño de Fragmento
Directrices de Tamaño de Fragmento
| Tipo de Documento | Tamaño de Fragmento | Superposición | Estrategia |
|---|---|---|---|
| Texto general | 500-1000 caracteres | 100-200 | Recursiva |
| Documentos técnicos | 1000-1500 caracteres | 200-300 | Consciente de Markdown |
| Legal/médico | 800-1200 caracteres | 200 | Semántica |
| Archivos de código | 1000-2000 caracteres | 100 | Consciente del lenguaje |
| Preguntas / FAQ | 200-500 caracteres | 0-50 | Fija o por elemento |
Resumen
La fragmentación es la base de la calidad de RAG. Comienza con la división recursiva de caracteres como tu línea base, mide la calidad de recuperación, luego prueba fragmentación semántica o padre-hijo si es necesario. La estrategia correcta depende de tus tipos de documentos, patrones de consulta y requisitos de calidad. Siempre valida con consultas reales e itera.