TechLead
Lección 14 de 25
6 min de lectura
Liderazgo

Gestión de Incidentes para Líderes

Lidera la respuesta a incidentes efectivamente con procesos estructurados, postmortems sin culpa y prácticas SRE

Por Qué Importa la Gestión de Incidentes

Todo sistema de software eventualmente fallará. La pregunta no es si ocurrirán incidentes, sino qué tan preparado está tu equipo para manejarlos. Como Tech Lead, tu rol durante los incidentes se extiende más allá de la resolución técnica: estableces el tono de cómo el equipo responde bajo presión, aseguras que la comunicación fluya a las personas correctas e impulsas el proceso de postmortem que previene la recurrencia.

Las organizaciones con prácticas maduras de gestión de incidentes tienen menor tiempo medio de resolución (MTTR), menos agotamiento de ingenieros y mayor confianza del cliente. Aquellas sin procesos estructurados experimentan fallos en cascada, culturas basadas en culpa y los mismos incidentes recurriendo una y otra vez.

Niveles de Severidad de Incidentes

  • SEV-1 (Crítico): El servicio está completamente caído o se están perdiendo datos. Todos a cubierta. El impacto al cliente es severo.
  • SEV-2 (Mayor): Funcionalidad significativa está degradada. Un subconjunto de usuarios está afectado. Requiere atención inmediata durante horario laboral.
  • SEV-3 (Menor): Funcionalidad menor está afectada pero existen soluciones alternativas. Puede abordarse en el próximo día laboral.
  • SEV-4 (Bajo): Problemas cosméticos o menores sin impacto significativo al usuario. Se rastrea y arregla en el trabajo normal de sprint.

Proceso de Respuesta a Incidentes

Fase 1: Detección y Alertas

Los incidentes deben ser detectados por sistemas de monitoreo, no por quejas de clientes. Invierte en:

  • Monitoreo de rendimiento de aplicación (APM) con umbrales de alerta
  • Endpoints de health check que verifican dependencias críticas
  • Monitoreo de tasa de errores con escalación automática
  • Monitoreo sintético (pruebas automatizadas ejecutándose contra producción)
  • Página de estado orientada al cliente que se actualiza automáticamente

Fase 2: Triaje y Respuesta

Una vez que se declara un incidente, establece estructura inmediatamente:

## Roles de Respuesta a Incidentes

Comandante de Incidente (IC):
- Es responsable de la respuesta general al incidente
- Coordina entre los respondedores
- Toma decisiones sobre escalación
- Comunica actualizaciones de estado

Líder Técnico:
- Lidera la investigación técnica
- Dirige los esfuerzos de depuración
- Propone e implementa correcciones

Líder de Comunicaciones:
- Actualiza la página de estado
- Notifica a los clientes afectados
- Mantiene informadas a las partes interesadas
- Gestiona el canal de Slack del incidente

Escriba:
- Documenta la línea de tiempo de eventos
- Registra decisiones y acciones tomadas
- Captura información para el postmortem

Fase 3: Mitigación y Resolución

La prioridad durante un incidente activo es mitigar primero, encontrar la causa raíz después. Restaurar el servicio es más importante que entender por qué se rompió. Las estrategias comunes de mitigación incluyen:

  • Hacer rollback del despliegue más reciente
  • Escalar la infraestructura para manejar carga aumentada
  • Habilitar feature flags para deshabilitar funcionalidad problemática
  • Hacer failover a un sistema o región de respaldo
  • Aplicar un hotfix temporal mientras se investiga la causa raíz

Postmortems Sin Culpa

El postmortem es donde vive el verdadero valor de la gestión de incidentes. Un postmortem sin culpa se enfoca en entender qué sucedió y mejorar los sistemas, no en castigar a individuos. La filosofía es simple: los humanos cometen errores; los sistemas deben diseñarse para prevenir que esos errores causen interrupciones.

## Plantilla de Postmortem

### Resumen del Incidente
- Fecha/Hora: 2026-03-10, 14:32 - 15:47 UTC
- Duración: 1 hora 15 minutos
- Severidad: SEV-2
- Impacto: 40% de las solicitudes API devolvieron errores 500

### Línea de Tiempo
14:32 - Las alertas de monitoreo se disparan por tasa elevada de 5xx
14:35 - El ingeniero de guardia reconoce la alerta
14:40 - Se declara el incidente, se asigna IC
14:45 - Causa raíz identificada: pool de conexiones de BD agotado
14:50 - Intento de mitigación: reiniciar pods de aplicación
14:55 - El reinicio no resolvió; el pool se llena de nuevo en minutos
15:10 - Identificado: nueva funcionalidad con patrón de consulta N+1
15:20 - Feature flag deshabilitada para la nueva funcionalidad
15:30 - Las tasas de error vuelven a la normalidad
15:47 - Incidente resuelto, monitoreo confirma estabilidad

### Causa Raíz
Una nueva funcionalidad desplegada a las 13:00 contenía una consulta N+1
que generaba 500 consultas de base de datos por solicitud API en lugar de 2.
Bajo tráfico normal, esto agotó el pool de conexiones.

### Factores Contribuyentes
- No se realizó prueba de carga antes del despliegue
- Las métricas del pool de conexiones de BD no estaban monitoreadas
- La revisión de código no detectó el patrón N+1

### Elementos de Acción
1. [P0] Agregar monitoreo y alertas del pool de conexiones de BD
2. [P0] Corregir la consulta N+1 en la nueva funcionalidad
3. [P1] Agregar detección de N+1 al pipeline de CI (pg-lint)
4. [P1] Crear requisitos de prueba de carga para funcionalidades
   que toquen endpoints de alto tráfico
5. [P2] Agregar conteo de consultas de BD al checklist de revisión de código

Haciendo los Postmortems Verdaderamente Sin Culpa

  • Usa "el sistema" como sujeto, no nombres de personas: "El pipeline de despliegue no incluyó pruebas de carga" no "Juan no ejecutó pruebas de carga"
  • Enfócate en mejoras sistémicas: cada elemento de acción debe cambiar un sistema, no a una persona
  • El IC o Tech Lead debe modelar la falta de culpa compartiendo sus propios errores abiertamente
  • Nunca uses los postmortems en evaluaciones de rendimiento como evidencia negativa
  • Agradece a las personas que identifican la causa raíz y contribuyen al postmortem

Mejores Prácticas de Guardia

  • Runbooks: Crea guías paso a paso para cada alerta común para que cualquier ingeniero de guardia pueda responder
  • Equidad en la rotación: Distribuye la guardia equitativamente. Compensa a los ingenieros por trabajo fuera de horario.
  • Rutas de escalación: Documentación clara de a quién escalar y cuándo
  • Proceso de traspaso: Traspaso estructurado entre rotaciones documentando problemas activos
  • Calidad de alertas: Revisa y ajusta las alertas regularmente. Una rotación de guardia con 50 falsas alarmas por semana crea fatiga de alertas.

Resumen

La gestión de incidentes es una competencia central de liderazgo. Tu trabajo como Tech Lead es asegurar que el equipo tenga los procesos, herramientas y cultura para detectar incidentes rápidamente, responder efectivamente y aprender sistemáticamente de cada fallo. Los postmortems sin culpa son la clave para la mejora continua: transforman los incidentes de crisis en oportunidades de aprendizaje.

Continuar Aprendiendo