Publicado hace más de 30 días.
Call Leader (Incident Commander - LT SRE) - Middle - Remoto en AOS
$ 9.000.000 a 9.999.999 COP (Neto)
Antioquia
Empleado de tiempo completo
Inglés : Nivel Básico
Descripción Completa del Cargo: Call Leader (Incident Commander - LT SRE)
El Call Leader o Comandante de Incidentes es el líder responsable de coordinar la respuesta a incidentes de alto impacto en Nequi. Este rol es fundamental para garantizar que los sistemas de producción mantengan su disponibilidad y estabilidad, minimizando el tiempo de afectación en los usuarios y reduciendo el impacto en el negocio. A continuación, se detalla cada una de sus responsabilidades, competencias y restricciones en el ejercicio de sus funciones.
1. Responsabilidades Principales
a) Liderazgo en Incidentes
- Inicio de la Llamada : El Call Leader se presenta al inicio de la llamada, especificando su rol y confirmando la participación de los equipos involucrados, tales como Ingeniería, Seguridad, Operaciones y Atención al Cliente.
- Establecimiento del Objetivo : Define y comunica claramente el objetivo de la llamada, que es resolver el incidente lo más rápido posible y determinar la causa raíz.
- Manejo del Foco en la Resolución : Dirige a todos los involucrados para que se concentren exclusivamente en la resolución del incidente, evitando distracciones y temas no relacionados.
- Ejecución de Protocolos : Utiliza el Playbook y Runbook establecidos, asegurando que todos los procedimientos de respuesta al incidente se sigan correctamente.
b) Asignación y Seguimiento de Tareas
- Distribución de Tareas : Asigna tareas específicas a cada miembro del equipo, basándose en su experiencia y conocimientos técnicos. Por ejemplo, un experto en bases de datos podría revisar logs, mientras que el equipo de seguridad podría realizar un análisis de amenazas.
- Monitoreo del Progreso : Establece tiempos específicos para cada tarea asignada y monitorea los resultados a medida que avanzan en la resolución.
- Documentación del Incidente : Se asegura de que cada etapa del incidente quede documentada en herramientas como Jira y que los logs de comunicación en OpsGenie se actualicen en tiempo real.
c) Análisis y Toma de Decisiones
- Identificación de la Causa Raíz : Guiar al equipo en la recolección y análisis de datos que permitan identificar la causa raíz del incidente.
- Análisis de Diagnóstico : Utiliza herramientas de visualización como Grafana o Dynatrace para monitorear patrones en tiempo real, evaluar el impacto del incidente y tomar decisiones informadas.
- Decisiones Basadas en Datos : Emite decisiones rápidas y fundamentadas en la evidencia para minimizar el impacto del incidente, priorizando siempre la disponibilidad del servicio.
d) Comunicación y Escalamiento
- Actualización Continua a Involucrados : Brinda actualizaciones periódicas y detalladas a todos los equipos y stakeholders de alto nivel (como COO, directores y gerentes), para asegurar una comunicación clara y constante.
- Escalamiento del Incidente : En caso de que el incidente se complique o afecte a múltiples áreas, el Call Leader tiene la autoridad para escalar la situación a niveles superiores, incluyendo la notificación a la alta gerencia o solicitando recursos adicionales.
- Canales de Comunicación : Utiliza Teams y OpsGenie como plataformas para coordinar la llamada y realizar actualizaciones, además de emplear Status Page para informar el estado del incidente a otros stakeholders.
e) Postmortem y Cultura de Mejora Continua
- Conducción del Postmortem : Lidera el análisis post-incident, asegurándose de documentar de manera detallada las causas del problema, las acciones tomadas y las lecciones aprendidas. Facilita mesas de trabajo para examinar el incidente en profundidad.
- Promoción de la Mejora Continua : Evalúa los procesos de respuesta al incidente, identificando áreas de mejora para optimizar la práctica. Facilita la retroalimentación de los equipos y fomenta una cultura de aprendizaje que permita reducir la recurrencia de problemas.
- Indicadores y Métricas : Se encarga de analizar los KPIs asociados a la respuesta a incidentes y propone mejoras para incrementar la eficiencia de la gestión de incidentes.
2. Competencias y Habilidades Requeridas
a) Habilidades Blandas
- Comunicación Efectiva : El Call Leader debe tener una comunicación clara, tanto verbal como escrita, capaz de transmitir instrucciones y actualizaciones de forma concisa, especialmente bajo presión.
- Toma de Decisiones bajo Presión : Capacidad para evaluar rápidamente diferentes opciones y tomar decisiones firmes y oportunas en situaciones de alta presión.
- Liderazgo y Autoridad : Tiene el carácter y liderazgo necesarios para tomar el control de la llamada, dirigiendo al equipo hacia la resolución del incidente. No teme imponer autoridad y mantener el orden, incluso cuando participen altos cargos.
- Pensamiento Crítico : Habilidad para analizar situaciones complejas, considerando múltiples variables y tomando decisiones informadas basadas en datos.
- Orientación al Cliente y Enfoque en la Resolución : Compromiso con la satisfacción del cliente y enfoque en la resolución efectiva del incidente para restaurar el servicio lo antes posible.
b) Conocimientos Técnicos
- Familiaridad con la Infraestructura : Conocimiento básico de los sistemas y servicios de Nequi, incluyendo infraestructura en la nube (AWS), bases de datos, telecomunicaciones e integración. No se requiere experiencia técnica profunda, pero debe comprender el contexto de los sistemas involucrados.
- Dominio de Herramientas de Gestión de Incidentes : Experiencia con herramientas como OpsGenie para la coordinación de la respuesta y Jira para la documentación de las etapas del incidente.
- Capacitación en Prácticas SWAT : Debe estar familiarizado con los procesos de disponibilidad y las prácticas operativas de respuesta a incidentes en Nequi.
3. Actitudes y Comportamientos Esperados
- Resiliencia y Tolerancia a la Presión : Mantener la calma y concentración en situaciones estresantes, proporcionando liderazgo al equipo.
- Transparencia : Mantener informados a todos los participantes de la situación, brindando actualizaciones constantes y transparentes.
- Enfoque en la Resolución : Centrarse en el objetivo principal de resolver el incidente, evitando distracciones o desviaciones del plan de acción.
- Aprendizaje de los Errores : Utilizar cada incidente como una oportunidad de aprendizaje para mejorar continuamente los procesos y minimizar futuros problemas.
4. Limitaciones y Antipatrones del Rol
a) Restricciones del Rol
- No Responde a Todas las Alertas : El Call Leader no tiene la obligación de ser el primer respondedor a cada alerta, pues existen equipos especializados que gestionan alertas iniciales.
- No es Solucionador Técnico Único : Aunque lidera la respuesta, el Call Leader no es responsable de solucionar todos los aspectos técnicos. Su rol es coordinar y delegar a los expertos necesarios.
b) Antipatrones a Evitar
- Evitar Reuniones Masivas : No es necesario incluir a todo el equipo en la llamada; se deben convocar únicamente a los expertos necesarios para evitar sobrecargar la comunicación.
- Respetar el Tiempo de los Participantes : Permitir que los participantes abandonen la llamada cuando su rol ya no sea necesario.
- Evitar Actualizaciones Excesivas : Proporcionar actualizaciones en momentos estratégicos, evitando interrupciones innecesarias.
- Evitar el Heroísmo : Fomentar la delegación y confianza en el equipo, evitando asumir toda la responsabilidad de resolución.
Protocolo de Comunicación
- Inicio de la Llamada :
- Presentación: "Este es [Nombre], soy el Call Leader para esta llamada."
- Objetivo: "El objetivo de esta llamada es restablecer el servicio y minimizar el impacto."
- Participantes: Confirmar la presencia de los equipos necesarios.
- Descripción: "Tenemos un incidente de [Tipo] que afecta a [Áreas]."
- Impacto: "El impacto actual es [descripción del impacto]."
- Causa raíz (si se conoce): "La causa preliminar es..."
- Designar tareas específicas y establecer tiempos de reporte.
- Proveer actualizaciones cada 15-30 minutos, según se requiera.
- Confirmación de resolución: "El incidente ha sido resuelto. La causa raíz fue..."
- Agradecimientos y acciones de seguimiento: "Gracias a todos; se realizará una revisión postmortem para analizar el incidente y documentar las lecciones aprendidas."