Empleo de Call Leader (Incident Commander - LT SRE) - Middle - Remoto en Antioquia, Colombia-108600-CO

Publicado hace 21 días.

Call Leader (Incident Commander - LT SRE) - Middle - Remoto en AOS

$ 9.000.000 a 9.999.999 COP (Neto)

Antioquia

Empleado de tiempo completo

Inglés : Nivel Básico

Descripción Completa del Cargo: Call Leader (Incident Commander - LT SRE)

El  Call Leader  o  Comandante de Incidentes  es el líder responsable de coordinar la respuesta a incidentes de alto impacto en Nequi. Este rol es fundamental para garantizar que los sistemas de producción mantengan su disponibilidad y estabilidad, minimizando el tiempo de afectación en los usuarios y reduciendo el impacto en el negocio. A continuación, se detalla cada una de sus responsabilidades, competencias y restricciones en el ejercicio de sus funciones.

1. Responsabilidades Principales

a) Liderazgo en Incidentes

  • Inicio de la Llamada : El Call Leader se presenta al inicio de la llamada, especificando su rol y confirmando la participación de los equipos involucrados, tales como Ingeniería, Seguridad, Operaciones y Atención al Cliente.
  • Establecimiento del Objetivo : Define y comunica claramente el objetivo de la llamada, que es resolver el incidente lo más rápido posible y determinar la causa raíz.
  • Manejo del Foco en la Resolución : Dirige a todos los involucrados para que se concentren exclusivamente en la resolución del incidente, evitando distracciones y temas no relacionados.
  • Ejecución de Protocolos : Utiliza el Playbook y Runbook establecidos, asegurando que todos los procedimientos de respuesta al incidente se sigan correctamente.

b) Asignación y Seguimiento de Tareas

  • Distribución de Tareas : Asigna tareas específicas a cada miembro del equipo, basándose en su experiencia y conocimientos técnicos. Por ejemplo, un experto en bases de datos podría revisar logs, mientras que el equipo de seguridad podría realizar un análisis de amenazas.
  • Monitoreo del Progreso : Establece tiempos específicos para cada tarea asignada y monitorea los resultados a medida que avanzan en la resolución.
  • Documentación del Incidente : Se asegura de que cada etapa del incidente quede documentada en herramientas como Jira y que los logs de comunicación en OpsGenie se actualicen en tiempo real.

c) Análisis y Toma de Decisiones

  • Identificación de la Causa Raíz : Guiar al equipo en la recolección y análisis de datos que permitan identificar la causa raíz del incidente.
  • Análisis de Diagnóstico : Utiliza herramientas de visualización como Grafana o Dynatrace para monitorear patrones en tiempo real, evaluar el impacto del incidente y tomar decisiones informadas.
  • Decisiones Basadas en Datos : Emite decisiones rápidas y fundamentadas en la evidencia para minimizar el impacto del incidente, priorizando siempre la disponibilidad del servicio.

d) Comunicación y Escalamiento

  • Actualización Continua a Involucrados : Brinda actualizaciones periódicas y detalladas a todos los equipos y stakeholders de alto nivel (como COO, directores y gerentes), para asegurar una comunicación clara y constante.
  • Escalamiento del Incidente : En caso de que el incidente se complique o afecte a múltiples áreas, el Call Leader tiene la autoridad para escalar la situación a niveles superiores, incluyendo la notificación a la alta gerencia o solicitando recursos adicionales.
  • Canales de Comunicación : Utiliza Teams y OpsGenie como plataformas para coordinar la llamada y realizar actualizaciones, además de emplear Status Page para informar el estado del incidente a otros stakeholders.

e) Postmortem y Cultura de Mejora Continua

  • Conducción del Postmortem : Lidera el análisis post-incident, asegurándose de documentar de manera detallada las causas del problema, las acciones tomadas y las lecciones aprendidas. Facilita mesas de trabajo para examinar el incidente en profundidad.
  • Promoción de la Mejora Continua : Evalúa los procesos de respuesta al incidente, identificando áreas de mejora para optimizar la práctica. Facilita la retroalimentación de los equipos y fomenta una cultura de aprendizaje que permita reducir la recurrencia de problemas.
  • Indicadores y Métricas : Se encarga de analizar los KPIs asociados a la respuesta a incidentes y propone mejoras para incrementar la eficiencia de la gestión de incidentes.

2. Competencias y Habilidades Requeridas

a) Habilidades Blandas

  • Comunicación Efectiva : El Call Leader debe tener una comunicación clara, tanto verbal como escrita, capaz de transmitir instrucciones y actualizaciones de forma concisa, especialmente bajo presión.
  • Toma de Decisiones bajo Presión : Capacidad para evaluar rápidamente diferentes opciones y tomar decisiones firmes y oportunas en situaciones de alta presión.
  • Liderazgo y Autoridad : Tiene el carácter y liderazgo necesarios para tomar el control de la llamada, dirigiendo al equipo hacia la resolución del incidente. No teme imponer autoridad y mantener el orden, incluso cuando participen altos cargos.
  • Pensamiento Crítico : Habilidad para analizar situaciones complejas, considerando múltiples variables y tomando decisiones informadas basadas en datos.
  • Orientación al Cliente y Enfoque en la Resolución : Compromiso con la satisfacción del cliente y enfoque en la resolución efectiva del incidente para restaurar el servicio lo antes posible.

b) Conocimientos Técnicos

  • Familiaridad con la Infraestructura : Conocimiento básico de los sistemas y servicios de Nequi, incluyendo infraestructura en la nube (AWS), bases de datos, telecomunicaciones e integración. No se requiere experiencia técnica profunda, pero debe comprender el contexto de los sistemas involucrados.
  • Dominio de Herramientas de Gestión de Incidentes : Experiencia con herramientas como OpsGenie para la coordinación de la respuesta y Jira para la documentación de las etapas del incidente.
  • Capacitación en Prácticas SWAT : Debe estar familiarizado con los procesos de disponibilidad y las prácticas operativas de respuesta a incidentes en Nequi.

3. Actitudes y Comportamientos Esperados

  • Resiliencia y Tolerancia a la Presión : Mantener la calma y concentración en situaciones estresantes, proporcionando liderazgo al equipo.
  • Transparencia : Mantener informados a todos los participantes de la situación, brindando actualizaciones constantes y transparentes.
  • Enfoque en la Resolución : Centrarse en el objetivo principal de resolver el incidente, evitando distracciones o desviaciones del plan de acción.
  • Aprendizaje de los Errores : Utilizar cada incidente como una oportunidad de aprendizaje para mejorar continuamente los procesos y minimizar futuros problemas.

4. Limitaciones y Antipatrones del Rol

a) Restricciones del Rol

  • No Responde a Todas las Alertas : El Call Leader no tiene la obligación de ser el primer respondedor a cada alerta, pues existen equipos especializados que gestionan alertas iniciales.
  • No es Solucionador Técnico Único : Aunque lidera la respuesta, el Call Leader no es responsable de solucionar todos los aspectos técnicos. Su rol es coordinar y delegar a los expertos necesarios.

b) Antipatrones a Evitar

  • Evitar Reuniones Masivas : No es necesario incluir a todo el equipo en la llamada; se deben convocar únicamente a los expertos necesarios para evitar sobrecargar la comunicación.
  • Respetar el Tiempo de los Participantes : Permitir que los participantes abandonen la llamada cuando su rol ya no sea necesario.
  • Evitar Actualizaciones Excesivas : Proporcionar actualizaciones en momentos estratégicos, evitando interrupciones innecesarias.
  • Evitar el Heroísmo : Fomentar la delegación y confianza en el equipo, evitando asumir toda la responsabilidad de resolución.

Protocolo de Comunicación

  1. Inicio de la Llamada :
  • Presentación: "Este es [Nombre], soy el Call Leader para esta llamada."
  • Objetivo: "El objetivo de esta llamada es restablecer el servicio y minimizar el impacto."
  • Participantes: Confirmar la presencia de los equipos necesarios.
Situación Actual :
  • Descripción: "Tenemos un incidente de [Tipo] que afecta a [Áreas]."
  • Impacto: "El impacto actual es [descripción del impacto]."
  • Causa raíz (si se conoce): "La causa preliminar es..."
Asignación de Tareas y Actualizaciones Periódicas :
  • Designar tareas específicas y establecer tiempos de reporte.
  • Proveer actualizaciones cada 15-30 minutos, según se requiera.
Cierre de la Llamada :
  • Confirmación de resolución: "El incidente ha sido resuelto. La causa raíz fue..."
  • Agradecimientos y acciones de seguimiento: "Gracias a todos; se realizará una revisión postmortem para analizar el incidente y documentar las lecciones aprendidas."