Las interrupciones son eventos inevitables. Ya sea que utilices un servicio de hosting compartido, reseller hosting, VPS o una solución en la nube, ya sea con Gigacore u otro proveedor, cualquier servicio basado en tecnologías de la información está expuesto al riesgo de sufrir una caída; esta realidad es innegable.
Tanto para nuestro equipo interno como para nuestros valiosos clientes, cualquier interrupción representa un desafío significativo. A pesar de ser conscientes de que estos eventos ocurrirán en algún momento, hemos desarrollado esta eficiente política de respuesta ante emergencias. Esta política no solo nos guiará hacia una resolución exitosa en el calor del momento, sino que también te brinda como cliente, la certeza de estar en manos de profesionales dedicados.
En Gigacore entendemos que, durante situaciones críticas, las cosas pueden salirse rápidamente de control. Sin embargo, con esta política en marcha, nos comprometemos a abordar cualquier interrupción de manera eficiente y efectiva, asegurando la rápida continuidad y estabilidad de los servicios que proporcionamos.
Tipos de incidentes:
En el ámbito de la prestación de servicios de hosting, la identificación y clasificación de incidentes son elementos cruciales para garantizar la estabilidad y la continuidad operativa. En esta categorización, distinguimos diversos tipos de incidentes según el impacto que generan en el adecuado funcionamiento de los servicios proporcionados a nuestros clientes.
Bug
Este incidente, clasificado como "No Urgente", implica la presencia de fallas en ciertas funciones del servicio sin interrupciones totales. Puede clasificarse en las siguientes categorías:
- Software Propietario: Fallos identificados en el software central de Gigacore, sujetos a corrección en futuras actualizaciones por parte de Gigacore. Por ejemplo, el cliente final experimenta un error al pagar con saldo en el Área de Cliente, impidiendo completar un pedido si se elige el método de pago "Saldo a Favor".
- Software de Terceros: Fallos identificados en el software de terceros o partners, sujetos a corrección en futuras actualizaciones por parte del proveedor. Por ejemplo, cPanel elimina los dominios adicionales al transferir una cuenta de un servidor a otro.
Interrupción Parcial
Este incidente, clasificado como "Urgente", implica una interrupción parcial en los servicios y su funcionalidad, y puede clasificarse en las siguientes categorías:
- Software Propietario: Interrupciones limitadas a funciones específicas debido a fallos en el software propietario de Gigacore. Por ejemplo, una interrupción en la comunicación del API de reventa de dominios de Gigacore, impidiendo a los clientes de nuestros revendedores gestionar sus dominios desde sus áreas de cliente.
- Ataques: Ataques cibernéticos que resultan en una interrupción parcial de los servicios. Por ejemplo, un ataque de Denegación de Servicio (DoS) que causa sobrecarga en el Área de Cliente de Gigacore, impidiendo temporalmente el acceso de nuestros clientes a sus servicios.
- Software de Terceros: Degradación en servicios de terceros que afectan de alguna manera los servicios ofrecidos por Gigacore y que inciden en la funcionalidad específica. Por ejemplo, un fallo en los servicios de Mailchannels que impacta en la capacidad de entrega de correos de nuestros clientes.
Caída Total
Este incidente, clasificado como "Crítico", implica una interrupción total en los servicios de hosting y puede derivarse de al menos tres causas principales:
- Centro de Datos: Interrupciones totales originadas por problemas en el centro de datos, como fallos en el suministro eléctrico. Por ejemplo, una falla de energía eléctrica en el centro de datos provocaría una caída completa en uno o más nodos de Gigacore.
- Software de Terceros: Problemas sistémicos o errores en el software de terceros o partners que interrumpen completamente el funcionamiento de los servicios. Por ejemplo, una interrupción en el servicio de DNS de Cloudflare causaría una caída completa en uno o más nodos de Gigacore.
- Ataques: Ataques cibernéticos que resultan en una interrupción completa de los servicios. Por ejemplo, un ataque DDoS masivo y no controlado podría causar interrupciones parciales o totales en uno o más nodos de Gigacore.
Protocolo de gestión ante incidentes
Bug
A continuación, se detalla el protocolo de procedimientos ante la detección de un incidente de tipo Bug.
Procedimiento
- Recolección de Datos: Un miembro del Staff de Gigacore se encargará de recopilar datos y evidencia del fallo de software reportado por el usuario en un Ticket de Soporte.
- Réplica del error: El miembro del staff de Gigacore replicará el fallo en un entorno controlado, generando documentación interna detallada sobre el incidente.
- Si no se logra replicar el error, actualizaremos el ticket de soporte informando sobre la no existencia del bug.
- Si se replica el error, avanzamos al paso 4.
- Caso Interno: Generamos un caso interno con la información obtenida y referencia en el ticket generado previamente en los pasos 1 y 2.
- Escalado: Entregamos el caso interno al desarrollador (Gigacore o Tercero) para su correspondiente análisis y corrección, siguiendo el proceso de desarrollo en curso.
- Resolución: Una vez resuelto el bug actualizamos el software e informamos en un boletin general
Protocolo de Comunicación
- No se reporta en el status.
- No se envían boletines.
Tiempo de Resolución
No existe un tiempo de resolución estimado.
Interrupción Parcial
A continuación, se detalla el protocolo de procedimientos ante la detección de un incidente de tipo Interrupción Parcial.
Procedimiento
- Recolección de Datos: Un miembro del Staff de Gigacore se encargará de recopilar datos y evidencia del fallo reportado por el usuario
- Réplica del error: El miembro del staff de Gigacore replicará el fallo, generando documentación interna detallada sobre el incidente.
- Si no se logra replicar el error, actualizaremos por ticket o whatsapp informando sobre la no existencia del fallo.
- Si se replica el error, avanzamos al paso 4.
- Actualización de Status: Creamos un caso público en nuestra pagina de monitoreo status.gigacore.io con toda la información que tenemos hasta ese momento.
- Mitigación:
- Ataque: Aislamos el Nodo afectado, y nuestros expertos mitigan el ataque.
- Software Propietario o Terceros: Entregamos el caso al desarrollador (Gigacore o Tercero) para su correspondiente análisis y corrección
- Resolución: Una vez resuelto el incidente actualizamos el status de Gigacore y enviamos un boletín informativo.
Protocolo de Comunicación
- Reportamos en el status cada 6 horas
- Enviamos un boletín cada 24 horas
Tiempo de Resolución
No existe un tiempo de resolución estimado.
Caida Total
A continuación, se detalla el protocolo de procedimientos ante la detección de un incidente de tipo Caida Total.
Procedimiento
- Recolección de Datos: Un miembro del Staff de Gigacore se encargará de recopilar datos y evidencia del fallo reportado por el usuario o detectado por nuestro sistema de monitoreo 24/7
- Réplica del error: El miembro del staff de Gigacore replicará el fallo, generando documentación interna detallada sobre el incidente.
- Si no se logra replicar el error, actualizaremos por ticket o whatsapp informando sobre la no existencia del fallo.
- Si se replica el error, avanzamos al paso 4.
- Actualización de Status: Creamos un caso público en nuestra página de monitoreo status.gigacore.iocon toda la información que tenemos hasta ese momento.
- Mitigación:
- Ataque: Aislamos el Nodo afectado, y nuestros expertos mitigan el ataque.
- Software Propietario o Terceros: Entregamos el caso al desarrollador (Gigacore o Tercero) para su correspondiente análisis y corrección
- Resolución: Una vez resuelto el incidente actualizamos el status de Gigacore y enviamos un boletín informativo.
- Post Mortem y Resolución:
- Gigacore envía un informe post mortem detallado a los clientes afectados por correo electrónico,
- además gestiona uno a uno la correspondiente compensación de acuerdo al contrato vigente.
Protocolo de Comunicación
- Reportamos en el status cada 4 horas
- Enviamos un boletín cada 12 horas
Tiempo de Resolución
- En un caída total Gigacore espera de 12 a 24 horas por la mitigación, en caso de no existir mitigación exitosa Gigacore levanta un servidor espejo con su sistema de copias de seguridad.
- El tiempo máximo de resolución es de 24-48 horas laborables para servicios de hosting compartido