En los últimos años, la resiliencia ha pasado de ser un “nice to have” a un requisito crítico para cualquier plataforma digital. Los fallos regionales, aunque poco frecuentes, existen, al igual que los problemas derivados de errores humanos, y cuando ocurren, el impacto en el negocio puede ser enorme si no se está preparado.
En este artículo quiero compartir un proyecto reciente y exitoso en el que, desde Unikal Tech Partners, automatizamos la recuperación completa de un entorno AWS desplegado en una región primaria (Región A) hacia una región secundaria (Región B), utilizando Infraestructura como Código (IaC) y servicios nativos de AWS.
El principal objetivo marcado era claro: recuperar la plataforma de forma rápida, repetible y sin intervención manual. Incluso ante un fallo grave de toda una región.
El reto principal era el siguiente: recuperación regional sin improvisación.
El entorno original en la Región A incluía, principalmente, los siguientes elementos:
Lógicamente, al ser un entorno crítico productivo, se tuvieron en cuenta las dependencias críticas entre servicios. Una de las premisas principales marcadas por el cliente era la siguiente:
“Si la región deja de estar disponible, no queremos reconstruir el entorno a mano.”
Los principales desafíos a los que se enfrentaba el CIO de la compañía eran los siguientes:
Dentro de las diferentes opciones que tenemos a la hora de realizar un Disaster Recovery, optamos por una estrategia multi‑región activa/pasiva, donde la Región B permanece preparada para levantar el entorno completo bajo demanda. A pesar de la criticidad del entorno, teniendo en cuenta el compromiso entre RTO, RPO y costes recurrentes, se descartaron las modalidades activo-activo.
Los pilares de la solución fueron:
Gracias a este enfoque, el cliente consiguió:
Además, el uso de IaC permitió optimizar costes, ya que la Región B solo consume recursos mínimos (almacenamiento y backup) hasta que se activa el plan de recuperación.
Algunas conclusiones clave del proyecto:
La recuperación ante desastres no debe ser un documento olvidado en un cajón. Debe ser un proceso vivo, probado y automatizado. AWS, combinado con Infraestructura como Código, permite construir soluciones de alta disponibilidad y recuperación regional de forma elegante, segura y eficiente.
Si tu plataforma todavía depende de pasos manuales para recuperarse de un fallo grave, probablemente no esté tan preparada como crees. Te invitamos a que, desde Unikal Tech Partners, revisemos tu Plan de Recuperación de Desastres en AWS y podamos analizar si realmente cumple con los SLA marcados por negocio.
|
Carlos Valverde |