Skip to content

21 de Enero 2026 - Estrategia BCP & DRP

Business Continuity Plan (BCP)

BCP: Es la capacidad estratégica y táctica de una organización para planificar y responder ante incidentes o interrupciones de negocio, con el fin de continuar operando a un nivel aceptable.

Se compone de cuatro elementos principales:

  • Personas: Definición de roles y acciones ante la inaccesibilidad de oficinas.
  • Procesos: Métodos alternativos para continuar operaciones (ventas, manufactura) mediante soluciones temporales (workarounds).
  • Infraestructura: Sedes alternativas o habilitación de trabajo remoto.
  • Tecnología: Recuperación de sistemas críticos (ver DRP).
Historia y Evolución
  • 1970: La era del "Disaster Recovery" (foco técnico en recuperación de datos).
  • 1980-1990: Auge de la dependencia tecnológica.
  • 2000: Eventos globales y estandarización. Sucesos como el 11-S y el Huracán Katrina mostraron que recuperar datos no bastaba; se requerían planes para las personas y sedes físicas.
    • En 2006 nace la BS 25999.
    • En 2012, esta norma evoluciona a la ISO 22301.
  • Actualidad: Resiliencia y Ciberseguridad. El enfoque se amplía a la Ciber-resiliencia (Ransomware) y la Resiliencia Organizacional (adaptación a cambios de mercado).

Elementos clave (SRE Metrics)

En el contexto de ingeniería de fiabilidad, estas métricas definen la arquitectura y el presupuesto.

  1. RTO (Recovery Time Objective): ¿Cuánto tiempo se puede estar parado antes de que el daño sea irreversible? Define la velocidad de la recuperación.

  2. RPO (Recovery Point Objective): ¿Cuánta información se puede permitir perder? (ej. datos de la última hora, del último día). Define la frecuencia de los backups o replicación.

Relación Costo vs. Disponibilidad

Existe una relación inversa: a menor RTO/RPO (cercanos a cero), el costo de la infraestructura aumenta exponencialmente.

  • RTO de días: Costo bajo (Backups fríos).
  • RTO de segundos: Costo alto (Infraestructura duplicada/Active-Active).

Nota: Se recomienda clasificar las aplicaciones por "Tiers" (Niveles de criticidad) para optimizar recursos.

Mejora Continua

La continuidad del negocio no es un documento estático, es un ciclo de mejora continua que incluye análisis de riesgos, pruebas de simulacro y actualización constante.


Fundamentos de Continuidad

¿Por qué existe la Continuidad del Negocio?

Las organizaciones modernas dependen de procesos críticos, tecnología, personas y terceros. La interrupción de alguno de estos puede comprometer la supervivencia del negocio.

La Continuidad del Negocio (Business Continuity) surge para asegurar que una organización pueda continuar operando a niveles aceptables, aún cuando se enfrente a incidentes disruptivos.

Puntos clave:

  • No se trata solo de TI.
  • No se trata solo de desastres naturales.
  • Se trata de supervivencia operativa y estratégica.

DRP (Disaster Recovery Plan)

El Plan de Recuperación ante Desastres es un documento formal (Runbooks) que contiene los procedimientos detallados para recuperar y proteger la infraestructura tecnológica (servidores, redes, datos, software) tras un evento disruptivo.

  • Objetivo: Minimizar el tiempo de inactividad (downtime) y evitar la pérdida de datos.
  • Alcance: Técnico. Se centra en restablecer el flujo de datos para que el negocio pueda operar.

Estrategias de Recuperación

Se ordenan típicamente por costo y complejidad (de menor a mayor):

  1. Backup & Restore (Tier 3):

    • El más barato, pero el más lento.
    • Implica restaurar desde copias almacenadas en frío.
  2. Pilot Light (Tier 2):

    • Una versión mínima de la empresa siempre "encendida" en la nube (ej. solo la base de datos replicada).
    • Los servidores de aplicación se escalan o provisionan solo durante el evento.
  3. Warm Standby (Tier 1.5):

    • Una versión reducida pero funcional del entorno completo corre siempre en espera.
    • Permite una recuperación más rápida que Pilot Light al tener capacidad de cómputo ya pre-aprovisionada.
  4. Hot Standby / Multi-sitio (Tier 1):

    • Dos centros de datos funcionando simultáneamente (Active-Active).
    • Si uno cae, el otro asume la carga al instante (Failover automático).
    • Cero pérdida de tiempo, costo elevado.

Clasificación de Servicios (Tiering)

Para optimizar costos, no todos los sistemas se protegen con la misma estrategia. Se clasifican según su criticidad.

¿Cuál es más crítico? El Tier 1 es el nivel superior. A menor número, mayor prioridad, mayor costo y menor tolerancia a fallos.

  1. Tier 1 - Misión Crítica (Mission Critical):

    • Definición: Sistemas indispensables para la operación inmediata (ej. Pasarela de pagos, ERP de planta).
    • Impacto: Si se detienen, la empresa pierde dinero o reputación al instante.
    • Estrategia: Hot Standby / Multi-sitio.
  2. Tier 2 - Crítico de Negocio (Business Critical):

    • Definición: Sistemas importantes que permiten una breve pausa (ej. Sistemas de RRHH, reportes internos).
    • Impacto: Afecta la eficiencia, pero la empresa no se detiene totalmente.
    • Estrategia: Pilot Light / Warm Standby.
  3. Tier 3 - No Crítico (Non-Critical):

    • Definición: Herramientas de soporte, entornos de desarrollo o archivos históricos.
    • Impacto: Inconveniente, pero se puede operar sin ellos por un tiempo extendido.
    • Estrategia: Backup & Restore.

Regla de Pareto

Típicamente, solo el 20% de las aplicaciones son Tier 1, pero representan el 80% del valor del negocio. Intentar proteger todo como Tier 1 es un error financiero común.


Diferencia: BCP vs DRP

Para evitar confusión terminológica:

Enfoque: Negocio y Personas.

"Si la oficina se inunda, los empleados trabajarán desde casa y se utilizará el protocolo de comunicación alterno."

Enfoque: Tecnología y Datos.

"Si el servidor falla, se activará la réplica en la nube y se restaurará la base de datos al punto de las 2:00 AM."


Resiliencia Organizacional

Según la norma ISO 22316, es la capacidad de una organización para anticipar, prepararse, responder y adaptarse a cambios incrementales y a interrupciones repentinas para sobrevivir y prosperar.

A diferencia de la continuidad (que busca volver a la "normalidad"), la resiliencia acepta que la "normalidad" ha cambiado y busca la evolución de la empresa.

Pilares:

  1. Absorción: Capacidad de soportar el impacto inicial (ej. Circuit Breakers en software).
  2. Adaptación: Ajuste a la nueva realidad operativa.
  3. Transformación: Cambio del modelo de negocio si es necesario para mantener la relevancia.

Atributos de una empresa resiliente

Características distintivas que separan a una organización resiliente de una simplemente reactiva:

  • Liderazgo compartido: La toma de decisiones se descentraliza ante la crisis; no se espera pasivamente a que la cadena de mando dicte todas las órdenes.
  • Cultura de Aprendizaje: Se analiza cada fallo de manera sistémica (Post-Mortems) para mejorar, en lugar de buscar culpables.
  • Visión a largo plazo: No se sacrifican los valores fundamentales ni la estabilidad técnica por beneficios inmediatos.

Dato clave

Una organización resiliente no "rebota" al estado anterior (bounce back), sino que "salta hacia adelante" (bounce forward) hacia un estado mejorado y más robusto tras el incidente.

Chaos Engineering

En entornos modernos de DevOps, no se espera pasivamente a que ocurra un desastre. Se utiliza Chaos Engineering (ej. Chaos Mesh, Gremlin) para inyectar fallos controlados y validar que los mecanismos de resiliencia y auto-healing funcionen correctamente.