En el subcapítol anterior vam definir el RTO (quant de temps puc estar caigut) i el RPO (quants dades puc perdre). Ara veurem les quatre estratègies clàssiques de disaster recovery, que van des de la més barata i lenta fins a la més cara i instantània. El teu RTO i RPO determinen quina escollir. És un ventall d’opcions on, en general, menys cost = recuperació més lenta, i més cost = recuperació més ràpida.

El ventall: del més barat i lent al més car i instantani

Les quatre estratègies formen un espectre. A mesura que avances, la recuperació és més ràpida (RTO i RPO menors), però costa més mantenir-la:

  MÉS BARAT                ────────►              MÉS CAR
  RTO/RPO alts             ────────►          RTO/RPO baixos
  (recuperació lenta)      ────────►       (recuperació ràpida)

  1. Backup & Restore  2. Pilot Light  3. Warm Standby  4. Multi-site

Anem una per una.

Estratègia 1: Backup & Restore (còpia i restaura)

La més senzilla i barata. Fas còpies de seguretat de les teves dades (i configuració) i, si ocorre un desastre, reconstrueixes tot des d’aquestes còpies. No tens res duplicat funcionant: només guardes còpies.

Normal:    [còpies guardades] (esperant, sense cost de còmput)
Desastre:  reconstruir TOT des de les còpies  → triga (hores)
  • RTO: alt (hores o més: cal reconstruir-ho tot).
  • RPO: depèn de cada quant fas còpies.
  • Cost: molt baix (només pagues l’emmagatzematge de les còpies).

Analogia: és com tenir les còpies de les teves fotos en un disc dur guardat en un calaix. Si el teu ordinador es trenca, no perds les fotos, però hauràs de comprar un ordinador nou i restaurar-les, cosa que porta temps. Barato de mantenir, però la recuperació no és immediata.

Ideal per a: sistemes que toleren estar caiguts hores (RTO alt), com eines internes o arxius.

Estratègia 2: Pilot Light (llum pilot)

Un pas més. Mantens una versió mínima del sistema sempre encesa en un altre lloc: l’essencial (sobretot les dades, copiant-se contínuament), però sense la capacitat completa funcionant. En un desastre, «ences» la resta a partir d’aquesta base.

Normal:    sistema complet + "llum pilot" mínima en una altra regió
           (només l’essencial encès, dades sincronitzant-se)
Desastre:  arrencar la resta des de la llum pilot  → més ràpid que reconstruir
  • RTO: mitjà (més ràpid que backup, perquè l’essencial ja està llest).
  • RPO: baix (les dades es replican contínuament).
  • Cost: baix-mitjà (mantens només el mínim encès).

Analogia: és com la flama pilot d’una caldera de gas: sempre hi ha una petita flama encesa (el mínim), llesta perquè, quan necessitis calor, el sistema s’encengui ràpid a partir d’ella, sense haver d’arrencar de zero. Mantens el just per arrencar de pressa.

Ideal per a: sistemes importants que necessiten recuperar-se en força poc temps, però on pagar una còpia completa sempre encesa seria excessiu.

Estratègia 3: Warm Standby (reserva tèbia)

Mantens una còpia completa però reduïda del sistema funcionant en un altre lloc: tot està en marxa, però a menor escala (menys capacitat). En un desastre, només has d’escalar-la a mida completa i redirigir el trànsit.

Normal:    sistema complet + còpia COMPLETA però petita en una altra regió
           (tot funcionant, a escala reduïda)
Desastre:  escalar la còpia a mida completa + redirigir trànsit  → ràpid
  • RTO: baix (la còpia ja funciona, només cal fer-la més gran).
  • RPO: molt baix.
  • Cost: mitjà-alt (mantens una còpia completa funcionant, encara que petita).

Analogia: és com tenir un cotxe de recanvi més modest sempre llest al garatge, amb el motor a punt. Si el teu cotxe principal falla, puges al de recanvi a l’instant i segueixes el teu camí (potser amb menys luxes, però funciona). No has d’arrencar res de zero ni esperar.

Ideal per a: sistemes crítics que necessiten recuperar-se molt ràpid (RTO baix), però on pots tolerar uns minuts d’ajust.

Estratègia 4: Multi-site (actiu-actiu)

La més robusta i cara. Tens el sistema funcionant complet i a plena capacitat en diversos llocs alhora (per exemple, dues regions), atenent trànsit simultàniament. Si un falla, l’altre absorbeix tot de forma gairebé transparent, sense gairebé interrupció.

Normal:    sistema COMPLET funcionant a la regió A I a la regió B
           (ambdues atenent trànsit alhora)
Desastre:  la regió que queda absorbeix tot  → recuperació gairebé instantània
  • RTO: gairebé zero (l’altre lloc ja està atenent).
  • RPO: gairebé zero.
  • Cost: alt (mantens el sistema complet duplicat i actiu).

Analogia: és com tenir dos cotxes idèntics, tots dos en marxa, portant-te per rutes paral·leles. Si un s’avaria, ja ets (també) a l’altre: segueixes sense aturar-te ni un segon. Màxima seguretat, però pagues per dos cotxes complets funcionant.

Ideal per a: sistemes que no poden caure sota cap concepte (pagaments, serveis crítics), on el cost d’estar caigut supera de llarg el cost de la duplicació.

Taula comparativa

Estratègia RTO RPO Cost Què mantens encès
Backup & Restore Hores Segons còpies Molt baix Només còpies guardades
Pilot Light Mitjà Baix Baix-mitjà El mínim essencial
Warm Standby Baix Molt baix Mitjà-alt Còpia completa petita
Multi-site ~Zero ~Zero Alt Sistema complet duplicat

Com triar: el teu RTO i RPO manen

L’estratègia s’escull segons el RTO i RPO que el negoci necessiti (subcapítol 26.1) i el pressupost:

Toleres hores de caiguda?       → Backup & Restore (barat)
Necessites recuperar-te aviat?  → Pilot Light o Warm Standby
No pots caure mai?              → Multi-site (car però infal·lible)

💡 No tot necessita el mateix: una empresa fa servir estratègies diferents per a sistemes diferents. La seva plataforma de pagaments pot ser multi-site, mentre el seu sistema d’informes interns fa servir simple backup & restore. Apliques a cada sistema l’estratègia que la seva criticitat justifica.

Exemple del món real: una empresa de comerç electrònic decideix el seu DR per sistemes. La web de vendes (crítica) fa servir Warm Standby: una còpia reduïda llesta en una altra regió que escalen en minuts si la principal falla, equilibrant cost i rapidesa. El sistema de facturació fa servir Pilot Light: les dades es repliquen sempre, però la resta s’arrenca només si cal. I el magatzem d’informes històrics fa servir Backup & Restore: còpies diàries i res més. Així, gasten molt on és crític i poc on no, optimitzant cost i resiliència alhora.

El que has de recordar

  • Hi ha quatre estratègies clàssiques de disaster recovery, en un espectre de menys cost/més lent a més cost/més ràpid:
  • Backup & Restore: només guardes còpies i reconstrueixes en un desastre. Molt barat, RTO alt (hores). Com fotos en un disc al calaix.
  • Pilot Light: mantens el mínim essencial encès (dades replicant-se) i arranques la resta si falla. Cost baix-mitjà, RTO mitjà. Com la flama pilot d’una caldera.
  • Warm Standby: mantens una còpia completa però reduïda funcionant, i l’escales si falla. Cost mitjà-alt, RTO baix. Com un cotxe de recanvi amb el motor a punt.
  • Multi-site (actiu-actiu): sistema complet i duplicat atenent en diversos llocs alhora. Car, RTO/RPO gairebé zero. Com dos cotxes idèntics en marxa.
  • Tries segons el teu RTO/RPO (26.1) i pressupost, i pots fer servir estratègies diferents per a sistemes diferents segons la seva criticitat.

Al següent subcapítol veurem una peça clau perquè el canvi al sistema de suport sigui automàtic: els health checks i el failover amb Route 53.

Cloud, AWS & Terraform — De zero a expert

Capítol 1 · Què és el cloud computing

Capítol 2 · El mercat cloud i els grans proveïdors

Capítol 3 · Regions, zones de disponibilitat i edge

Capítol 4 · Càlcul: EC2

Capítol 5 · Emmagatzematge: S3

Capítol 6 · Xarxes: VPC

Capítol 7 · Identitat i accés: IAM

Capítol 8 · Bases de dades gestionades

Capítol 9 · Per què Infraestructura com a Codi

Capítol 10 · HCL: el llenguatge de Terraform

Capítol 11 · Providers i estat

Capítol 12 · La teva primera infraestructura real amb Terraform

Capítol 13 · Balanceig de càrrega i autoescalat

Capítol 14 · Serverless amb Lambda

Capítol 15 · Missatgeria i esdeveniments

Capítol 16 · Lliurament de contingut i DNS

Capítol 17 · Contenidors a AWS

Capítol 18 · Mòduls: reutilització i composició

Capítol 19 · Workspaces i gestió d'entorns

Capítol 20 · Backends remots i locking

Capítol 21 · Testing d'infraestructura

Capítol 22 · Terraform en CI/CD

Capítol 23 · Seguretat en profunditat

Capítol 24 · Observabilitat: logs, mètriques i traces

Capítol 25 · Optimització de costos

Capítol 26 · Alta disponibilitat i disaster recovery

Capítol 27 · Well-Architected Framework d'AWS

Capítol 28 · Arquitectures serverless a escala

Capítol 29 · Plataformes de dades a AWS

Capítol 30 · Multi-compte i landing zones

Capítol 31 · Platform Engineering i Internal Developer Platform

Capítol 32 · Certificacions AWS rellevants

Capítol 33 · Projectes per consolidar el que s'ha après

Capítol 34 · Recursos i comunitat

© Copyright 2024. Tots els drets reservats