En el subcapítol anterior vam definir el RTO (quant de temps puc estar caigut) i el RPO (quants dades puc perdre). Ara veurem les quatre estratègies clàssiques de disaster recovery, que van des de la més barata i lenta fins a la més cara i instantània. El teu RTO i RPO determinen quina escollir. És un ventall d’opcions on, en general, menys cost = recuperació més lenta, i més cost = recuperació més ràpida.
El ventall: del més barat i lent al més car i instantani
Les quatre estratègies formen un espectre. A mesura que avances, la recuperació és més ràpida (RTO i RPO menors), però costa més mantenir-la:
MÉS BARAT ────────► MÉS CAR RTO/RPO alts ────────► RTO/RPO baixos (recuperació lenta) ────────► (recuperació ràpida) 1. Backup & Restore 2. Pilot Light 3. Warm Standby 4. Multi-site
Anem una per una.
Estratègia 1: Backup & Restore (còpia i restaura)
La més senzilla i barata. Fas còpies de seguretat de les teves dades (i configuració) i, si ocorre un desastre, reconstrueixes tot des d’aquestes còpies. No tens res duplicat funcionant: només guardes còpies.
Normal: [còpies guardades] (esperant, sense cost de còmput) Desastre: reconstruir TOT des de les còpies → triga (hores)
- RTO: alt (hores o més: cal reconstruir-ho tot).
- RPO: depèn de cada quant fas còpies.
- Cost: molt baix (només pagues l’emmagatzematge de les còpies).
Analogia: és com tenir les còpies de les teves fotos en un disc dur guardat en un calaix. Si el teu ordinador es trenca, no perds les fotos, però hauràs de comprar un ordinador nou i restaurar-les, cosa que porta temps. Barato de mantenir, però la recuperació no és immediata.
Ideal per a: sistemes que toleren estar caiguts hores (RTO alt), com eines internes o arxius.
Estratègia 2: Pilot Light (llum pilot)
Un pas més. Mantens una versió mínima del sistema sempre encesa en un altre lloc: l’essencial (sobretot les dades, copiant-se contínuament), però sense la capacitat completa funcionant. En un desastre, «ences» la resta a partir d’aquesta base.
Normal: sistema complet + "llum pilot" mínima en una altra regió
(només l’essencial encès, dades sincronitzant-se)
Desastre: arrencar la resta des de la llum pilot → més ràpid que reconstruir- RTO: mitjà (més ràpid que backup, perquè l’essencial ja està llest).
- RPO: baix (les dades es replican contínuament).
- Cost: baix-mitjà (mantens només el mínim encès).
Analogia: és com la flama pilot d’una caldera de gas: sempre hi ha una petita flama encesa (el mínim), llesta perquè, quan necessitis calor, el sistema s’encengui ràpid a partir d’ella, sense haver d’arrencar de zero. Mantens el just per arrencar de pressa.
Ideal per a: sistemes importants que necessiten recuperar-se en força poc temps, però on pagar una còpia completa sempre encesa seria excessiu.
Estratègia 3: Warm Standby (reserva tèbia)
Mantens una còpia completa però reduïda del sistema funcionant en un altre lloc: tot està en marxa, però a menor escala (menys capacitat). En un desastre, només has d’escalar-la a mida completa i redirigir el trànsit.
Normal: sistema complet + còpia COMPLETA però petita en una altra regió
(tot funcionant, a escala reduïda)
Desastre: escalar la còpia a mida completa + redirigir trànsit → ràpid- RTO: baix (la còpia ja funciona, només cal fer-la més gran).
- RPO: molt baix.
- Cost: mitjà-alt (mantens una còpia completa funcionant, encara que petita).
Analogia: és com tenir un cotxe de recanvi més modest sempre llest al garatge, amb el motor a punt. Si el teu cotxe principal falla, puges al de recanvi a l’instant i segueixes el teu camí (potser amb menys luxes, però funciona). No has d’arrencar res de zero ni esperar.
Ideal per a: sistemes crítics que necessiten recuperar-se molt ràpid (RTO baix), però on pots tolerar uns minuts d’ajust.
Estratègia 4: Multi-site (actiu-actiu)
La més robusta i cara. Tens el sistema funcionant complet i a plena capacitat en diversos llocs alhora (per exemple, dues regions), atenent trànsit simultàniament. Si un falla, l’altre absorbeix tot de forma gairebé transparent, sense gairebé interrupció.
Normal: sistema COMPLET funcionant a la regió A I a la regió B
(ambdues atenent trànsit alhora)
Desastre: la regió que queda absorbeix tot → recuperació gairebé instantània- RTO: gairebé zero (l’altre lloc ja està atenent).
- RPO: gairebé zero.
- Cost: alt (mantens el sistema complet duplicat i actiu).
Analogia: és com tenir dos cotxes idèntics, tots dos en marxa, portant-te per rutes paral·leles. Si un s’avaria, ja ets (també) a l’altre: segueixes sense aturar-te ni un segon. Màxima seguretat, però pagues per dos cotxes complets funcionant.
Ideal per a: sistemes que no poden caure sota cap concepte (pagaments, serveis crítics), on el cost d’estar caigut supera de llarg el cost de la duplicació.
Taula comparativa
| Estratègia | RTO | RPO | Cost | Què mantens encès |
|---|---|---|---|---|
| Backup & Restore | Hores | Segons còpies | Molt baix | Només còpies guardades |
| Pilot Light | Mitjà | Baix | Baix-mitjà | El mínim essencial |
| Warm Standby | Baix | Molt baix | Mitjà-alt | Còpia completa petita |
| Multi-site | ~Zero | ~Zero | Alt | Sistema complet duplicat |
Com triar: el teu RTO i RPO manen
L’estratègia s’escull segons el RTO i RPO que el negoci necessiti (subcapítol 26.1) i el pressupost:
Toleres hores de caiguda? → Backup & Restore (barat) Necessites recuperar-te aviat? → Pilot Light o Warm Standby No pots caure mai? → Multi-site (car però infal·lible)
💡 No tot necessita el mateix: una empresa fa servir estratègies diferents per a sistemes diferents. La seva plataforma de pagaments pot ser multi-site, mentre el seu sistema d’informes interns fa servir simple backup & restore. Apliques a cada sistema l’estratègia que la seva criticitat justifica.
Exemple del món real: una empresa de comerç electrònic decideix el seu DR per sistemes. La web de vendes (crítica) fa servir Warm Standby: una còpia reduïda llesta en una altra regió que escalen en minuts si la principal falla, equilibrant cost i rapidesa. El sistema de facturació fa servir Pilot Light: les dades es repliquen sempre, però la resta s’arrenca només si cal. I el magatzem d’informes històrics fa servir Backup & Restore: còpies diàries i res més. Així, gasten molt on és crític i poc on no, optimitzant cost i resiliència alhora.
El que has de recordar
- Hi ha quatre estratègies clàssiques de disaster recovery, en un espectre de menys cost/més lent a més cost/més ràpid:
- Backup & Restore: només guardes còpies i reconstrueixes en un desastre. Molt barat, RTO alt (hores). Com fotos en un disc al calaix.
- Pilot Light: mantens el mínim essencial encès (dades replicant-se) i arranques la resta si falla. Cost baix-mitjà, RTO mitjà. Com la flama pilot d’una caldera.
- Warm Standby: mantens una còpia completa però reduïda funcionant, i l’escales si falla. Cost mitjà-alt, RTO baix. Com un cotxe de recanvi amb el motor a punt.
- Multi-site (actiu-actiu): sistema complet i duplicat atenent en diversos llocs alhora. Car, RTO/RPO gairebé zero. Com dos cotxes idèntics en marxa.
- Tries segons el teu RTO/RPO (26.1) i pressupost, i pots fer servir estratègies diferents per a sistemes diferents segons la seva criticitat.
Al següent subcapítol veurem una peça clau perquè el canvi al sistema de suport sigui automàtic: els health checks i el failover amb Route 53.
Cloud, AWS & Terraform — De zero a expert
Capítol 1 · Què és el cloud computing
- 1.1 El model client-servidor tradicional
- 1.2 Problemes que venia a resoldre el núvol
- 1.3 On-premise vs cloud vs híbrid
- 1.4 Els tres models de servei: IaaS, PaaS, SaaS
- 1.5 Els cinc pilars del cloud (segons NIST)
- 1.6 Avantatges reals: elasticitat, pagament per ús, disponibilitat global
Capítol 2 · El mercat cloud i els grans proveïdors
- 2.1 AWS, Azure i GCP: diferències i quotes de mercat
- 2.2 Per què aprendre AWS primer
- 2.3 Conceptes que són universals entre proveïdors
Capítol 3 · Regions, zones de disponibilitat i edge
- 3.1 Què és una regió AWS i com triar-la
- 3.2 Availability Zones: alta disponibilitat des del disseny
- 3.3 Edge locations i CloudFront
- 3.4 Latència, resiliència i sobirania de dades
Capítol 4 · Càlcul: EC2
- 4.1 Instàncies: tipus, famílies i quan triar cadascuna
- 4.2 AMIs, key pairs i Security Groups
- 4.3 Cicle de vida d'una instància
- 4.4 Elastic IPs i Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítol 5 · Emmagatzematge: S3
- 5.1 Buckets, objectes i claus
- 5.2 Classes d'emmagatzematge (Standard, IA, Glacier…)
- 5.3 Versionat i cicle de vida d'objectes
- 5.4 Polítiques de bucket i ACLs
- 5.5 Hosting de llocs web estàtics
Capítol 6 · Xarxes: VPC
- 6.1 Què és una VPC i per què la necessites
- 6.2 Subxarxes públiques i privades
- 6.3 Internet Gateway i NAT Gateway
- 6.4 Route Tables i Network ACLs
- 6.5 VPC Peering i endpoints
Capítol 7 · Identitat i accés: IAM
- 7.1 Usuaris, grups, rols i polítiques
- 7.2 El principi de mínim privilegi
- 7.3 Polítiques basades en identitat vs en recurs
- 7.4 MFA i credencials temporals (STS)
- 7.5 Bones pràctiques de seguretat IAM
Capítol 8 · Bases de dades gestionades
- 8.1 RDS: motors, Multi-AZ i rèpliques de lectura
- 8.2 Aurora i els seus avantatges sobre RDS vanilla
- 8.3 DynamoDB: model clau-valor / documents
- 8.4 ElastiCache per a memòria cau en memòria
- 8.5 Quan utilitzar cada tipus de base de dades
Capítol 9 · Per què Infraestructura com a Codi
- 9.1 Problemes del provisionament manual
- 9.2 IaC declaratiu vs imperatiu
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El cicle plan → apply → destroy
Capítol 10 · HCL: el llenguatge de Terraform
- 10.1 Blocs resource, variable, output, locals
- 10.2 Tipus de dades: string, number, bool, list, map, object
- 10.3 Expressions, referències i funcions built-in
- 10.4 Condicionals i bucles (count, for_each, for)
Capítol 11 · Providers i estat
- 11.1 Com funciona el provider d'AWS
- 11.2 El fitxer terraform.tfstate i la seva importància
- 11.3 State local vs state remot (S3 + DynamoDB)
- 11.4 Comandes essencials: init, plan, apply, destroy, fmt, validate
Capítol 12 · La teva primera infraestructura real amb Terraform
- 12.1 Crear una VPC amb subxarxes des de zero
- 12.2 Posar en marxa una instància EC2 pública
- 12.3 Associar un Security Group i una Elastic IP
- 12.4 Outputs i referències entre recursos
- 12.5 Flux de treball en equip: PR review de plans
Capítol 13 · Balanceig de càrrega i autoescalat
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners i regles
- 13.3 Auto Scaling Groups: polítiques i mètriques
- 13.4 Warm pools i lifecycle hooks
Capítol 14 · Serverless amb Lambda
- 14.1 El model d'execució de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestió de dependències i capes (Layers)
- 14.4 Cold starts i estratègies per reduir-los
- 14.5 Límits i antipatrones
Capítol 15 · Missatgeria i esdeveniments
- 15.1 SQS: cues estàndard vs FIFO, DLQ
- 15.2 SNS: topics, subscripcions, fan-out
- 15.3 EventBridge: event buses i regles
- 15.4 Patrons: pub/sub, desacoblament, saga
Capítol 16 · Lliurament de contingut i DNS
- 16.1 Route 53: tipus de registres i routing policies
- 16.2 CloudFront: distribucions, memòries cau i origins
- 16.3 ACM: certificats SSL/TLS gratuïts
- 16.4 WAF integrat amb CloudFront
Capítol 17 · Contenidors a AWS
- 17.1 Docker: repàs exprés de conceptes clau
- 17.2 ECR: registre privat d'imatges
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: quan Kubernetes i quan no
Capítol 18 · Mòduls: reutilització i composició
- 18.1 Anatomia d'un mòdul Terraform
- 18.2 Variables d'entrada, outputs i dependències
- 18.3 Mòduls locals vs mòduls del Terraform Registry
- 18.4 Versionat de mòduls amb Git tags
- 18.5 Disseny de mòduls genèrics vs específics de domini
Capítol 19 · Workspaces i gestió d'entorns
- 19.1 Workspaces de Terraform: casos d'ús i limitacions
- 19.2 Estratègia de directoris per entorn (dev/stg/prod)
- 19.3 Terragrunt: DRY per a configuracions d'entorn
- 19.4 Variables d'entorn i fitxers .tfvars
Capítol 20 · Backends remots i locking
- 20.1 Configurar S3 + DynamoDB com a backend
- 20.2 State locking: evitar corrupció en equip
- 20.3 Migració d'estat entre backends
- 20.4 terraform import: portar recursos existents a l'estat
Capítol 21 · Testing d'infraestructura
- 21.1 Terraform validate i fmt en CI
- 21.2 Checkov i tfsec: anàlisi de seguretat estàtica
- 21.3 Terratest: tests d'integració en Go
- 21.4 Contract testing entre mòduls
Capítol 22 · Terraform en CI/CD
- 22.1 Pipeline bàsic: lint → plan → apply a GitHub Actions
- 22.2 Atlantis: GitOps per a Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection i reconciliació automàtica
Capítol 23 · Seguretat en profunditat
- 23.1 AWS Organizations i Service Control Policies
- 23.2 AWS Config: compliment continu
- 23.3 GuardDuty: detecció d'amenaces
- 23.4 Security Hub: visió centralitzada
- 23.5 KMS: gestió de claus i rotació
- 23.6 Secrets Manager vs Parameter Store
Capítol 24 · Observabilitat: logs, mètriques i traces
- 24.1 CloudWatch Logs, mètriques i alarmes
- 24.2 CloudWatch Dashboards i Contributor Insights
- 24.3 X-Ray: traçat distribuït
- 24.4 OpenTelemetry a AWS
- 24.5 Managed Grafana i Managed Prometheus
Capítol 25 · Optimització de costos
- 25.1 AWS Cost Explorer i pressupostos amb alertes
- 25.2 Trusted Advisor i Compute Optimizer
- 25.3 Rightsizing: com detectar sobredimensionament
- 25.4 Savings Plans vs Reserved Instances: decisió estratègica
- 25.5 FinOps: cultura i processos per controlar la despesa
Capítol 26 · Alta disponibilitat i disaster recovery
- 26.1 RTO i RPO: definir els objectius
- 26.2 Estratègies: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks i failover automàtic
- 26.4 AWS Backup: política centralitzada de còpies
Capítol 27 · Well-Architected Framework d'AWS
- 27.1 Els sis pilars: excel·lència operacional, seguretat, fiabilitat, eficiència de rendiment, optimització de costos, sostenibilitat
- 27.2 Well-Architected Tool: revisions formals
- 27.3 Com aplicar el framework en decisions de disseny
Capítol 28 · Arquitectures serverless a escala
- 28.1 Event-driven architecture amb Lambda + EventBridge
- 28.2 Saga pattern per a transaccions distribuïdes
- 28.3 Step Functions: orquestració de workflows complexos
- 28.4 Lambda@Edge i CloudFront Functions
Capítol 29 · Plataformes de dades a AWS
- 29.1 Data Lake amb S3, Glue i Athena
- 29.2 Kinesis Data Streams i Firehose per a streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: govern del dada
Capítol 30 · Multi-compte i landing zones
- 30.1 Per què separar workloads en comptes diferents
- 30.2 AWS Control Tower i Account Factory
- 30.3 Gestió centralitzada de logs i seguretat
- 30.4 Terraform a escala multi-compte amb mòduls compartits
Capítol 31 · Platform Engineering i Internal Developer Platform
- 31.1 Golden paths i abstraccions sobre Terraform
- 31.2 Service Catalog d'AWS
- 31.3 Backstage com a portal de desenvolupadors
- 31.4 Mòduls Terraform com a producte intern
Capítol 32 · Certificacions AWS rellevants
- 32.1 Cloud Practitioner: val la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítol 33 · Projectes per consolidar el que s'ha après
- 33.1 Projecte 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Projecte 2: API REST amb ECS Fargate + RDS + ALB
- 33.3 Projecte 3: plataforma de dades amb Glue + Athena + Redshift
- 33.4 Projecte 4: landing zone multi-compte amb Terraform i Control Tower
