En el subcapítol anterior vam veure estratègies de disaster recovery on, en fallar el sistema principal, el trànsit ha de passar a un sistema de suport. Però com es detecta que el principal ha fallat i es redirigeix la gent automàticament, sense que una persona hagi d’intervenir a les 3 de la matinada? La resposta combina dues funcions de Route 53 (el DNS d’AWS que vam veure al subcapítol 16.1): els health checks (comprovacions de salut) i el failover (commutació per error).

Recordatori: què fa Route 53

Recorda del subcapítol 16.1 que Route 53 és el servei de DNS d’AWS: tradueix un nom de domini (com mitienda.com) a l’adreça del servidor que l’ha d’atendre. És el primer que consulta el navegador d’un usuari per saber on connectar-se. Això li dona una posició privilegiada: Route 53 decideix on es dirigeix el trànsit. I aquí hi ha la clau del failover automàtic.

El problema: redirigir la gent quan alguna cosa falla

Imagina que tens el teu sistema principal en una regió i un suport en una altra (com en les estratègies del subcapítol 26.2). Si el principal cau, necessites que els usuaris deixin d’anar al principal (caigut) i vagin al suport (sa). I necessites que això passi:

  • Automàticament (sense esperar que una persona se n’adoni i actuï).
  • Ràpid (cada minut de caiguda compta).
  • De manera fiable (sense enviar gent a un sistema trencat).

Per això, primer cal detectar que el principal ha fallat, i després redirigir. Route 53 fa ambdues coses.

Health checks: vigilar si un sistema està sa

Un health check (comprovació de salut) de Route 53 és una vigilància automàtica que comprova periòdicament si el teu sistema respon correctament. Route 53 «pregunta» al teu sistema cada poc temps: «estàs bé?», i segons la resposta el marca com a sa o malalt.

Route 53 cada X segons:  "sistema principal, estàs bé?"
   → respon correctament  → SA ✓   (segueix enviant trànsit aquí)
   → no respon / dóna errors → MALALT ✗ (deixa d’enviar trànsit aquí)

Analogia: un health check és com prendre el pols a un pacient cada pocs minuts. Mentre el pols és normal, tot bé. Si el pols s’atura o es torna anormal, salta l’alarma i s’actua. Route 53 «pren el pols» als teus sistemes contínuament per saber quins estan vius i sans.

El health check pot comprovar coses com: respon la web?, retorna un codi correcte?, respon a temps? Tu defineixes què significa «estar sa».

Failover: canviar al suport automàticament

Aquí hi ha la màgia. Failover (commutació per error) és la capacitat de Route 53 de redirigir el trànsit automàticament del sistema principal al de suport quan el health check detecta que el principal està malalt.

Recorda les routing policies del subcapítol 16.1: una d’elles és precisament la de failover. Configures Route 53 així:

Route 53 (política de failover):
   Principal:  regió A   (amb health check)
   Suport:     regió B

   Mentre A estigui SA  → tot el trànsit va a A
   Si A es torna MALALT → Route 53 redirigeix AUTOMÀTICAMENT a B
   Quan A torni a estar SA → torna a enviar trànsit a A
   Funcionament normal:        Després de la fallada d’A:
   Usuaris → [Regió A ✓]       Usuaris → [Regió A ✗]──╳
                                          └──────────► [Regió B ✓]

Analogia: el failover és com un generador elèctric d’emergència en un hospital. Mentre hi ha llum de la xarxa (sistema principal sa), tot funciona amb normalitat. En l’instant en què se’n va la llum (el principal falla), un sistema detecta el tall automàticament i arrenca el generador (suport) en segons, sense que ningú hagi de córrer a fer-ho. L’hospital segueix funcionant sense que els pacients ho notin. Health check = detector de tall; failover = arrencada automàtica del generador.

Com treballen junts health checks i failover

Els dos són inseparables: el health check detecta, el failover reacciona:

HEALTH CHECK  → vigila i detecta que el principal ha caigut
        │
        ▼
FAILOVER      → redirigeix automàticament el trànsit al suport

Sense el health check, Route 53 no sabria que alguna cosa ha fallat. Sense el failover, saber que ha fallat no serviria de res. Junts aconsegueixen una recuperació automàtica del trànsit, que és just el que fa que les estratègies de DR (26.2) funcionin sense intervenció humana.

Exemple del món real: una empresa té el seu web principal a la regió d’Irlanda i un suport (warm standby, subcapítol 26.2) a Frankfurt, amb Route 53 configurat en failover. Una matinada, la regió d’Irlanda pateix un problema i el web deixa de respondre. El health check de Route 53 ho detecta en segons i marca Irlanda com a malalta. El failover redirigeix automàticament tots els usuaris a Frankfurt, que estava a punt. Els clients gairebé no noten una breu interrupció. Ningú de l’equip s’ha hagut de despertar ni fer res: el sistema s’ha recuperat sol. L’endemà al matí, quan Irlanda es restableix, el trànsit torna automàticament. Això és resiliència ben feta.

Més enllà del failover: balanceig geogràfic

Aquestes mateixes capacitats (health checks + routing policies de Route 53) serveixen també per repartir usuaris entre regions per proximitat (recorda les polítiques de geolocalització i latència del subcapítol 16.1), enviant cada usuari a la regió més propera i sana. Així, la salut dels sistemes es té en compte no només per emergències, sinó també per donar el millor servei en el dia a dia.

El que has de recordar

  • Route 53 (el DNS d’AWS, subcap. 16.1) decideix on va el trànsit, cosa que li permet gestionar la commutació automàtica davant fallades.
  • Un health check comprova periòdicament si un sistema respon bé i el marca com a sa o malalt. Com prendre el pols a un pacient contínuament.
  • El failover redirigeix el trànsit automàticament del sistema principal al de suport quan el health check detecta que el principal està malalt (i el retorna quan es recupera). Com un generador d’emergència que arrenca sol quan se’n va la llum.
  • Treballen junts: el health check detecta, el failover reacciona. Junts aconsegueixen una recuperació automàtica del trànsit, sense intervenció humana, que fa funcionar les estratègies de DR.
  • Les mateixes capacitats serveixen per a balanceig geogràfic (enviar cada usuari a la regió més propera i sana), no només per emergències.

A l’últim subcapítol del capítol (i de la Part VI) veurem com protegir les teves dades amb còpies de seguretat centralitzades i automàtiques: AWS Backup.

Cloud, AWS & Terraform — De zero a expert

Capítol 1 · Què és el cloud computing

Capítol 2 · El mercat cloud i els grans proveïdors

Capítol 3 · Regions, zones de disponibilitat i edge

Capítol 4 · Càlcul: EC2

Capítol 5 · Emmagatzematge: S3

Capítol 6 · Xarxes: VPC

Capítol 7 · Identitat i accés: IAM

Capítol 8 · Bases de dades gestionades

Capítol 9 · Per què Infraestructura com a Codi

Capítol 10 · HCL: el llenguatge de Terraform

Capítol 11 · Providers i estat

Capítol 12 · La teva primera infraestructura real amb Terraform

Capítol 13 · Balanceig de càrrega i autoescalat

Capítol 14 · Serverless amb Lambda

Capítol 15 · Missatgeria i esdeveniments

Capítol 16 · Lliurament de contingut i DNS

Capítol 17 · Contenidors a AWS

Capítol 18 · Mòduls: reutilització i composició

Capítol 19 · Workspaces i gestió d'entorns

Capítol 20 · Backends remots i locking

Capítol 21 · Testing d'infraestructura

Capítol 22 · Terraform en CI/CD

Capítol 23 · Seguretat en profunditat

Capítol 24 · Observabilitat: logs, mètriques i traces

Capítol 25 · Optimització de costos

Capítol 26 · Alta disponibilitat i disaster recovery

Capítol 27 · Well-Architected Framework d'AWS

Capítol 28 · Arquitectures serverless a escala

Capítol 29 · Plataformes de dades a AWS

Capítol 30 · Multi-compte i landing zones

Capítol 31 · Platform Engineering i Internal Developer Platform

Capítol 32 · Certificacions AWS rellevants

Capítol 33 · Projectes per consolidar el que s'ha après

Capítol 34 · Recursos i comunitat

© Copyright 2024. Tots els drets reservats