Comencem el Capítol 24: Observabilitat, una de les habilitats que més distingeix un professional que sap operar en producció. Tenir una aplicació funcionant no n'hi ha prou: necessites saber què està passant dins d'ella en tot moment. Va bé? Hi ha errors? Està saturada? Per això existeix la observabilitat, i a AWS l'eina central és CloudWatch. Comencem pels seus tres pilars: logs, mètriques i alarmes.
El problema: operar a cegues
Imagina que tens la teva aplicació desplegada en producció. Els usuaris la fan servir. I de sobte... comença a anar lenta, o alguns usuaris reporten errors. Sense observabilitat, estàs a cegues:
- Quants errors s'estan produint? No ho saps.
- El servidor està saturat de CPU? Ni idea.
- Què va passar exactament quan va fallar? No hi ha rastre.
- Quan va començar el problema? Impossible saber-ho.
Operar així és com conduir amb els ulls tancats. L'observabilitat són els instruments del quadre de comandament de la teva aplicació: et diuen què passa, perquè puguis reaccionar.
Què és CloudWatch
CloudWatch és el servei d'observabilitat d'AWS: recopila i mostra informació sobre el funcionament dels teus recursos i aplicacions. És on mires per saber si tot va bé. Té diversos components; en aquest subcapítol veiem els tres fonamentals.
Pilar 1: Logs (registres)
Els logs són els missatges de text que les teves aplicacions i serveis van escrivint sobre el que fan. Són el diari de la teva aplicació:
[10:32:01] Usuari 4521 va iniciar sessió [10:32:05] Processant comanda #8890 [10:32:06] ERROR: no s'ha pogut connectar a la base de dades [10:32:07] Reintentant connexió...
CloudWatch Logs recopila i guarda aquests missatges de forma centralitzada. En comptes de tenir els logs dispersos a cada servidor (i perdre'ls si el servidor s'apaga), arriben tots a CloudWatch, on pots cercar-los, filtrar-los i consultar-los.
Analogia: els logs són com el diari de bord d'un vaixell: el capità anota tot el que passa («10:00 salpem», «12:00 tempesta a la vista», «12:30 reparada una via d'aigua»). Si alguna cosa surt malament, revises el diari per entendre què va passar i quan. CloudWatch Logs és el lloc on es guarden tots aquests diaris junts, llestos per consultar.
Els logs són la teva primera eina quan alguna cosa falla: vas als logs del moment de la fallada i llegeixes què va passar.
Pilar 2: Mètriques
Les mètriques són valors numèrics mesurats al llarg del temps: l'ús de CPU, la quantitat de memòria, el nombre de peticions per segon, els errors per minut... Mentre els logs són text («què va passar»), les mètriques són nombres («quant»):
Mètrica "Ús de CPU" del servidor al llarg del dia: 10:00 → 20 % 11:00 → 35 % 12:00 → 85 % ← pic! 13:00 → 40 %
CloudWatch recopila automàticament moltes mètriques dels teus recursos (CPU de les EC2, peticions d'un ALB, invocacions d'una Lambda...) i tu pots enviar les teves pròpies (mètriques de negoci, com «comandes completades per minut»). Amb les mètriques veus tendències i detectes quan alguna cosa surt de la normalitat.
Analogia: les mètriques són com els indicadors del quadre de comandament del cotxe: velocitat, revolucions, temperatura del motor, nivell de gasolina. Són nombres que mires d'una ullada per saber si tot va bé. Si l'agulla de la temperatura puja massa, saps que hi ha un problema abans que el motor es trenqui.
Pilar 3: Alarmes
Aquí hi ha la peça que fa l'observabilitat proactiva. No pots estar mirant les mètriques 24 hores al dia. Una alarma vigila una mètrica per tu i t'avisa automàticament quan creua un llindar que tu defineixes:
Alarma: "si l'ús de CPU supera el 80 % durant 5 minuts → AVISA" Alarma: "si els errors superen 10 per minut → AVISA" Alarma: "si la base de dades es queda sense espai → AVISA"
Quan es dispara una alarma, pot notificar-te (per email, Slack, etc., usant SNS, recorda el subcapítol 15.2) o fins i tot disparar una acció automàtica (com afegir més servidors amb un Auto Scaling Group, recorda el subcapítol 13.3).
Analogia: una alarma és com el testimoni vermell del quadre de comandament que s'encén quan la temperatura del motor és perillosa, acompanyat d'un xiulet. No has de mirar l'agulla constantment: el cotxe t'avisa quan alguna cosa important requereix la teva atenció.
Com encaixen els tres junts
Els tres pilars treballen en equip perquè operis amb els ulls oberts:
MÈTRIQUES → et diuen QUÈ està passant (nombres, tendències) ALARMES → t'AVISEN quan una mètrica surt de la normalitat LOGS → et diuen PER QUÈ va passar (el detall, per investigar)
El flux típic d'un incident: salta una alarma («errors alts!»), mires les mètriques per veure l'abast i quan va començar, i vas als logs d'aquell moment per entendre la causa exacta i arreglar-ho.
Exemple del món real: una botiga online té una alarma sobre la mètrica «errors HTTP 500». Un diumenge a la nit, un canvi introdueix un bug i els errors es disparen. L'alarma salta i notifica l'equip de guàrdia per Slack en un minut. L'enginyer mira les mètriques: els errors van començar just després del darrer desplegament, a les 22:14. Va als logs de les 22:14 i veu: «ERROR: camp 'preu' nul al carret». En 10 minuts identifica i reverteix el canvi. Sense observabilitat, s'hauria assabentat l'endemà al matí per les queixes dels clients i la caiguda de vendes.
El que has de recordar
- Operar sense observabilitat és conduir amb els ulls tancats; necessites saber què passa dins de la teva aplicació en tot moment.
- CloudWatch és el servei d'observabilitat d'AWS, amb tres pilars fonamentals:
- Logs: els missatges de text que escriuen les teves apps («què va passar»), recopilats i consultables de forma centralitzada. Són el diari de bord.
- Mètriques: valors numèrics en el temps («quant»: CPU, peticions, errors...). Són els indicadors del quadre de comandament; revelen tendències.
- Alarmes: vigilen una mètrica i t'avisen automàticament (o disparen accions) quan creua un llindar. Són el testimoni vermell que t'avisa sense haver de mirar.
- Treballen en equip: les alarmes avisen, les mètriques mostren l'abast, els logs expliquen la causa.
En el següent subcapítol veurem com ajuntar totes aquestes mètriques en panells visuals amb CloudWatch Dashboards.
Cloud, AWS & Terraform — De zero a expert
Capítol 1 · Què és el cloud computing
- 1.1 El model client-servidor tradicional
- 1.2 Problemes que venia a resoldre el núvol
- 1.3 On-premise vs cloud vs híbrid
- 1.4 Els tres models de servei: IaaS, PaaS, SaaS
- 1.5 Els cinc pilars del cloud (segons NIST)
- 1.6 Avantatges reals: elasticitat, pagament per ús, disponibilitat global
Capítol 2 · El mercat cloud i els grans proveïdors
- 2.1 AWS, Azure i GCP: diferències i quotes de mercat
- 2.2 Per què aprendre AWS primer
- 2.3 Conceptes que són universals entre proveïdors
Capítol 3 · Regions, zones de disponibilitat i edge
- 3.1 Què és una regió AWS i com triar-la
- 3.2 Availability Zones: alta disponibilitat des del disseny
- 3.3 Edge locations i CloudFront
- 3.4 Latència, resiliència i sobirania de dades
Capítol 4 · Càlcul: EC2
- 4.1 Instàncies: tipus, famílies i quan triar cadascuna
- 4.2 AMIs, key pairs i Security Groups
- 4.3 Cicle de vida d'una instància
- 4.4 Elastic IPs i Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítol 5 · Emmagatzematge: S3
- 5.1 Buckets, objectes i claus
- 5.2 Classes d'emmagatzematge (Standard, IA, Glacier…)
- 5.3 Versionat i cicle de vida d'objectes
- 5.4 Polítiques de bucket i ACLs
- 5.5 Hosting de llocs web estàtics
Capítol 6 · Xarxes: VPC
- 6.1 Què és una VPC i per què la necessites
- 6.2 Subxarxes públiques i privades
- 6.3 Internet Gateway i NAT Gateway
- 6.4 Route Tables i Network ACLs
- 6.5 VPC Peering i endpoints
Capítol 7 · Identitat i accés: IAM
- 7.1 Usuaris, grups, rols i polítiques
- 7.2 El principi de mínim privilegi
- 7.3 Polítiques basades en identitat vs en recurs
- 7.4 MFA i credencials temporals (STS)
- 7.5 Bones pràctiques de seguretat IAM
Capítol 8 · Bases de dades gestionades
- 8.1 RDS: motors, Multi-AZ i rèpliques de lectura
- 8.2 Aurora i els seus avantatges sobre RDS vanilla
- 8.3 DynamoDB: model clau-valor / documents
- 8.4 ElastiCache per a memòria cau en memòria
- 8.5 Quan utilitzar cada tipus de base de dades
Capítol 9 · Per què Infraestructura com a Codi
- 9.1 Problemes del provisionament manual
- 9.2 IaC declaratiu vs imperatiu
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El cicle plan → apply → destroy
Capítol 10 · HCL: el llenguatge de Terraform
- 10.1 Blocs resource, variable, output, locals
- 10.2 Tipus de dades: string, number, bool, list, map, object
- 10.3 Expressions, referències i funcions built-in
- 10.4 Condicionals i bucles (count, for_each, for)
Capítol 11 · Providers i estat
- 11.1 Com funciona el provider d'AWS
- 11.2 El fitxer terraform.tfstate i la seva importància
- 11.3 State local vs state remot (S3 + DynamoDB)
- 11.4 Comandes essencials: init, plan, apply, destroy, fmt, validate
Capítol 12 · La teva primera infraestructura real amb Terraform
- 12.1 Crear una VPC amb subxarxes des de zero
- 12.2 Posar en marxa una instància EC2 pública
- 12.3 Associar un Security Group i una Elastic IP
- 12.4 Outputs i referències entre recursos
- 12.5 Flux de treball en equip: PR review de plans
Capítol 13 · Balanceig de càrrega i autoescalat
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners i regles
- 13.3 Auto Scaling Groups: polítiques i mètriques
- 13.4 Warm pools i lifecycle hooks
Capítol 14 · Serverless amb Lambda
- 14.1 El model d'execució de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestió de dependències i capes (Layers)
- 14.4 Cold starts i estratègies per reduir-los
- 14.5 Límits i antipatrones
Capítol 15 · Missatgeria i esdeveniments
- 15.1 SQS: cues estàndard vs FIFO, DLQ
- 15.2 SNS: topics, subscripcions, fan-out
- 15.3 EventBridge: event buses i regles
- 15.4 Patrons: pub/sub, desacoblament, saga
Capítol 16 · Lliurament de contingut i DNS
- 16.1 Route 53: tipus de registres i routing policies
- 16.2 CloudFront: distribucions, memòries cau i origins
- 16.3 ACM: certificats SSL/TLS gratuïts
- 16.4 WAF integrat amb CloudFront
Capítol 17 · Contenidors a AWS
- 17.1 Docker: repàs exprés de conceptes clau
- 17.2 ECR: registre privat d'imatges
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: quan Kubernetes i quan no
Capítol 18 · Mòduls: reutilització i composició
- 18.1 Anatomia d'un mòdul Terraform
- 18.2 Variables d'entrada, outputs i dependències
- 18.3 Mòduls locals vs mòduls del Terraform Registry
- 18.4 Versionat de mòduls amb Git tags
- 18.5 Disseny de mòduls genèrics vs específics de domini
Capítol 19 · Workspaces i gestió d'entorns
- 19.1 Workspaces de Terraform: casos d'ús i limitacions
- 19.2 Estratègia de directoris per entorn (dev/stg/prod)
- 19.3 Terragrunt: DRY per a configuracions d'entorn
- 19.4 Variables d'entorn i fitxers .tfvars
Capítol 20 · Backends remots i locking
- 20.1 Configurar S3 + DynamoDB com a backend
- 20.2 State locking: evitar corrupció en equip
- 20.3 Migració d'estat entre backends
- 20.4 terraform import: portar recursos existents a l'estat
Capítol 21 · Testing d'infraestructura
- 21.1 Terraform validate i fmt en CI
- 21.2 Checkov i tfsec: anàlisi de seguretat estàtica
- 21.3 Terratest: tests d'integració en Go
- 21.4 Contract testing entre mòduls
Capítol 22 · Terraform en CI/CD
- 22.1 Pipeline bàsic: lint → plan → apply a GitHub Actions
- 22.2 Atlantis: GitOps per a Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection i reconciliació automàtica
Capítol 23 · Seguretat en profunditat
- 23.1 AWS Organizations i Service Control Policies
- 23.2 AWS Config: compliment continu
- 23.3 GuardDuty: detecció d'amenaces
- 23.4 Security Hub: visió centralitzada
- 23.5 KMS: gestió de claus i rotació
- 23.6 Secrets Manager vs Parameter Store
Capítol 24 · Observabilitat: logs, mètriques i traces
- 24.1 CloudWatch Logs, mètriques i alarmes
- 24.2 CloudWatch Dashboards i Contributor Insights
- 24.3 X-Ray: traçat distribuït
- 24.4 OpenTelemetry a AWS
- 24.5 Managed Grafana i Managed Prometheus
Capítol 25 · Optimització de costos
- 25.1 AWS Cost Explorer i pressupostos amb alertes
- 25.2 Trusted Advisor i Compute Optimizer
- 25.3 Rightsizing: com detectar sobredimensionament
- 25.4 Savings Plans vs Reserved Instances: decisió estratègica
- 25.5 FinOps: cultura i processos per controlar la despesa
Capítol 26 · Alta disponibilitat i disaster recovery
- 26.1 RTO i RPO: definir els objectius
- 26.2 Estratègies: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks i failover automàtic
- 26.4 AWS Backup: política centralitzada de còpies
Capítol 27 · Well-Architected Framework d'AWS
- 27.1 Els sis pilars: excel·lència operacional, seguretat, fiabilitat, eficiència de rendiment, optimització de costos, sostenibilitat
- 27.2 Well-Architected Tool: revisions formals
- 27.3 Com aplicar el framework en decisions de disseny
Capítol 28 · Arquitectures serverless a escala
- 28.1 Event-driven architecture amb Lambda + EventBridge
- 28.2 Saga pattern per a transaccions distribuïdes
- 28.3 Step Functions: orquestració de workflows complexos
- 28.4 Lambda@Edge i CloudFront Functions
Capítol 29 · Plataformes de dades a AWS
- 29.1 Data Lake amb S3, Glue i Athena
- 29.2 Kinesis Data Streams i Firehose per a streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: govern del dada
Capítol 30 · Multi-compte i landing zones
- 30.1 Per què separar workloads en comptes diferents
- 30.2 AWS Control Tower i Account Factory
- 30.3 Gestió centralitzada de logs i seguretat
- 30.4 Terraform a escala multi-compte amb mòduls compartits
Capítol 31 · Platform Engineering i Internal Developer Platform
- 31.1 Golden paths i abstraccions sobre Terraform
- 31.2 Service Catalog d'AWS
- 31.3 Backstage com a portal de desenvolupadors
- 31.4 Mòduls Terraform com a producte intern
Capítol 32 · Certificacions AWS rellevants
- 32.1 Cloud Practitioner: val la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítol 33 · Projectes per consolidar el que s'ha après
- 33.1 Projecte 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Projecte 2: API REST amb ECS Fargate + RDS + ALB
- 33.3 Projecte 3: plataforma de dades amb Glue + Athena + Redshift
- 33.4 Projecte 4: landing zone multi-compte amb Terraform i Control Tower
