Seguim a la Part VII amb el Capítol 29: Plataformes de dades a AWS, on entrem en el món de les dades a gran escala: emmagatzemar, processar i analitzar enormes quantitats d’informació. Comencem pel concepte central de l’analítica moderna: el data lake (llac de dades), i com construir-lo a AWS amb tres serveis que treballen junts: S3 (magatzem), Glue (catàleg i processament) i Athena (consultes). És la base per extreure valor de les dades d’una empresa.
El problema: les empreses generen dades per tot arreu
Una empresa moderna genera moltíssimes dades, de fonts molt variades: vendes, registres del web, sensors, xarxes socials, aplicacions... i en formats diferents (taules, text, registres, arxius). Aquestes dades, ben aprofitades, són or: revelen patrons, ajuden a decidir, alimenten la intel·ligència artificial. Però hi ha un problema:
Dades disperses per tot arreu: vendes (en una base de dades) registres web (en arxius de log) sensors (en streaming) enquestes (en fulls de càlcul) → difícils d’ajuntar, analitzar i aprofitar de forma conjunta
Necessites un lloc on reunir totes aquestes dades i poder analitzar-les juntes. Aquest lloc és el data lake.
Què és un data lake
Un data lake (llac de dades) és un repositori central on guardes enormes quantitats de dades de qualsevol tipus i format, en la seva forma original, per analitzar-les quan vulguis. La idea: primer ho guardes tot (sense haver d’estructurar-ho prèviament), i decideixes com analitzar-ho després.
Moltes fonts de dades
│ (aboquen les seves dades)
▼
┌─────────────────────────────┐
│ DATA LAKE │ ← totes les dades juntes,
│ (dades de tot tipus, │ en el seu format original
│ en el seu format original)│
└─────────────────────────────┘
│
▼ (analitzes quan i com vulguis)Analogia: un data lake és com un gran magatzem/biblioteca on guardes TOT tal com arriba (documents, fotos, gravacions, dades...), sense haver de classificar-ho perfectament a l’entrada. L’avantatge és que ho tens tot en un lloc i, quan necessites respondre una pregunta, hi vas i ho analitzes. Es contraposa a un magatzem molt ordenat on només entra el que encaixa en prestatgeries predefinides (això seria més aviat un data warehouse, que veurem al subcapítol 29.3). El llac accepta tot; ja li donaràs forma quan ho necessitis.
💡 Llac vs magatzem: un data lake guarda dades en brut, de qualsevol tipus, i decideixes l’estructura en consultar-les («schema-on-read»). Un data warehouse (Redshift, subcap. 29.3) guarda dades ja estructurades i optimitzades per a consultes ràpides. Són complementaris; cadascun té el seu paper.
Les tres peces a AWS: S3, Glue i Athena
A AWS, un data lake es construeix típicament amb tres serveis que col·laboren:
S3: el magatzem del data lake
S3 (Capítol 5) és el lloc on es guarden les dades del data lake. Recorda les seves virtuts: emmagatzematge pràcticament il·limitat, molt barat, durador i que admet qualsevol tipus d’arxiu. És el lloc perfecte per abocar enormes quantitats de dades de qualsevol format. S3 és, literalment, el llac: el contenidor de totes les dades.
S3 = el magatzem del data lake (il·limitat, barat, qualsevol format) /vendes/... /logs-web/... /sensors/... (tot junt a S3)
Glue: el catàleg i el processament
Tenir milions d’arxius a S3 no serveix de gaire si no saps què hi ha i on. AWS Glue resol això. Fa dues coses clau:
- Cataloga les dades: descobreix quines dades hi ha al teu S3 i crea un catàleg (com un índex o inventari) que diu quina informació conté cada conjunt de dades, la seva estructura, etc. Així, les dades del llac es tornen localitzables i entenedores.
- Processa i transforma les dades (ETL): permet netejar, transformar i preparar les dades (per exemple, convertir formats, ajuntar fonts), perquè estiguin llestes per analitzar.
Glue: 📇 Cataloga → crea un inventari de quines dades hi ha a S3 (les fa "trobables") 🔧 Processa → neteja i transforma les dades per deixar-les a punt
Analogia: Glue és com el bibliotecari del gran magatzem: recorre tot el que hi ha guardat, crea un catàleg (saps què hi ha i on trobar-ho) i, quan cal, prepara i organitza materials perquè els puguis fer servir. Sense el bibliotecari, el magatzem seria un caos impossible d’aprofitar.
Athena: consultar les dades directament
Amazon Athena et permet fer consultes (amb SQL) directament sobre les dades guardades a S3, sense haver-les de moure a una base de dades. Usant el catàleg de Glue, fas preguntes a les teves dades com si fossin una base de dades, i Athena les respon llegint directament de S3.
Athena: "SELECT ... " (SQL) directament sobre les dades a S3 → respostes a les teves preguntes sense moure les dades enlloc → pagues només per les consultes que executes (serverless)
El potent: Athena és serverless (sense servidors per gestionar, recorda la filosofia del Capítol 14) i pagues només per les consultes que fas. És ideal per analitzar dades del llac de forma puntual i flexible.
Analogia: Athena és com poder fer-li preguntes directament a la biblioteca i obtenir respostes, sense haver de treure primer tots els llibres i portar-los a una altra sala. Li preguntes «quantes vendes hi va haver al març a Espanya?» i et respon consultant directament les dades on són (a S3).
Com treballen junts
El trio forma un data lake complet:
Dades → S3 (es guarden: el llac)
│
Glue cataloga (saps què hi ha) i processa (prepara les dades)
│
Athena consulta amb SQL directament sobre S3 (obtenen respostes)S3 guarda, Glue organitza i prepara, Athena consulta. Junts et permeten reunir totes les dades de la teva empresa i treure’n valor sense muntar infraestructura complexa.
Exemple del món real: una empresa de comerç vol analitzar el comportament dels seus clients ajuntant dades de vendes, navegació web i campanyes de màrqueting. Construeixen un data lake: aboquen totes aquestes dades a S3 (cada font a la seva carpeta). Glue recorre S3, cataloga què hi ha i prepara les dades (unifica formats, neteja). Després, els analistes fan servir Athena per preguntar amb SQL coses com «quins productes compren més els clients que van venir de tal campanya?», consultant directament sobre S3, sense muntar cap base de dades. Descobreixen patrons valuosos que abans, amb les dades disperses, eren invisibles. I tot serverless: paguen per l’emmagatzematge barat de S3 i per les consultes que executen, sense servidors per mantenir.
El que has de recordar
- Les empreses generen moltíssimes dades disperses de fonts i formats variats; aprofitar-les requereix reunir-les en un lloc: el data lake.
- Un data lake és un repositori central on guardes enormes quantitats de dades de qualsevol tipus, en el seu format original, per analitzar-les quan vulguis (ho guardes tot primer, decideixes com analitzar-ho després). Com un gran magatzem que accepta tot.
- A AWS es construeix amb tres peces: S3 (el magatzem: il·limitat, barat, qualsevol format — és el llac), Glue (cataloga quines dades hi ha i les processa/prepara — el bibliotecari) i Athena (consulta amb SQL directament sobre S3, serverless — preguntar a la biblioteca).
- Junts: S3 guarda, Glue organitza, Athena consulta, permetent treure valor de totes les dades sense infraestructura complexa.
- 💡 Un data lake (dades en brut) es complementa amb un data warehouse (dades estructurades, Redshift, subcap. 29.3).
Al següent subcapítol veurem com capturar i processar dades que arriben en temps real, de forma contínua, amb Kinesis.
Cloud, AWS & Terraform — De zero a expert
Capítol 1 · Què és el cloud computing
- 1.1 El model client-servidor tradicional
- 1.2 Problemes que venia a resoldre el núvol
- 1.3 On-premise vs cloud vs híbrid
- 1.4 Els tres models de servei: IaaS, PaaS, SaaS
- 1.5 Els cinc pilars del cloud (segons NIST)
- 1.6 Avantatges reals: elasticitat, pagament per ús, disponibilitat global
Capítol 2 · El mercat cloud i els grans proveïdors
- 2.1 AWS, Azure i GCP: diferències i quotes de mercat
- 2.2 Per què aprendre AWS primer
- 2.3 Conceptes que són universals entre proveïdors
Capítol 3 · Regions, zones de disponibilitat i edge
- 3.1 Què és una regió AWS i com triar-la
- 3.2 Availability Zones: alta disponibilitat des del disseny
- 3.3 Edge locations i CloudFront
- 3.4 Latència, resiliència i sobirania de dades
Capítol 4 · Càlcul: EC2
- 4.1 Instàncies: tipus, famílies i quan triar cadascuna
- 4.2 AMIs, key pairs i Security Groups
- 4.3 Cicle de vida d'una instància
- 4.4 Elastic IPs i Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítol 5 · Emmagatzematge: S3
- 5.1 Buckets, objectes i claus
- 5.2 Classes d'emmagatzematge (Standard, IA, Glacier…)
- 5.3 Versionat i cicle de vida d'objectes
- 5.4 Polítiques de bucket i ACLs
- 5.5 Hosting de llocs web estàtics
Capítol 6 · Xarxes: VPC
- 6.1 Què és una VPC i per què la necessites
- 6.2 Subxarxes públiques i privades
- 6.3 Internet Gateway i NAT Gateway
- 6.4 Route Tables i Network ACLs
- 6.5 VPC Peering i endpoints
Capítol 7 · Identitat i accés: IAM
- 7.1 Usuaris, grups, rols i polítiques
- 7.2 El principi de mínim privilegi
- 7.3 Polítiques basades en identitat vs en recurs
- 7.4 MFA i credencials temporals (STS)
- 7.5 Bones pràctiques de seguretat IAM
Capítol 8 · Bases de dades gestionades
- 8.1 RDS: motors, Multi-AZ i rèpliques de lectura
- 8.2 Aurora i els seus avantatges sobre RDS vanilla
- 8.3 DynamoDB: model clau-valor / documents
- 8.4 ElastiCache per a memòria cau en memòria
- 8.5 Quan utilitzar cada tipus de base de dades
Capítol 9 · Per què Infraestructura com a Codi
- 9.1 Problemes del provisionament manual
- 9.2 IaC declaratiu vs imperatiu
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El cicle plan → apply → destroy
Capítol 10 · HCL: el llenguatge de Terraform
- 10.1 Blocs resource, variable, output, locals
- 10.2 Tipus de dades: string, number, bool, list, map, object
- 10.3 Expressions, referències i funcions built-in
- 10.4 Condicionals i bucles (count, for_each, for)
Capítol 11 · Providers i estat
- 11.1 Com funciona el provider d'AWS
- 11.2 El fitxer terraform.tfstate i la seva importància
- 11.3 State local vs state remot (S3 + DynamoDB)
- 11.4 Comandes essencials: init, plan, apply, destroy, fmt, validate
Capítol 12 · La teva primera infraestructura real amb Terraform
- 12.1 Crear una VPC amb subxarxes des de zero
- 12.2 Posar en marxa una instància EC2 pública
- 12.3 Associar un Security Group i una Elastic IP
- 12.4 Outputs i referències entre recursos
- 12.5 Flux de treball en equip: PR review de plans
Capítol 13 · Balanceig de càrrega i autoescalat
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners i regles
- 13.3 Auto Scaling Groups: polítiques i mètriques
- 13.4 Warm pools i lifecycle hooks
Capítol 14 · Serverless amb Lambda
- 14.1 El model d'execució de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestió de dependències i capes (Layers)
- 14.4 Cold starts i estratègies per reduir-los
- 14.5 Límits i antipatrones
Capítol 15 · Missatgeria i esdeveniments
- 15.1 SQS: cues estàndard vs FIFO, DLQ
- 15.2 SNS: topics, subscripcions, fan-out
- 15.3 EventBridge: event buses i regles
- 15.4 Patrons: pub/sub, desacoblament, saga
Capítol 16 · Lliurament de contingut i DNS
- 16.1 Route 53: tipus de registres i routing policies
- 16.2 CloudFront: distribucions, memòries cau i origins
- 16.3 ACM: certificats SSL/TLS gratuïts
- 16.4 WAF integrat amb CloudFront
Capítol 17 · Contenidors a AWS
- 17.1 Docker: repàs exprés de conceptes clau
- 17.2 ECR: registre privat d'imatges
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: quan Kubernetes i quan no
Capítol 18 · Mòduls: reutilització i composició
- 18.1 Anatomia d'un mòdul Terraform
- 18.2 Variables d'entrada, outputs i dependències
- 18.3 Mòduls locals vs mòduls del Terraform Registry
- 18.4 Versionat de mòduls amb Git tags
- 18.5 Disseny de mòduls genèrics vs específics de domini
Capítol 19 · Workspaces i gestió d'entorns
- 19.1 Workspaces de Terraform: casos d'ús i limitacions
- 19.2 Estratègia de directoris per entorn (dev/stg/prod)
- 19.3 Terragrunt: DRY per a configuracions d'entorn
- 19.4 Variables d'entorn i fitxers .tfvars
Capítol 20 · Backends remots i locking
- 20.1 Configurar S3 + DynamoDB com a backend
- 20.2 State locking: evitar corrupció en equip
- 20.3 Migració d'estat entre backends
- 20.4 terraform import: portar recursos existents a l'estat
Capítol 21 · Testing d'infraestructura
- 21.1 Terraform validate i fmt en CI
- 21.2 Checkov i tfsec: anàlisi de seguretat estàtica
- 21.3 Terratest: tests d'integració en Go
- 21.4 Contract testing entre mòduls
Capítol 22 · Terraform en CI/CD
- 22.1 Pipeline bàsic: lint → plan → apply a GitHub Actions
- 22.2 Atlantis: GitOps per a Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection i reconciliació automàtica
Capítol 23 · Seguretat en profunditat
- 23.1 AWS Organizations i Service Control Policies
- 23.2 AWS Config: compliment continu
- 23.3 GuardDuty: detecció d'amenaces
- 23.4 Security Hub: visió centralitzada
- 23.5 KMS: gestió de claus i rotació
- 23.6 Secrets Manager vs Parameter Store
Capítol 24 · Observabilitat: logs, mètriques i traces
- 24.1 CloudWatch Logs, mètriques i alarmes
- 24.2 CloudWatch Dashboards i Contributor Insights
- 24.3 X-Ray: traçat distribuït
- 24.4 OpenTelemetry a AWS
- 24.5 Managed Grafana i Managed Prometheus
Capítol 25 · Optimització de costos
- 25.1 AWS Cost Explorer i pressupostos amb alertes
- 25.2 Trusted Advisor i Compute Optimizer
- 25.3 Rightsizing: com detectar sobredimensionament
- 25.4 Savings Plans vs Reserved Instances: decisió estratègica
- 25.5 FinOps: cultura i processos per controlar la despesa
Capítol 26 · Alta disponibilitat i disaster recovery
- 26.1 RTO i RPO: definir els objectius
- 26.2 Estratègies: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks i failover automàtic
- 26.4 AWS Backup: política centralitzada de còpies
Capítol 27 · Well-Architected Framework d'AWS
- 27.1 Els sis pilars: excel·lència operacional, seguretat, fiabilitat, eficiència de rendiment, optimització de costos, sostenibilitat
- 27.2 Well-Architected Tool: revisions formals
- 27.3 Com aplicar el framework en decisions de disseny
Capítol 28 · Arquitectures serverless a escala
- 28.1 Event-driven architecture amb Lambda + EventBridge
- 28.2 Saga pattern per a transaccions distribuïdes
- 28.3 Step Functions: orquestració de workflows complexos
- 28.4 Lambda@Edge i CloudFront Functions
Capítol 29 · Plataformes de dades a AWS
- 29.1 Data Lake amb S3, Glue i Athena
- 29.2 Kinesis Data Streams i Firehose per a streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: govern del dada
Capítol 30 · Multi-compte i landing zones
- 30.1 Per què separar workloads en comptes diferents
- 30.2 AWS Control Tower i Account Factory
- 30.3 Gestió centralitzada de logs i seguretat
- 30.4 Terraform a escala multi-compte amb mòduls compartits
Capítol 31 · Platform Engineering i Internal Developer Platform
- 31.1 Golden paths i abstraccions sobre Terraform
- 31.2 Service Catalog d'AWS
- 31.3 Backstage com a portal de desenvolupadors
- 31.4 Mòduls Terraform com a producte intern
Capítol 32 · Certificacions AWS rellevants
- 32.1 Cloud Practitioner: val la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítol 33 · Projectes per consolidar el que s'ha après
- 33.1 Projecte 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Projecte 2: API REST amb ECS Fargate + RDS + ALB
- 33.3 Projecte 3: plataforma de dades amb Glue + Athena + Redshift
- 33.4 Projecte 4: landing zone multi-compte amb Terraform i Control Tower
