En el subcapítol 29.1 vam veure el data lake (S3 + Glue + Athena) per guardar i consultar dades en brut. Vam esmentar que existeix un concepte complementari: el data warehouse (magatzem de dades), optimitzat per a anàlisis molt ràpides sobre dades estructurades. A AWS, aquest servei és Amazon Redshift. En aquest subcapítol veurem què és un data warehouse, què fa Redshift i quan escollir-lo davant de (o juntament amb) un data lake. És l'eina per fer analítica seriosa i ràpida sobre grans volums de dades.
El problema: analitzar enormes quantitats de dades, molt ràpid
Imagina una empresa que vol respondre, en segons, preguntes complexes sobre anys de dades de vendes: «quins van ser els 10 productes més venuts per regió i trimestre en els últims 3 anys, comparats amb l'any anterior?». Això implica analitzar milions o milers de milions de registres, creuant i agregant dades.
Una base de dades normal (com les que vam veure al Capítol 8, pensades per gestionar les operacions del dia a dia: registrar una comanda, consultar un client) no està optimitzada per a aquest tipus d'anàlisi massiva. Faria aquestes consultes gegants molt lentament. Necessites una eina especialitzada en anàlisi a gran escala: un data warehouse.
Què és un data warehouse
Un data warehouse (magatzem de dades) és una base de dades especialitzada en analitzar enormes quantitats de dades estructurades de forma molt ràpida. Està dissenyada específicament per a consultes analítiques complexes (agregacions, comparacions, informes) sobre grans volums, normalment dades històriques de tota l'empresa.
Base de dades normal (Cap. 8): optimitzada per a OPERACIONS del dia a dia
(registrar/consultar coses individuals, ràpid)
Data warehouse: optimitzat per a ANÀLISI a gran escala
(consultes complexes sobre milions de registres)Analogia: la diferència és com entre la caixa registradora d'una botiga i el departament d'anàlisi de la central. La caixa registradora (base de dades normal) està feta per a operacions ràpides i individuals: cobrar una compra, retornar un producte. El departament d'anàlisi (data warehouse) està fet per agafar totes les vendes de totes les botigues durant anys i treure'n conclusions: tendències, comparatives, informes. Són eines diferents per a feines diferents.
Què és Amazon Redshift
Amazon Redshift és el servei de data warehouse d'AWS: una base de dades analítica, gestionada i molt escalable, optimitzada per executar consultes complexes sobre enormes volums de dades a gran velocitat. És on les empreses fan la seva analítica i intel·ligència de negoci (business intelligence) seriosa.
Grans volums de dades estructurades (vendes, finances...)
│
▼
Amazon Redshift (data warehouse)
│
▼
Consultes analítiques complexes respostes RÀPID
(informes, panells de BI, anàlisi de tendències)Per què Redshift és tan ràpid en anàlisi
Sense entrar en tecnicismes, Redshift aconsegueix la seva velocitat perquè està dissenyat de base per a l'anàlisi: organitza i emmagatzema les dades de forma optimitzada per a consultes analítiques, i reparteix la feina d'una consulta entre molts recursos en paral·lel (processament massiu en paral·lel). Així, una consulta que creuaria milions de registres es resol en segons en comptes d'hores.
Analogia: Redshift és com tenir un equip enorme d'analistes treballant en paral·lel en comptes d'un de sol. Si li demanes analitzar milions de registres, no ho fa una sola «persona» seqüencialment (lent); reparteix la feina entre molts que treballen alhora i ajunten el resultat. Per això respon ràpid fins i tot a preguntes enormes.
Data lake vs data warehouse: quin faig servir?
Aquesta és la pregunta clau, i la resposta sol ser «tots dos, per a coses diferents». No competeixen; es complementen:
| Data Lake (S3+Glue+Athena, 29.1) | Data Warehouse (Redshift) | |
|---|---|---|
| Guarda | Dades en brut, qualsevol format | Dades estructurades i preparades |
| Estructura | Flexible (defineixes en consultar) | Definida i optimitzada prèviament |
| Ideal per a | Explorar, guardar-ho tot, dades variades | Anàlisi ràpida i repetida, informes de BI |
| Velocitat de consulta | Bona, flexible | Molt alta per a anàlisis complexes |
| Cost | Molt barat (S3) | Major (més potència analítica) |
Patró habitual combinat:
Dades en brut → DATA LAKE (S3) → es preparen les més importants
│
▼
DATA WAREHOUSE (Redshift)
→ anàlisi ràpida i repetida per a informes💡 Patró comú: moltes empreses fan servir tots dos: el data lake (S3) guarda totes les dades en brut i barates, i les dades més importants i estructurades es carreguen a Redshift per fer anàlisis ràpides i recurrents (els informes diaris de negoci, els panells que la direcció consulta cada matí). El llac és el «tot»; el magatzem és el «refinat i llest per a anàlisi intensiva».
Exemple del món real: una cadena de botigues guarda al seu data lake (S3) absolutament totes les seves dades en brut: vendes, inventari, logs web, dades de fidelització... barates i completes. Cada nit, un procés (amb Glue, subcapítol 29.1) prepara i carrega les dades de vendes i inventari a Redshift. Allà, l'equip d'anàlisi executa cada matí informes complexos —«vendes per categoria, regió i setmana, amb comparativa interanual»— que Redshift respon en segons tot i abastar anys de dades. La direcció consulta panells de BI que beuen de Redshift per prendre decisions. El data lake ho guarda tot; Redshift potencia l'anàlisi ràpida del dia a dia. Junts formen una plataforma de dades completa.
El que has de recordar
- Analitzar enormes volums de dades molt ràpid (informes complexos sobre anys de dades) no és per al que serveix una base de dades normal (optimitzada per a operacions del dia a dia); cal un data warehouse.
- Un data warehouse és una base de dades especialitzada en anàlisi a gran escala sobre dades estructurades, optimitzada per a consultes analítiques complexes. Com el departament d'anàlisi de la central davant la caixa registradora.
- Amazon Redshift és el data warehouse d'AWS: gestionat, molt escalable i rapidíssim en anàlisi, perquè està dissenyat per a això i reparteix la feina en paral·lel (com un gran equip d'analistes treballant alhora).
- Data lake (29.1) i data warehouse (Redshift) es complementen, no competeixen: el llac guarda tot en brut (barat, flexible); el magatzem guarda el estructurat i refinat per a anàlisi ràpida i repetida.
- 💡 Patró comú: el data lake (S3) ho guarda tot, i les dades importants es carreguen a Redshift per als informes de negoci del dia a dia.
En l'últim subcapítol del capítol veurem com governar i assegurar totes aquestes dades de forma centralitzada amb Lake Formation.
Cloud, AWS & Terraform — De zero a expert
Capítol 1 · Què és el cloud computing
- 1.1 El model client-servidor tradicional
- 1.2 Problemes que venia a resoldre el núvol
- 1.3 On-premise vs cloud vs híbrid
- 1.4 Els tres models de servei: IaaS, PaaS, SaaS
- 1.5 Els cinc pilars del cloud (segons NIST)
- 1.6 Avantatges reals: elasticitat, pagament per ús, disponibilitat global
Capítol 2 · El mercat cloud i els grans proveïdors
- 2.1 AWS, Azure i GCP: diferències i quotes de mercat
- 2.2 Per què aprendre AWS primer
- 2.3 Conceptes que són universals entre proveïdors
Capítol 3 · Regions, zones de disponibilitat i edge
- 3.1 Què és una regió AWS i com triar-la
- 3.2 Availability Zones: alta disponibilitat des del disseny
- 3.3 Edge locations i CloudFront
- 3.4 Latència, resiliència i sobirania de dades
Capítol 4 · Càlcul: EC2
- 4.1 Instàncies: tipus, famílies i quan triar cadascuna
- 4.2 AMIs, key pairs i Security Groups
- 4.3 Cicle de vida d'una instància
- 4.4 Elastic IPs i Placement Groups
- 4.5 Savings Plans vs Reserved vs On-Demand vs Spot
Capítol 5 · Emmagatzematge: S3
- 5.1 Buckets, objectes i claus
- 5.2 Classes d'emmagatzematge (Standard, IA, Glacier…)
- 5.3 Versionat i cicle de vida d'objectes
- 5.4 Polítiques de bucket i ACLs
- 5.5 Hosting de llocs web estàtics
Capítol 6 · Xarxes: VPC
- 6.1 Què és una VPC i per què la necessites
- 6.2 Subxarxes públiques i privades
- 6.3 Internet Gateway i NAT Gateway
- 6.4 Route Tables i Network ACLs
- 6.5 VPC Peering i endpoints
Capítol 7 · Identitat i accés: IAM
- 7.1 Usuaris, grups, rols i polítiques
- 7.2 El principi de mínim privilegi
- 7.3 Polítiques basades en identitat vs en recurs
- 7.4 MFA i credencials temporals (STS)
- 7.5 Bones pràctiques de seguretat IAM
Capítol 8 · Bases de dades gestionades
- 8.1 RDS: motors, Multi-AZ i rèpliques de lectura
- 8.2 Aurora i els seus avantatges sobre RDS vanilla
- 8.3 DynamoDB: model clau-valor / documents
- 8.4 ElastiCache per a memòria cau en memòria
- 8.5 Quan utilitzar cada tipus de base de dades
Capítol 9 · Per què Infraestructura com a Codi
- 9.1 Problemes del provisionament manual
- 9.2 IaC declaratiu vs imperatiu
- 9.3 Terraform vs CloudFormation vs Pulumi vs CDK
- 9.4 El cicle plan → apply → destroy
Capítol 10 · HCL: el llenguatge de Terraform
- 10.1 Blocs resource, variable, output, locals
- 10.2 Tipus de dades: string, number, bool, list, map, object
- 10.3 Expressions, referències i funcions built-in
- 10.4 Condicionals i bucles (count, for_each, for)
Capítol 11 · Providers i estat
- 11.1 Com funciona el provider d'AWS
- 11.2 El fitxer terraform.tfstate i la seva importància
- 11.3 State local vs state remot (S3 + DynamoDB)
- 11.4 Comandes essencials: init, plan, apply, destroy, fmt, validate
Capítol 12 · La teva primera infraestructura real amb Terraform
- 12.1 Crear una VPC amb subxarxes des de zero
- 12.2 Posar en marxa una instància EC2 pública
- 12.3 Associar un Security Group i una Elastic IP
- 12.4 Outputs i referències entre recursos
- 12.5 Flux de treball en equip: PR review de plans
Capítol 13 · Balanceig de càrrega i autoescalat
- 13.1 Application Load Balancer vs Network Load Balancer
- 13.2 Target Groups, listeners i regles
- 13.3 Auto Scaling Groups: polítiques i mètriques
- 13.4 Warm pools i lifecycle hooks
Capítol 14 · Serverless amb Lambda
- 14.1 El model d'execució de Lambda
- 14.2 Triggers: API Gateway, S3, DynamoDB Streams, SQS
- 14.3 Gestió de dependències i capes (Layers)
- 14.4 Cold starts i estratègies per reduir-los
- 14.5 Límits i antipatrones
Capítol 15 · Missatgeria i esdeveniments
- 15.1 SQS: cues estàndard vs FIFO, DLQ
- 15.2 SNS: topics, subscripcions, fan-out
- 15.3 EventBridge: event buses i regles
- 15.4 Patrons: pub/sub, desacoblament, saga
Capítol 16 · Lliurament de contingut i DNS
- 16.1 Route 53: tipus de registres i routing policies
- 16.2 CloudFront: distribucions, memòries cau i origins
- 16.3 ACM: certificats SSL/TLS gratuïts
- 16.4 WAF integrat amb CloudFront
Capítol 17 · Contenidors a AWS
- 17.1 Docker: repàs exprés de conceptes clau
- 17.2 ECR: registre privat d'imatges
- 17.3 ECS: task definitions, services, Fargate vs EC2
- 17.4 EKS: quan Kubernetes i quan no
Capítol 18 · Mòduls: reutilització i composició
- 18.1 Anatomia d'un mòdul Terraform
- 18.2 Variables d'entrada, outputs i dependències
- 18.3 Mòduls locals vs mòduls del Terraform Registry
- 18.4 Versionat de mòduls amb Git tags
- 18.5 Disseny de mòduls genèrics vs específics de domini
Capítol 19 · Workspaces i gestió d'entorns
- 19.1 Workspaces de Terraform: casos d'ús i limitacions
- 19.2 Estratègia de directoris per entorn (dev/stg/prod)
- 19.3 Terragrunt: DRY per a configuracions d'entorn
- 19.4 Variables d'entorn i fitxers .tfvars
Capítol 20 · Backends remots i locking
- 20.1 Configurar S3 + DynamoDB com a backend
- 20.2 State locking: evitar corrupció en equip
- 20.3 Migració d'estat entre backends
- 20.4 terraform import: portar recursos existents a l'estat
Capítol 21 · Testing d'infraestructura
- 21.1 Terraform validate i fmt en CI
- 21.2 Checkov i tfsec: anàlisi de seguretat estàtica
- 21.3 Terratest: tests d'integració en Go
- 21.4 Contract testing entre mòduls
Capítol 22 · Terraform en CI/CD
- 22.1 Pipeline bàsic: lint → plan → apply a GitHub Actions
- 22.2 Atlantis: GitOps per a Terraform
- 22.3 Terraform Cloud / HCP Terraform
- 22.4 Drift detection i reconciliació automàtica
Capítol 23 · Seguretat en profunditat
- 23.1 AWS Organizations i Service Control Policies
- 23.2 AWS Config: compliment continu
- 23.3 GuardDuty: detecció d'amenaces
- 23.4 Security Hub: visió centralitzada
- 23.5 KMS: gestió de claus i rotació
- 23.6 Secrets Manager vs Parameter Store
Capítol 24 · Observabilitat: logs, mètriques i traces
- 24.1 CloudWatch Logs, mètriques i alarmes
- 24.2 CloudWatch Dashboards i Contributor Insights
- 24.3 X-Ray: traçat distribuït
- 24.4 OpenTelemetry a AWS
- 24.5 Managed Grafana i Managed Prometheus
Capítol 25 · Optimització de costos
- 25.1 AWS Cost Explorer i pressupostos amb alertes
- 25.2 Trusted Advisor i Compute Optimizer
- 25.3 Rightsizing: com detectar sobredimensionament
- 25.4 Savings Plans vs Reserved Instances: decisió estratègica
- 25.5 FinOps: cultura i processos per controlar la despesa
Capítol 26 · Alta disponibilitat i disaster recovery
- 26.1 RTO i RPO: definir els objectius
- 26.2 Estratègies: backup/restore, pilot light, warm standby, multi-site
- 26.3 Route 53 health checks i failover automàtic
- 26.4 AWS Backup: política centralitzada de còpies
Capítol 27 · Well-Architected Framework d'AWS
- 27.1 Els sis pilars: excel·lència operacional, seguretat, fiabilitat, eficiència de rendiment, optimització de costos, sostenibilitat
- 27.2 Well-Architected Tool: revisions formals
- 27.3 Com aplicar el framework en decisions de disseny
Capítol 28 · Arquitectures serverless a escala
- 28.1 Event-driven architecture amb Lambda + EventBridge
- 28.2 Saga pattern per a transaccions distribuïdes
- 28.3 Step Functions: orquestració de workflows complexos
- 28.4 Lambda@Edge i CloudFront Functions
Capítol 29 · Plataformes de dades a AWS
- 29.1 Data Lake amb S3, Glue i Athena
- 29.2 Kinesis Data Streams i Firehose per a streaming
- 29.3 Redshift: data warehousing a escala
- 29.4 Lake Formation: govern del dada
Capítol 30 · Multi-compte i landing zones
- 30.1 Per què separar workloads en comptes diferents
- 30.2 AWS Control Tower i Account Factory
- 30.3 Gestió centralitzada de logs i seguretat
- 30.4 Terraform a escala multi-compte amb mòduls compartits
Capítol 31 · Platform Engineering i Internal Developer Platform
- 31.1 Golden paths i abstraccions sobre Terraform
- 31.2 Service Catalog d'AWS
- 31.3 Backstage com a portal de desenvolupadors
- 31.4 Mòduls Terraform com a producte intern
Capítol 32 · Certificacions AWS rellevants
- 32.1 Cloud Practitioner: val la pena?
- 32.2 Solutions Architect Associate → Professional
- 32.3 DevOps Engineer Professional
- 32.4 Specialty: Security, Database, Networking
- 32.5 HashiCorp Terraform Associate
Capítol 33 · Projectes per consolidar el que s'ha après
- 33.1 Projecte 1: blog serverless (S3 + CloudFront + Lambda + DynamoDB)
- 33.2 Projecte 2: API REST amb ECS Fargate + RDS + ALB
- 33.3 Projecte 3: plataforma de dades amb Glue + Athena + Redshift
- 33.4 Projecte 4: landing zone multi-compte amb Terraform i Control Tower
