El tercer projecte et porta al món de les dades a gran escala, que vam veure al Capítol 29. Mentre que els projectes anteriors construïen aplicacions (un blog, una API), aquest construeix una plataforma de dades: un sistema per emmagatzemar, processar i analitzar grans quantitats d’informació. Combinaràs Glue, Athena i Redshift per crear una plataforma capaç d’extreure valor de les dades. És un projecte de nivell més avançat que consolida una especialitat molt demandada: l’enginyeria de dades.

Què construeixes: una plataforma per analitzar dades

L’objectiu és muntar un sistema on reunir dades de diferents fonts, preparar-les i poder analitzar-les per treure’n conclusions útils. Recorda el Capítol 29: una plataforma de dades permet a una empresa convertir les seves dades disperses en informació valuosa per prendre decisions.

   El que construiràs:
   dades en brut → es preparen → s’analitzen → conclusions útils
   (un "data lake" + analítica, tot el del Capítol 29)

Les peces i com encaixen

El projecte combina els serveis de dades del Capítol 29, cadascun amb el seu paper:

S3: el data lake (emmagatzemar-ho tot)

S3 (Capítol 5) és el data lake (subcapítol 29.1): el magatzem central, barat i il·limitat, on guardes totes les dades en brut, de qualsevol format. És el cor de la plataforma: el lloc on «aterren» totes les dades.

S3 → el data lake: guarda totes les dades en brut (el "llac")

Glue: catalogar i preparar les dades

AWS Glue (subcapítol 29.1) cataloga les dades del data lake (crea un inventari del que hi ha i on) i les processa/transforma (les neteja i prepara per analitzar). És el «bibliotecari» que organitza el llac i deixa les dades a punt.

Glue → cataloga (saps quines dades hi ha) i prepara (neteja, transforma) les dades

Athena: consultar el data lake amb SQL

Amazon Athena (subcapítol 29.1) et permet consultar les dades directament a S3 amb SQL, sense moure-les, de forma serverless. És per anàlisis flexibles i puntuals: fas preguntes a les teves dades del llac i obtens respostes.

Athena → consultes SQL directament sobre el data lake (S3), serverless

Redshift: el data warehouse (anàlisi intensiu)

Amazon Redshift (subcapítol 29.3) és el data warehouse: per als anàlisis complexos i recurrents sobre les dades estructurades més importants, que carrega des del data lake. És on es fan els informes de negoci que es consulten sovint i han de respondre’s rapidíssim.

Redshift → data warehouse: anàlisis complexos i ràpids sobre dades refinades

L’arquitectura completa

Així encaixen les peces, seguint el patró del Capítol 29:

   Fonts de dades (vendes, logs, etc.)
        │ (es bolquen)
        ▼
   S3 (DATA LAKE: totes les dades en brut)
        │
   Glue cataloga i prepara les dades
        │
        ├──► Athena (consultes SQL flexibles sobre el llac)
        │
        └──► Redshift (DATA WAREHOUSE: anàlisis complexos i recurrents)
                 → informes de negoci, panells de BI

Les dades arriben a S3 (el llac); Glue les cataloga i prepara; des d’aquí, pots consultar-les de manera flexible amb Athena, o carregar les més importants a Redshift per a anàlisis intensius i recurrents. Recorda que el data lake i el data warehouse es complementen (subcapítol 29.3): el llac ho guarda tot, el magatzem potencia l’anàlisi freqüent.

Conceptes clau que consolides

Aquest projecte aferma el domini de les dades a AWS, una especialitat molt valorada:

   Conceptes del llibre que consolides:
   - Data lake amb S3 (Caps. 5, 29.1)
   - Glue: catàleg i ETL (Cap. 29.1)
   - Athena: consultes serverless sobre S3 (Cap. 29.1)
   - Redshift: data warehouse (Cap. 29.3)
   - La diferència i complementarietat llac vs magatzem (Cap. 29.3)
   - Govern de dades (qui accedeix a què, amb Lake Formation, Cap. 29.4)
   - Tot amb Terraform! (Parts II-V)

💡 Amplia si vols: pots enriquir el projecte afegint Kinesis (subcapítol 29.2) per ingerir dades en temps real cap al data lake, i Lake Formation (subcapítol 29.4) per governar qui accedeix a quines dades. Així cobreixes el Capítol 29 complet.

Exemple del món real: algú interessat en la enginyeria de dades (un camp molt demandat) vol consolidar el que ha après al Capítol 29 amb un projecte real. Construeix una plataforma per analitzar dades de vendes: bolca dades de vendes (de diverses fonts, en diferents formats) en un data lake a S3; fa servir Glue per catalogar-les i preparar-les; analitza de manera exploratòria amb Athena («quins productes es venen més per regió?»); i carrega les dades clau a Redshift per als informes mensuals que la direcció consulta. Tot ho desplega amb Terraform. En construir-ho, entén de veritat com flueixen les dades per una plataforma analítica i la diferència pràctica entre un data lake i un data warehouse. Acaba amb una plataforma de dades funcional i un perfil sòlid en una àrea molt buscada. La teoria del Capítol 29 es converteix en habilitat real.

El que has de recordar

  • El projecte de plataforma de dades et porta al món de les dades a gran escala (Cap. 29): un sistema per emmagatzemar, processar i analitzar informació i extreure’n valor. Construeix un data lake + analítica.
  • Combina les peces del Cap. 29: S3 (el data lake: totes les dades en brut, Cap. 29.1), Glue (cataloga i prepara les dades, Cap. 29.1), Athena (consultes SQL flexibles sobre S3, serverless, Cap. 29.1) i Redshift (el data warehouse per a anàlisis complexos i recurrents, Cap. 29.3).
  • Arquitectura: dades → S3 (llac) → Glue (cataloga/prepara) → Athena (consultes flexibles) i/o Redshift (anàlisis intensius). Llac i magatzem es complementen (Cap. 29.3).
  • Consolida una especialitat molt demandada (enginyeria de dades); 💡 amplia-ho amb Kinesis (temps real, Cap. 29.2) i Lake Formation (govern, Cap. 29.4). Tot amb Terraform.

A l’últim subcapítol del capítol veurem el projecte més ambiciós, que lliga molts conceptes avançats: una landing zone multi-compte amb Terraform i Control Tower.

Cloud, AWS & Terraform — De zero a expert

Capítol 1 · Què és el cloud computing

Capítol 2 · El mercat cloud i els grans proveïdors

Capítol 3 · Regions, zones de disponibilitat i edge

Capítol 4 · Càlcul: EC2

Capítol 5 · Emmagatzematge: S3

Capítol 6 · Xarxes: VPC

Capítol 7 · Identitat i accés: IAM

Capítol 8 · Bases de dades gestionades

Capítol 9 · Per què Infraestructura com a Codi

Capítol 10 · HCL: el llenguatge de Terraform

Capítol 11 · Providers i estat

Capítol 12 · La teva primera infraestructura real amb Terraform

Capítol 13 · Balanceig de càrrega i autoescalat

Capítol 14 · Serverless amb Lambda

Capítol 15 · Missatgeria i esdeveniments

Capítol 16 · Lliurament de contingut i DNS

Capítol 17 · Contenidors a AWS

Capítol 18 · Mòduls: reutilització i composició

Capítol 19 · Workspaces i gestió d'entorns

Capítol 20 · Backends remots i locking

Capítol 21 · Testing d'infraestructura

Capítol 22 · Terraform en CI/CD

Capítol 23 · Seguretat en profunditat

Capítol 24 · Observabilitat: logs, mètriques i traces

Capítol 25 · Optimització de costos

Capítol 26 · Alta disponibilitat i disaster recovery

Capítol 27 · Well-Architected Framework d'AWS

Capítol 28 · Arquitectures serverless a escala

Capítol 29 · Plataformes de dades a AWS

Capítol 30 · Multi-compte i landing zones

Capítol 31 · Platform Engineering i Internal Developer Platform

Capítol 32 · Certificacions AWS rellevants

Capítol 33 · Projectes per consolidar el que s'ha après

Capítol 34 · Recursos i comunitat

© Copyright 2024. Tots els drets reservats