En el subcapítol 29.1 vam veure el data lake (S3 + Glue + Athena) per guardar i consultar dades en brut. Vam esmentar que existeix un concepte complementari: el data warehouse (magatzem de dades), optimitzat per a anàlisis molt ràpides sobre dades estructurades. A AWS, aquest servei és Amazon Redshift. En aquest subcapítol veurem què és un data warehouse, què fa Redshift i quan escollir-lo davant de (o juntament amb) un data lake. És l'eina per fer analítica seriosa i ràpida sobre grans volums de dades.

El problema: analitzar enormes quantitats de dades, molt ràpid

Imagina una empresa que vol respondre, en segons, preguntes complexes sobre anys de dades de vendes: «quins van ser els 10 productes més venuts per regió i trimestre en els últims 3 anys, comparats amb l'any anterior?». Això implica analitzar milions o milers de milions de registres, creuant i agregant dades.

Una base de dades normal (com les que vam veure al Capítol 8, pensades per gestionar les operacions del dia a dia: registrar una comanda, consultar un client) no està optimitzada per a aquest tipus d'anàlisi massiva. Faria aquestes consultes gegants molt lentament. Necessites una eina especialitzada en anàlisi a gran escala: un data warehouse.

Què és un data warehouse

Un data warehouse (magatzem de dades) és una base de dades especialitzada en analitzar enormes quantitats de dades estructurades de forma molt ràpida. Està dissenyada específicament per a consultes analítiques complexes (agregacions, comparacions, informes) sobre grans volums, normalment dades històriques de tota l'empresa.

   Base de dades normal (Cap. 8):  optimitzada per a OPERACIONS del dia a dia
                                    (registrar/consultar coses individuals, ràpid)
   Data warehouse:                 optimitzat per a ANÀLISI a gran escala
                                    (consultes complexes sobre milions de registres)

Analogia: la diferència és com entre la caixa registradora d'una botiga i el departament d'anàlisi de la central. La caixa registradora (base de dades normal) està feta per a operacions ràpides i individuals: cobrar una compra, retornar un producte. El departament d'anàlisi (data warehouse) està fet per agafar totes les vendes de totes les botigues durant anys i treure'n conclusions: tendències, comparatives, informes. Són eines diferents per a feines diferents.

Què és Amazon Redshift

Amazon Redshift és el servei de data warehouse d'AWS: una base de dades analítica, gestionada i molt escalable, optimitzada per executar consultes complexes sobre enormes volums de dades a gran velocitat. És on les empreses fan la seva analítica i intel·ligència de negoci (business intelligence) seriosa.

   Grans volums de dades estructurades (vendes, finances...)
                    │
                    ▼
            Amazon Redshift (data warehouse)
                    │
                    ▼
   Consultes analítiques complexes respostes RÀPID
   (informes, panells de BI, anàlisi de tendències)

Per què Redshift és tan ràpid en anàlisi

Sense entrar en tecnicismes, Redshift aconsegueix la seva velocitat perquè està dissenyat de base per a l'anàlisi: organitza i emmagatzema les dades de forma optimitzada per a consultes analítiques, i reparteix la feina d'una consulta entre molts recursos en paral·lel (processament massiu en paral·lel). Així, una consulta que creuaria milions de registres es resol en segons en comptes d'hores.

Analogia: Redshift és com tenir un equip enorme d'analistes treballant en paral·lel en comptes d'un de sol. Si li demanes analitzar milions de registres, no ho fa una sola «persona» seqüencialment (lent); reparteix la feina entre molts que treballen alhora i ajunten el resultat. Per això respon ràpid fins i tot a preguntes enormes.

Data lake vs data warehouse: quin faig servir?

Aquesta és la pregunta clau, i la resposta sol ser «tots dos, per a coses diferents». No competeixen; es complementen:

Data Lake (S3+Glue+Athena, 29.1) Data Warehouse (Redshift)
Guarda Dades en brut, qualsevol format Dades estructurades i preparades
Estructura Flexible (defineixes en consultar) Definida i optimitzada prèviament
Ideal per a Explorar, guardar-ho tot, dades variades Anàlisi ràpida i repetida, informes de BI
Velocitat de consulta Bona, flexible Molt alta per a anàlisis complexes
Cost Molt barat (S3) Major (més potència analítica)
   Patró habitual combinat:
   Dades en brut → DATA LAKE (S3) → es preparen les més importants
                                          │
                                          ▼
                                    DATA WAREHOUSE (Redshift)
                                    → anàlisi ràpida i repetida per a informes

💡 Patró comú: moltes empreses fan servir tots dos: el data lake (S3) guarda totes les dades en brut i barates, i les dades més importants i estructurades es carreguen a Redshift per fer anàlisis ràpides i recurrents (els informes diaris de negoci, els panells que la direcció consulta cada matí). El llac és el «tot»; el magatzem és el «refinat i llest per a anàlisi intensiva».

Exemple del món real: una cadena de botigues guarda al seu data lake (S3) absolutament totes les seves dades en brut: vendes, inventari, logs web, dades de fidelització... barates i completes. Cada nit, un procés (amb Glue, subcapítol 29.1) prepara i carrega les dades de vendes i inventari a Redshift. Allà, l'equip d'anàlisi executa cada matí informes complexos —«vendes per categoria, regió i setmana, amb comparativa interanual»— que Redshift respon en segons tot i abastar anys de dades. La direcció consulta panells de BI que beuen de Redshift per prendre decisions. El data lake ho guarda tot; Redshift potencia l'anàlisi ràpida del dia a dia. Junts formen una plataforma de dades completa.

El que has de recordar

  • Analitzar enormes volums de dades molt ràpid (informes complexos sobre anys de dades) no és per al que serveix una base de dades normal (optimitzada per a operacions del dia a dia); cal un data warehouse.
  • Un data warehouse és una base de dades especialitzada en anàlisi a gran escala sobre dades estructurades, optimitzada per a consultes analítiques complexes. Com el departament d'anàlisi de la central davant la caixa registradora.
  • Amazon Redshift és el data warehouse d'AWS: gestionat, molt escalable i rapidíssim en anàlisi, perquè està dissenyat per a això i reparteix la feina en paral·lel (com un gran equip d'analistes treballant alhora).
  • Data lake (29.1) i data warehouse (Redshift) es complementen, no competeixen: el llac guarda tot en brut (barat, flexible); el magatzem guarda el estructurat i refinat per a anàlisi ràpida i repetida.
  • 💡 Patró comú: el data lake (S3) ho guarda tot, i les dades importants es carreguen a Redshift per als informes de negoci del dia a dia.

En l'últim subcapítol del capítol veurem com governar i assegurar totes aquestes dades de forma centralitzada amb Lake Formation.

Cloud, AWS & Terraform — De zero a expert

Capítol 1 · Què és el cloud computing

Capítol 2 · El mercat cloud i els grans proveïdors

Capítol 3 · Regions, zones de disponibilitat i edge

Capítol 4 · Càlcul: EC2

Capítol 5 · Emmagatzematge: S3

Capítol 6 · Xarxes: VPC

Capítol 7 · Identitat i accés: IAM

Capítol 8 · Bases de dades gestionades

Capítol 9 · Per què Infraestructura com a Codi

Capítol 10 · HCL: el llenguatge de Terraform

Capítol 11 · Providers i estat

Capítol 12 · La teva primera infraestructura real amb Terraform

Capítol 13 · Balanceig de càrrega i autoescalat

Capítol 14 · Serverless amb Lambda

Capítol 15 · Missatgeria i esdeveniments

Capítol 16 · Lliurament de contingut i DNS

Capítol 17 · Contenidors a AWS

Capítol 18 · Mòduls: reutilització i composició

Capítol 19 · Workspaces i gestió d'entorns

Capítol 20 · Backends remots i locking

Capítol 21 · Testing d'infraestructura

Capítol 22 · Terraform en CI/CD

Capítol 23 · Seguretat en profunditat

Capítol 24 · Observabilitat: logs, mètriques i traces

Capítol 25 · Optimització de costos

Capítol 26 · Alta disponibilitat i disaster recovery

Capítol 27 · Well-Architected Framework d'AWS

Capítol 28 · Arquitectures serverless a escala

Capítol 29 · Plataformes de dades a AWS

Capítol 30 · Multi-compte i landing zones

Capítol 31 · Platform Engineering i Internal Developer Platform

Capítol 32 · Certificacions AWS rellevants

Capítol 33 · Projectes per consolidar el que s'ha après

Capítol 34 · Recursos i comunitat

© Copyright 2024. Tots els drets reservats