Tanquem el Capítol 29 amb un aspecte crucial quan una empresa acumula moltes dades: el govern de dades (data governance). Tenir un data lake (subcapítol 29.1) ple d'informació valuosa està molt bé, però planteja preguntes serioses: qui pot veure quines dades? Com protegeixes la informació sensible? Com controles l'accés de forma centralitzada quan tens dades de tota l'empresa? Per respondre a això, AWS ofereix Lake Formation: un servei per construir, assegurar i governar el teu data lake de forma centralitzada.

El problema: un data lake sense control és un risc

Un data lake reuneix moltes dades de tota l'empresa en un lloc (S3). Això és potent, però també perillós si no controles bé qui accedeix a què:

Al data lake hi ha dades de tot tipus:
   - Dades públiques (catàleg de productes)
   - Dades internes (vendes)
   - Dades SENSIBLES (dades personals de clients, finances...)
   → NO tothom hauria de poder veure-HO TOT

Sense un bon control d'accés:

  • Qualsevol amb accés al llac podria veure dades sensibles que no li corresponen (un risc greu, recorda la privacitat i el compliment del Capítol 23).
  • Gestionar els permisos «a mà» sobre milions d'arxius a S3 seria inviable i propens a errors.
  • Seria difícil demostrar (a auditors, per normativa) que les dades estan ben protegides.

Necessites una forma centralitzada i fina de governar qui accedeix a quines dades. Això és Lake Formation.

Què és Lake Formation

AWS Lake Formation és un servei que facilita construir, assegurar i governar un data lake de forma centralitzada. La seva funció més destacada és el control d'accés fi i centralitzat a les dades: definir, des d'un sol lloc, qui pot accedir a quines dades (fins al nivell de taules i columnes concretes), de manera senzilla.

   Lake Formation (govern centralitzat del data lake):
   ├── construir el data lake més fàcilment
   ├── controlar l'accés de forma FINA i centralitzada
   │      "aquest equip veu la taula de vendes, però NO la columna de dades personals"
   └── auditar qui accedeix a què

Analogia: Lake Formation és com el sistema de control d'accessos i seguretat d'una gran biblioteca o arxiu nacional. No n'hi ha prou amb tenir tots els documents guardats (això és el data lake); necessites controlar qui pot entrar a quina secció: el públic general accedeix a la sala comuna, els investigadors acreditats als arxius especials, i només personal autoritzat als documents confidencials. Lake Formation és aquest sistema que, des d'un punt central, decideix i vigila qui accedeix a cada part de les teves dades.

Què t'aporta Lake Formation

  1. Construir el data lake més fàcil

Ajuda a muntar el data lake de manera més senzilla: facilita portar dades, organitzar-les i catalogar-les (treballa juntament amb Glue, subcapítol 29.1). Simplifica els passos de crear el llac.

  1. Control d'accés fi i centralitzat

Aquesta és la peça estrella. Des de un sol lloc, defineixes qui pot accedir a quines dades, amb molt detall:

Exemples de permisos fins amb Lake Formation:
   - "L'equip de màrqueting pot veure la taula de clients,
      però NO les columnes d'email i telèfon" (nivell columna)
   - "L'equip de finances veu les dades de vendes completes"
   - "Els analistes només veuen dades agregades, no individuals"

En comptes de gestionar permisos arxiu per arxiu a S3 (un caos), defineixes regles clares a nivell de dades (bases de dades, taules, columnes), de forma centralitzada. Això connecta amb el mínim privilegi que vam veure a IAM (subcapítol 7.2): cadascú accedeix només a les dades que necessita.

  1. Protegir dades sensibles

Gràcies a aquest control fi, pots protegir la informació sensible (dades personals, financeres) assegurant que només qui ha de pot veure-la, mentre altres accedeixen a la resta. És clau per complir normatives de privacitat.

  1. Auditoria i compliment

Permet registrar i demostrar qui accedeix a quines dades, la qual cosa és essencial per a auditories i per complir regulacions (enllaça amb el compliment del Capítol 23). Tens una visió central de la seguretat de les teves dades.

Per què importa: del «caos de dades» al «data lake governat»

El gran valor de Lake Formation és convertir un data lake potencialment caòtic i insegur en un de governat: on saps exactament qui accedeix a què, protegeixes el que és sensible i pots demostrar-ho. Sense govern, un data lake ple de dades valuoses és també una bomba de rellotgeria de seguretat i compliment. Amb Lake Formation, és un actiu segur i ben controlat.

   Sense govern:  data lake = moltes dades + accés descontrolat = RISC
   Amb Lake Formation: data lake = moltes dades + accés controlat = ACTIU SEGUR

Exemple del món real: una empresa de salut té un data lake amb dades de pacients (molt sensibles), dades operatives i dades públiques. Usen Lake Formation per governar-lo. Defineixen, de forma centralitzada: els investigadors accedeixen a dades anonimitzades i agregades (sense veure identitats), el personal mèdic autoritzat accedeix a les dades completes dels seus pacients, i l'equip de màrqueting només accedeix a dades públiques. Les columnes amb dades personals identificables estan protegides i només visibles per a qui té autorització explícita. Quan arriba una auditoria de protecció de dades, l'empresa demostra fàcilment qui accedeix a què. El que sense govern seria un risc legal enorme, amb Lake Formation és un sistema controlat, segur i conforme a la normativa.

Com tanca el Capítol 29

Lake Formation completa la plataforma de dades que hem construït en aquest capítol:

S3 + Glue + Athena (29.1)  → guardar i consultar el data lake
Kinesis (29.2)             → ingerir dades en temps real
Redshift (29.3)            → analítica ràpida a gran escala (data warehouse)
Lake Formation (aquest)    → GOVERNAR i ASSEGURAR tot (qui accedeix a què)

Les primeres peces construeixen i exploten les dades; Lake Formation s'assegura que tot això sigui segur, controlat i conforme. Una plataforma de dades completa necessita les dues coses: capacitat i govern.

El que has de recordar

  • Un data lake reuneix moltes dades (incloses sensibles) de tota l'empresa; sense control d'accés, és un risc greu de seguretat i compliment, i gestionar permisos «a mà» sobre milions d'arxius és inviable.
  • AWS Lake Formation facilita construir, assegurar i governar un data lake de forma centralitzada. Com el sistema de control d'accessos d'un gran arxiu.
  • La seva peça estrella és el control d'accés fi i centralitzat: defineixes des d'un sol lloc qui accedeix a quines dades, fins a nivell de taules i columnes (en línia amb el mínim privilegi d'IAM), en comptes de gestionar arxius solts a S3.
  • Aporta: construir el llac més fàcil, protegir dades sensibles (clau per a la privacitat) i auditoria/complement (demostrar qui accedeix a què).
  • Converteix un data lake caòtic i insegur en un de governat i segur: la diferència entre un risc i un actiu. Capacitat (29.1-29.3) més govern (Lake Formation) = plataforma de dades completa.

Has completat el Capítol 29 i domines les plataformes de dades a AWS: data lakes, streaming, data warehouse i govern de dades! Al Capítol 30 tornarem al terreny de l'organització a gran escala: com estructurar múltiples comptes i landing zones per a empreses grans.

Cloud, AWS & Terraform — De zero a expert

Capítol 1 · Què és el cloud computing

Capítol 2 · El mercat cloud i els grans proveïdors

Capítol 3 · Regions, zones de disponibilitat i edge

Capítol 4 · Càlcul: EC2

Capítol 5 · Emmagatzematge: S3

Capítol 6 · Xarxes: VPC

Capítol 7 · Identitat i accés: IAM

Capítol 8 · Bases de dades gestionades

Capítol 9 · Per què Infraestructura com a Codi

Capítol 10 · HCL: el llenguatge de Terraform

Capítol 11 · Providers i estat

Capítol 12 · La teva primera infraestructura real amb Terraform

Capítol 13 · Balanceig de càrrega i autoescalat

Capítol 14 · Serverless amb Lambda

Capítol 15 · Missatgeria i esdeveniments

Capítol 16 · Lliurament de contingut i DNS

Capítol 17 · Contenidors a AWS

Capítol 18 · Mòduls: reutilització i composició

Capítol 19 · Workspaces i gestió d'entorns

Capítol 20 · Backends remots i locking

Capítol 21 · Testing d'infraestructura

Capítol 22 · Terraform en CI/CD

Capítol 23 · Seguretat en profunditat

Capítol 24 · Observabilitat: logs, mètriques i traces

Capítol 25 · Optimització de costos

Capítol 26 · Alta disponibilitat i disaster recovery

Capítol 27 · Well-Architected Framework d'AWS

Capítol 28 · Arquitectures serverless a escala

Capítol 29 · Plataformes de dades a AWS

Capítol 30 · Multi-compte i landing zones

Capítol 31 · Platform Engineering i Internal Developer Platform

Capítol 32 · Certificacions AWS rellevants

Capítol 33 · Projectes per consolidar el que s'ha après

Capítol 34 · Recursos i comunitat

© Copyright 2024. Tots els drets reservats