Introducció a Cloud Data Fusion

Cloud Data Fusion és un servei de Google Cloud que permet la integració de dades de manera visual i sense necessitat de codi. És una eina poderosa per a la preparació, transformació i integració de dades, que facilita la creació de pipelines de dades complexes amb una interfície intuïtiva.

Conceptes Clau

  • Pipeline de Dades: Una seqüència de passos que transformen i mouen dades d'una font a una destinació.
  • Connector: Un component que permet connectar-se a diferents fonts de dades, com bases de dades, serveis web, fitxers, etc.
  • Transformació: Operacions que es realitzen sobre les dades per modificar-les, netejar-les o enriquir-les.
  • Orquestració: La gestió i execució dels diferents passos d'un pipeline de dades.

Característiques Principals

  • Interfície Visual: Permet crear pipelines de dades mitjançant una interfície d'arrossegar i deixar anar.
  • Integració amb GCP: Es pot integrar fàcilment amb altres serveis de Google Cloud com BigQuery, Cloud Storage, i Cloud Pub/Sub.
  • Escalabilitat: Pot gestionar grans volums de dades i escalar segons les necessitats.
  • Transformacions Predefinides: Inclou una sèrie de transformacions predefinides que faciliten la manipulació de dades.

Crear un Pipeline de Dades amb Cloud Data Fusion

Pas 1: Configurar el Projecte

  1. Accedir a la Consola de GCP: Inicia sessió a la consola de Google Cloud.
  2. Crear un Projecte: Si no tens un projecte, crea'n un nou.
  3. Activar l'API de Cloud Data Fusion: A la secció d'APIs i Serveis, activa l'API de Cloud Data Fusion.

Pas 2: Crear una Instància de Cloud Data Fusion

  1. Navegar a Cloud Data Fusion: A la consola de GCP, cerca "Cloud Data Fusion" i selecciona'l.
  2. Crear una Instància: Fes clic a "Crear Instància" i completa els detalls necessaris (nom, regió, etc.).
  3. Esperar la Creació: Pot trigar uns minuts a crear-se la instància.

Pas 3: Dissenyar el Pipeline

  1. Accedir a l'Interfície de Cloud Data Fusion: Un cop creada la instància, fes clic a "Iniciar" per accedir a la interfície.
  2. Crear un Nou Pipeline: A la interfície de Cloud Data Fusion, selecciona "Pipelines" i fes clic a "Nou Pipeline".
  3. Afegir Connectors: Arrossega i deixa anar els connectors necessaris per a les teves fonts i destinacions de dades.
  4. Configurar Transformacions: Arrossega i deixa anar les transformacions necessàries i configura-les segons les teves necessitats.
  5. Connectar els Components: Connecta els diferents components per definir el flux de dades.

Pas 4: Executar el Pipeline

  1. Validar el Pipeline: Abans d'executar-lo, valida el pipeline per assegurar-te que no hi ha errors.
  2. Executar el Pipeline: Fes clic a "Executar" per iniciar el pipeline.
  3. Monitoritzar l'Execució: Pots monitoritzar l'execució del pipeline a través de la interfície de Cloud Data Fusion.

Exemple Pràctic

Exemple: Integració de Dades de Cloud Storage a BigQuery

Pas 1: Configurar el Projecte

# Activar l'API de Cloud Data Fusion
gcloud services enable datafusion.googleapis.com

Pas 2: Crear una Instància de Cloud Data Fusion

# Crear una instància de Cloud Data Fusion
gcloud data-fusion instances create my-data-fusion-instance --location=us-central1

Pas 3: Dissenyar el Pipeline

  1. Afegir un Connector de Cloud Storage: Arrossega el connector de Cloud Storage i configura'l amb els detalls del teu bucket.
  2. Afegir una Transformació: Arrossega una transformació (per exemple, "Filter") i configura-la per filtrar les dades necessàries.
  3. Afegir un Connector de BigQuery: Arrossega el connector de BigQuery i configura'l amb els detalls del teu dataset i taula.

Pas 4: Executar el Pipeline

  1. Validar el Pipeline: Fes clic a "Validar" per assegurar-te que tot està configurat correctament.
  2. Executar el Pipeline: Fes clic a "Executar" per iniciar el pipeline.

Exercici Pràctic

Exercici: Crear un Pipeline per Migrar Dades de Cloud SQL a BigQuery

Requisits

  • Un compte de GCP amb accés a Cloud SQL i BigQuery.
  • Una instància de Cloud SQL amb una base de dades i taula de mostra.
  • Un dataset de BigQuery on es migraran les dades.

Passos

  1. Configurar el Projecte: Activa l'API de Cloud Data Fusion i crea una instància.
  2. Dissenyar el Pipeline:
    • Afegir un connector de Cloud SQL.
    • Afegir una transformació per netejar les dades.
    • Afegir un connector de BigQuery.
  3. Executar el Pipeline: Valida i executa el pipeline.

Solució

# Activar l'API de Cloud Data Fusion
gcloud services enable datafusion.googleapis.com

# Crear una instància de Cloud Data Fusion
gcloud data-fusion instances create my-data-fusion-instance --location=us-central1
  1. Afegir un Connector de Cloud SQL: Configura'l amb els detalls de la teva instància de Cloud SQL.
  2. Afegir una Transformació: Per exemple, una transformació "Filter" per eliminar registres no desitjats.
  3. Afegir un Connector de BigQuery: Configura'l amb els detalls del teu dataset i taula de BigQuery.

Resum

En aquesta secció, hem après què és Cloud Data Fusion, les seves característiques principals i com crear un pipeline de dades. Hem vist un exemple pràctic d'integració de dades de Cloud Storage a BigQuery i hem realitzat un exercici pràctic per migrar dades de Cloud SQL a BigQuery. Amb aquestes habilitats, estàs preparat per començar a utilitzar Cloud Data Fusion per a les teves necessitats d'integració de dades.

© Copyright 2024. Tots els drets reservats