Introducció a Cloud Data Fusion
Cloud Data Fusion és un servei de Google Cloud que permet la integració de dades de manera visual i sense necessitat de codi. És una eina poderosa per a la preparació, transformació i integració de dades, que facilita la creació de pipelines de dades complexes amb una interfície intuïtiva.
Conceptes Clau
- Pipeline de Dades: Una seqüència de passos que transformen i mouen dades d'una font a una destinació.
- Connector: Un component que permet connectar-se a diferents fonts de dades, com bases de dades, serveis web, fitxers, etc.
- Transformació: Operacions que es realitzen sobre les dades per modificar-les, netejar-les o enriquir-les.
- Orquestració: La gestió i execució dels diferents passos d'un pipeline de dades.
Característiques Principals
- Interfície Visual: Permet crear pipelines de dades mitjançant una interfície d'arrossegar i deixar anar.
- Integració amb GCP: Es pot integrar fàcilment amb altres serveis de Google Cloud com BigQuery, Cloud Storage, i Cloud Pub/Sub.
- Escalabilitat: Pot gestionar grans volums de dades i escalar segons les necessitats.
- Transformacions Predefinides: Inclou una sèrie de transformacions predefinides que faciliten la manipulació de dades.
Crear un Pipeline de Dades amb Cloud Data Fusion
Pas 1: Configurar el Projecte
- Accedir a la Consola de GCP: Inicia sessió a la consola de Google Cloud.
- Crear un Projecte: Si no tens un projecte, crea'n un nou.
- Activar l'API de Cloud Data Fusion: A la secció d'APIs i Serveis, activa l'API de Cloud Data Fusion.
Pas 2: Crear una Instància de Cloud Data Fusion
- Navegar a Cloud Data Fusion: A la consola de GCP, cerca "Cloud Data Fusion" i selecciona'l.
- Crear una Instància: Fes clic a "Crear Instància" i completa els detalls necessaris (nom, regió, etc.).
- Esperar la Creació: Pot trigar uns minuts a crear-se la instància.
Pas 3: Dissenyar el Pipeline
- Accedir a l'Interfície de Cloud Data Fusion: Un cop creada la instància, fes clic a "Iniciar" per accedir a la interfície.
- Crear un Nou Pipeline: A la interfície de Cloud Data Fusion, selecciona "Pipelines" i fes clic a "Nou Pipeline".
- Afegir Connectors: Arrossega i deixa anar els connectors necessaris per a les teves fonts i destinacions de dades.
- Configurar Transformacions: Arrossega i deixa anar les transformacions necessàries i configura-les segons les teves necessitats.
- Connectar els Components: Connecta els diferents components per definir el flux de dades.
Pas 4: Executar el Pipeline
- Validar el Pipeline: Abans d'executar-lo, valida el pipeline per assegurar-te que no hi ha errors.
- Executar el Pipeline: Fes clic a "Executar" per iniciar el pipeline.
- Monitoritzar l'Execució: Pots monitoritzar l'execució del pipeline a través de la interfície de Cloud Data Fusion.
Exemple Pràctic
Exemple: Integració de Dades de Cloud Storage a BigQuery
Pas 1: Configurar el Projecte
Pas 2: Crear una Instància de Cloud Data Fusion
# Crear una instància de Cloud Data Fusion gcloud data-fusion instances create my-data-fusion-instance --location=us-central1
Pas 3: Dissenyar el Pipeline
- Afegir un Connector de Cloud Storage: Arrossega el connector de Cloud Storage i configura'l amb els detalls del teu bucket.
- Afegir una Transformació: Arrossega una transformació (per exemple, "Filter") i configura-la per filtrar les dades necessàries.
- Afegir un Connector de BigQuery: Arrossega el connector de BigQuery i configura'l amb els detalls del teu dataset i taula.
Pas 4: Executar el Pipeline
- Validar el Pipeline: Fes clic a "Validar" per assegurar-te que tot està configurat correctament.
- Executar el Pipeline: Fes clic a "Executar" per iniciar el pipeline.
Exercici Pràctic
Exercici: Crear un Pipeline per Migrar Dades de Cloud SQL a BigQuery
Requisits
- Un compte de GCP amb accés a Cloud SQL i BigQuery.
- Una instància de Cloud SQL amb una base de dades i taula de mostra.
- Un dataset de BigQuery on es migraran les dades.
Passos
- Configurar el Projecte: Activa l'API de Cloud Data Fusion i crea una instància.
- Dissenyar el Pipeline:
- Afegir un connector de Cloud SQL.
- Afegir una transformació per netejar les dades.
- Afegir un connector de BigQuery.
- Executar el Pipeline: Valida i executa el pipeline.
Solució
# Activar l'API de Cloud Data Fusion gcloud services enable datafusion.googleapis.com # Crear una instància de Cloud Data Fusion gcloud data-fusion instances create my-data-fusion-instance --location=us-central1
- Afegir un Connector de Cloud SQL: Configura'l amb els detalls de la teva instància de Cloud SQL.
- Afegir una Transformació: Per exemple, una transformació "Filter" per eliminar registres no desitjats.
- Afegir un Connector de BigQuery: Configura'l amb els detalls del teu dataset i taula de BigQuery.
Resum
En aquesta secció, hem après què és Cloud Data Fusion, les seves característiques principals i com crear un pipeline de dades. Hem vist un exemple pràctic d'integració de dades de Cloud Storage a BigQuery i hem realitzat un exercici pràctic per migrar dades de Cloud SQL a BigQuery. Amb aquestes habilitats, estàs preparat per començar a utilitzar Cloud Data Fusion per a les teves necessitats d'integració de dades.
Curs de Google Cloud Platform (GCP)
Mòdul 1: Introducció a Google Cloud Platform
- Què és Google Cloud Platform?
- Configurar el teu compte de GCP
- Visió general de la consola de GCP
- Comprendre projectes i facturació
Mòdul 2: Serveis bàsics de GCP
Mòdul 3: Xarxes i seguretat
Mòdul 4: Dades i analítica
Mòdul 5: Aprenentatge automàtic i IA
Mòdul 6: DevOps i monitoratge
- Cloud Build
- Repositoris de codi font al núvol
- Funcions al núvol
- Monitoratge de Stackdriver
- Gestor de desplegament al núvol
Mòdul 7: Temes avançats de GCP
- Híbrid i multi-núvol amb Anthos
- Computació sense servidor amb Cloud Run
- Xarxes avançades
- Millors pràctiques de seguretat
- Gestió i optimització de costos