En aquest tema, aprendrem com exportar dades des de BigQuery a diferents formats i ubicacions. Exportar dades és una tasca essencial per compartir resultats, fer còpies de seguretat o integrar dades amb altres sistemes.
Objectius d'aprenentatge
- Comprendre els diferents formats d'exportació disponibles a BigQuery.
- Aprendre a exportar dades a Google Cloud Storage.
- Conèixer les millors pràctiques per a l'exportació de dades.
Formats d'exportació disponibles
BigQuery permet exportar dades en diversos formats. Els formats més comuns són:
- CSV (Comma-Separated Values)
- JSON (JavaScript Object Notation)
- Avro
- Parquet
Comparació de formats
Format | Avantatges | Desavantatges |
---|---|---|
CSV | Fàcil de llegir i escriure, àmpliament suportat | No suporta dades complexes, pot ser gran en mida |
JSON | Suporta estructures de dades complexes | Pot ser més lent de processar, major mida de fitxer |
Avro | Eficient en emmagatzematge, suporta esquemes | Menys suportat per eines no especialitzades |
Parquet | Optimitzat per a l'emmagatzematge i la consulta | Menys suportat per eines no especialitzades |
Exportar dades a Google Cloud Storage
Pas 1: Configurar Google Cloud Storage
Abans d'exportar dades, necessitem un bucket a Google Cloud Storage (GCS) on emmagatzemar els fitxers exportats.
- Crear un bucket a GCS:
- Aneu a la consola de Google Cloud.
- Navegueu a "Storage" i feu clic a "Create bucket".
- Seguiu les instruccions per crear un bucket nou.
Pas 2: Exportar dades des de BigQuery
Exemple pràctic: Exportar dades a CSV
-
Obrir la consola de BigQuery:
- Aneu a la consola de Google Cloud i seleccioneu BigQuery.
-
Executar una consulta:
- Executeu la consulta SQL que desitgeu exportar. Per exemple:
SELECT name, age, email FROM `project_id.dataset_id.table_id` WHERE age > 30;
- Executeu la consulta SQL que desitgeu exportar. Per exemple:
-
Exportar els resultats:
- Després d'executar la consulta, feu clic a "Export" a la part superior dreta dels resultats.
- Seleccioneu "Export to Google Cloud Storage".
- Trieu el bucket i el nom del fitxer (per exemple,
gs://my-bucket/exported_data.csv
). - Seleccioneu el format de fitxer (CSV, JSON, Avro, Parquet).
- Feu clic a "Export".
Exemple pràctic: Exportar dades a JSON
-
Executar una consulta:
- Executeu la consulta SQL que desitgeu exportar. Per exemple:
SELECT name, age, email FROM `project_id.dataset_id.table_id` WHERE age > 30;
- Executeu la consulta SQL que desitgeu exportar. Per exemple:
-
Exportar els resultats:
- Després d'executar la consulta, feu clic a "Export" a la part superior dreta dels resultats.
- Seleccioneu "Export to Google Cloud Storage".
- Trieu el bucket i el nom del fitxer (per exemple,
gs://my-bucket/exported_data.json
). - Seleccioneu el format de fitxer (CSV, JSON, Avro, Parquet).
- Feu clic a "Export".
Exportar dades utilitzant la línia de comandes
També podeu utilitzar la línia de comandes de gcloud per exportar dades. Aquí teniu un exemple per exportar dades a un fitxer CSV:
bq extract --destination_format=CSV 'project_id:dataset_id.table_id' gs://my-bucket/exported_data.csv
Millors pràctiques per a l'exportació de dades
- Dividir fitxers grans: Si exporteu grans volums de dades, considereu dividir els fitxers per evitar problemes de rendiment.
- Utilitzar formats adequats: Trieu el format d'exportació que millor s'adapti a les vostres necessitats. Per exemple, utilitzeu Parquet per a grans volums de dades que necessiten ser processats ràpidament.
- Automatitzar exportacions: Utilitzeu eines com Cloud Scheduler i Cloud Functions per automatitzar les exportacions periòdiques.
Exercici pràctic
Exercici 1: Exportar dades a CSV
- Creeu una consulta SQL que seleccioni dades d'una taula de BigQuery.
- Exporteu els resultats de la consulta a un fitxer CSV a Google Cloud Storage.
Solució
-
Consulta SQL:
SELECT name, age, email FROM `project_id.dataset_id.table_id` WHERE age > 30;
-
Exportar a CSV:
- Després d'executar la consulta, feu clic a "Export".
- Seleccioneu "Export to Google Cloud Storage".
- Trieu el bucket i el nom del fitxer (per exemple,
gs://my-bucket/exported_data.csv
). - Seleccioneu el format de fitxer (CSV).
- Feu clic a "Export".
Exercici 2: Exportar dades a JSON utilitzant la línia de comandes
- Utilitzeu la línia de comandes de gcloud per exportar dades a un fitxer JSON.
Solució
bq extract --destination_format=NEWLINE_DELIMITED_JSON 'project_id:dataset_id.table_id' gs://my-bucket/exported_data.json
Conclusió
En aquest tema, hem après com exportar dades des de BigQuery a diferents formats i ubicacions, incloent Google Cloud Storage. Hem vist exemples pràctics d'exportació a CSV i JSON, i hem conegut les millors pràctiques per a l'exportació de dades. Aquestes habilitats són essencials per gestionar i compartir dades de manera eficient.
Curs de BigQuery
Mòdul 1: Introducció a BigQuery
- Què és BigQuery?
- Configurar el teu entorn de BigQuery
- Comprendre l'arquitectura de BigQuery
- Visió general de la consola de BigQuery
Mòdul 2: SQL bàsic a BigQuery
Mòdul 3: SQL intermedi a BigQuery
Mòdul 4: SQL avançat a BigQuery
- Unions avançades
- Camps niats i repetits
- Funcions definides per l'usuari (UDFs)
- Particionament i agrupament
Mòdul 5: Gestió de dades a BigQuery
- Carregar dades a BigQuery
- Exportar dades de BigQuery
- Transformació i neteja de dades
- Gestió de conjunts de dades i taules
Mòdul 6: Optimització del rendiment de BigQuery
- Tècniques d'optimització de consultes
- Comprendre els plans d'execució de consultes
- Ús de vistes materialitzades
- Optimització de l'emmagatzematge
Mòdul 7: Seguretat i compliment de BigQuery
Mòdul 8: Integració i automatització de BigQuery
- Integració amb serveis de Google Cloud
- Ús de BigQuery amb Dataflow
- Automatització de fluxos de treball amb Cloud Functions
- Programació de consultes amb Cloud Scheduler
Mòdul 9: Aprenentatge automàtic a BigQuery (BQML)
- Introducció a BigQuery ML
- Creació i entrenament de models
- Avaluació i predicció amb models
- Funcions avançades de BQML