En aquest tema, aprendrem com carregar dades a BigQuery des de diferents fonts. BigQuery ofereix diverses opcions per carregar dades, incloent fitxers locals, Google Cloud Storage, Google Drive, i altres fonts de dades. A més, veurem com preparar les dades abans de carregar-les i com gestionar els errors que puguin sorgir durant el procés de càrrega.

Objectius d'aprenentatge

  • Comprendre les diferents opcions per carregar dades a BigQuery.
  • Aprendre a carregar dades des de fitxers locals i Google Cloud Storage.
  • Conèixer les millors pràctiques per preparar les dades abans de carregar-les.
  • Gestionar errors comuns durant el procés de càrrega.

Opcions per carregar dades a BigQuery

BigQuery permet carregar dades des de diverses fonts. Les opcions més comunes són:

  1. Fitxers locals: Carregar dades des del teu ordinador.
  2. Google Cloud Storage (GCS): Carregar dades des d'un bucket de GCS.
  3. Google Drive: Carregar dades des d'un document de Google Drive.
  4. Altres fonts: Carregar dades des de fonts com Google Sheets, bases de dades externes, etc.

Carregar dades des de fitxers locals

Pas 1: Preparar el fitxer

Abans de carregar el fitxer, assegura't que estigui en un format compatible amb BigQuery. Els formats més comuns són CSV, JSON, Avro, Parquet, i ORC.

Pas 2: Utilitzar la consola de BigQuery

  1. A la consola de BigQuery, selecciona el projecte i el conjunt de dades on vols carregar les dades.
  2. Fes clic a "Create table" (Crear taula).
  3. A la secció "Source", selecciona "Upload" (Carregar).
  4. Fes clic a "Browse" (Navegar) i selecciona el fitxer local que vols carregar.
  5. A la secció "Destination", especifica el nom de la taula on es carregaran les dades.
  6. A la secció "Schema", pots definir l'esquema manualment o permetre que BigQuery l'infereixi automàticament.
  7. Fes clic a "Create table" (Crear taula) per iniciar la càrrega.

Exemple de codi

També pots utilitzar la línia de comandes de gcloud per carregar dades des de fitxers locals:

bq load --source_format=CSV mydataset.mytable ./myfile.csv

Carregar dades des de Google Cloud Storage

Pas 1: Preparar el fitxer

Assegura't que el fitxer estigui en un format compatible i puja'l a un bucket de Google Cloud Storage.

Pas 2: Utilitzar la consola de BigQuery

  1. A la consola de BigQuery, selecciona el projecte i el conjunt de dades on vols carregar les dades.
  2. Fes clic a "Create table" (Crear taula).
  3. A la secció "Source", selecciona "Google Cloud Storage".
  4. Introdueix el camí del fitxer al bucket de GCS (per exemple, gs://mybucket/myfile.csv).
  5. A la secció "Destination", especifica el nom de la taula on es carregaran les dades.
  6. A la secció "Schema", pots definir l'esquema manualment o permetre que BigQuery l'infereixi automàticament.
  7. Fes clic a "Create table" (Crear taula) per iniciar la càrrega.

Exemple de codi

També pots utilitzar la línia de comandes de gcloud per carregar dades des de GCS:

bq load --source_format=CSV mydataset.mytable gs://mybucket/myfile.csv

Millors pràctiques per preparar les dades

  • Neteja de dades: Assegura't que les dades no continguin valors nuls o errors que puguin interrompre el procés de càrrega.
  • Esquema: Defineix un esquema clar per a les teves dades, especificant els tipus de dades correctes per a cada columna.
  • Particionament: Si treballes amb grans volums de dades, considera particionar les dades per millorar el rendiment de les consultes.

Gestionar errors comuns

Error de format

Si el fitxer no està en el format correcte, BigQuery pot generar errors durant la càrrega. Assegura't que el fitxer estigui en un dels formats compatibles (CSV, JSON, Avro, Parquet, ORC).

Error d'esquema

Si l'esquema del fitxer no coincideix amb l'esquema de la taula, es produirà un error. Revisa l'esquema i assegura't que les columnes i els tipus de dades coincideixin.

Error de permisos

Assegura't que tens els permisos necessaris per accedir al bucket de GCS o al fitxer de Google Drive. També necessites permisos per crear taules i carregar dades a BigQuery.

Exercici pràctic

Exercici 1: Carregar un fitxer CSV des de Google Cloud Storage

  1. Crea un bucket a Google Cloud Storage i puja un fitxer CSV amb dades de mostra.
  2. Utilitza la consola de BigQuery per carregar el fitxer CSV a una nova taula.
  3. Defineix l'esquema manualment durant el procés de càrrega.
  4. Executa una consulta SQL bàsica per verificar que les dades s'han carregat correctament.

Solució

  1. Crea un bucket a GCS i puja el fitxer sample.csv.
  2. A la consola de BigQuery, selecciona el projecte i el conjunt de dades.
  3. Fes clic a "Create table" (Crear taula).
  4. A la secció "Source", selecciona "Google Cloud Storage" i introdueix el camí gs://your-bucket/sample.csv.
  5. A la secció "Destination", especifica el nom de la taula mydataset.sample_table.
  6. A la secció "Schema", defineix l'esquema manualment.
  7. Fes clic a "Create table" (Crear taula).
  8. Executa la consulta següent per verificar les dades:
SELECT * FROM mydataset.sample_table LIMIT 10;

Resum

En aquest tema, hem après com carregar dades a BigQuery des de diferents fonts, incloent fitxers locals i Google Cloud Storage. Hem vist com preparar les dades abans de carregar-les i com gestionar errors comuns durant el procés de càrrega. A més, hem realitzat un exercici pràctic per reforçar els conceptes apresos. En el proper tema, explorarem com exportar dades de BigQuery.

Curs de BigQuery

Mòdul 1: Introducció a BigQuery

Mòdul 2: SQL bàsic a BigQuery

Mòdul 3: SQL intermedi a BigQuery

Mòdul 4: SQL avançat a BigQuery

Mòdul 5: Gestió de dades a BigQuery

Mòdul 6: Optimització del rendiment de BigQuery

Mòdul 7: Seguretat i compliment de BigQuery

Mòdul 8: Integració i automatització de BigQuery

Mòdul 9: Aprenentatge automàtic a BigQuery (BQML)

Mòdul 10: Casos d'ús de BigQuery en el món real

© Copyright 2024. Tots els drets reservats