En aquest tema, aprendrem com carregar dades a BigQuery des de diferents fonts. BigQuery ofereix diverses opcions per carregar dades, incloent fitxers locals, Google Cloud Storage, Google Drive, i altres fonts de dades. A més, veurem com preparar les dades abans de carregar-les i com gestionar els errors que puguin sorgir durant el procés de càrrega.
Objectius d'aprenentatge
- Comprendre les diferents opcions per carregar dades a BigQuery.
- Aprendre a carregar dades des de fitxers locals i Google Cloud Storage.
- Conèixer les millors pràctiques per preparar les dades abans de carregar-les.
- Gestionar errors comuns durant el procés de càrrega.
Opcions per carregar dades a BigQuery
BigQuery permet carregar dades des de diverses fonts. Les opcions més comunes són:
- Fitxers locals: Carregar dades des del teu ordinador.
- Google Cloud Storage (GCS): Carregar dades des d'un bucket de GCS.
- Google Drive: Carregar dades des d'un document de Google Drive.
- Altres fonts: Carregar dades des de fonts com Google Sheets, bases de dades externes, etc.
Carregar dades des de fitxers locals
Pas 1: Preparar el fitxer
Abans de carregar el fitxer, assegura't que estigui en un format compatible amb BigQuery. Els formats més comuns són CSV, JSON, Avro, Parquet, i ORC.
Pas 2: Utilitzar la consola de BigQuery
- A la consola de BigQuery, selecciona el projecte i el conjunt de dades on vols carregar les dades.
- Fes clic a "Create table" (Crear taula).
- A la secció "Source", selecciona "Upload" (Carregar).
- Fes clic a "Browse" (Navegar) i selecciona el fitxer local que vols carregar.
- A la secció "Destination", especifica el nom de la taula on es carregaran les dades.
- A la secció "Schema", pots definir l'esquema manualment o permetre que BigQuery l'infereixi automàticament.
- Fes clic a "Create table" (Crear taula) per iniciar la càrrega.
Exemple de codi
També pots utilitzar la línia de comandes de gcloud per carregar dades des de fitxers locals:
Carregar dades des de Google Cloud Storage
Pas 1: Preparar el fitxer
Assegura't que el fitxer estigui en un format compatible i puja'l a un bucket de Google Cloud Storage.
Pas 2: Utilitzar la consola de BigQuery
- A la consola de BigQuery, selecciona el projecte i el conjunt de dades on vols carregar les dades.
- Fes clic a "Create table" (Crear taula).
- A la secció "Source", selecciona "Google Cloud Storage".
- Introdueix el camí del fitxer al bucket de GCS (per exemple,
gs://mybucket/myfile.csv
). - A la secció "Destination", especifica el nom de la taula on es carregaran les dades.
- A la secció "Schema", pots definir l'esquema manualment o permetre que BigQuery l'infereixi automàticament.
- Fes clic a "Create table" (Crear taula) per iniciar la càrrega.
Exemple de codi
També pots utilitzar la línia de comandes de gcloud per carregar dades des de GCS:
Millors pràctiques per preparar les dades
- Neteja de dades: Assegura't que les dades no continguin valors nuls o errors que puguin interrompre el procés de càrrega.
- Esquema: Defineix un esquema clar per a les teves dades, especificant els tipus de dades correctes per a cada columna.
- Particionament: Si treballes amb grans volums de dades, considera particionar les dades per millorar el rendiment de les consultes.
Gestionar errors comuns
Error de format
Si el fitxer no està en el format correcte, BigQuery pot generar errors durant la càrrega. Assegura't que el fitxer estigui en un dels formats compatibles (CSV, JSON, Avro, Parquet, ORC).
Error d'esquema
Si l'esquema del fitxer no coincideix amb l'esquema de la taula, es produirà un error. Revisa l'esquema i assegura't que les columnes i els tipus de dades coincideixin.
Error de permisos
Assegura't que tens els permisos necessaris per accedir al bucket de GCS o al fitxer de Google Drive. També necessites permisos per crear taules i carregar dades a BigQuery.
Exercici pràctic
Exercici 1: Carregar un fitxer CSV des de Google Cloud Storage
- Crea un bucket a Google Cloud Storage i puja un fitxer CSV amb dades de mostra.
- Utilitza la consola de BigQuery per carregar el fitxer CSV a una nova taula.
- Defineix l'esquema manualment durant el procés de càrrega.
- Executa una consulta SQL bàsica per verificar que les dades s'han carregat correctament.
Solució
- Crea un bucket a GCS i puja el fitxer
sample.csv
. - A la consola de BigQuery, selecciona el projecte i el conjunt de dades.
- Fes clic a "Create table" (Crear taula).
- A la secció "Source", selecciona "Google Cloud Storage" i introdueix el camí
gs://your-bucket/sample.csv
. - A la secció "Destination", especifica el nom de la taula
mydataset.sample_table
. - A la secció "Schema", defineix l'esquema manualment.
- Fes clic a "Create table" (Crear taula).
- Executa la consulta següent per verificar les dades:
Resum
En aquest tema, hem après com carregar dades a BigQuery des de diferents fonts, incloent fitxers locals i Google Cloud Storage. Hem vist com preparar les dades abans de carregar-les i com gestionar errors comuns durant el procés de càrrega. A més, hem realitzat un exercici pràctic per reforçar els conceptes apresos. En el proper tema, explorarem com exportar dades de BigQuery.
Curs de BigQuery
Mòdul 1: Introducció a BigQuery
- Què és BigQuery?
- Configurar el teu entorn de BigQuery
- Comprendre l'arquitectura de BigQuery
- Visió general de la consola de BigQuery
Mòdul 2: SQL bàsic a BigQuery
Mòdul 3: SQL intermedi a BigQuery
Mòdul 4: SQL avançat a BigQuery
- Unions avançades
- Camps niats i repetits
- Funcions definides per l'usuari (UDFs)
- Particionament i agrupament
Mòdul 5: Gestió de dades a BigQuery
- Carregar dades a BigQuery
- Exportar dades de BigQuery
- Transformació i neteja de dades
- Gestió de conjunts de dades i taules
Mòdul 6: Optimització del rendiment de BigQuery
- Tècniques d'optimització de consultes
- Comprendre els plans d'execució de consultes
- Ús de vistes materialitzades
- Optimització de l'emmagatzematge
Mòdul 7: Seguretat i compliment de BigQuery
Mòdul 8: Integració i automatització de BigQuery
- Integració amb serveis de Google Cloud
- Ús de BigQuery amb Dataflow
- Automatització de fluxos de treball amb Cloud Functions
- Programació de consultes amb Cloud Scheduler
Mòdul 9: Aprenentatge automàtic a BigQuery (BQML)
- Introducció a BigQuery ML
- Creació i entrenament de models
- Avaluació i predicció amb models
- Funcions avançades de BQML