Introducció a BigQuery

BigQuery és un servei d'anàlisi de dades completament gestionat i sense servidor que permet processar grans volums de dades de manera ràpida i eficient. És ideal per a l'anàlisi de dades a gran escala, ja que pot gestionar terabytes i petabytes de dades amb facilitat.

Objectius d'aquest tema:

  1. Comprendre què és BigQuery i les seves característiques principals.
  2. Aprendre a crear i gestionar datasets i taules a BigQuery.
  3. Escriure i executar consultes SQL a BigQuery.
  4. Utilitzar funcions avançades com les taules particionades i les taules materialitzades.

Característiques principals de BigQuery

  • Sense servidor: No cal gestionar cap infraestructura; Google s'encarrega de tot.
  • Escalabilitat: Pot gestionar des de gigabytes fins a petabytes de dades.
  • SQL estàndard: Utilitza SQL estàndard per a les consultes, facilitant la transició per a aquells que ja coneixen SQL.
  • Integració: Es pot integrar fàcilment amb altres serveis de GCP com Cloud Storage, Dataflow, Dataproc, etc.
  • Seguretat: Ofereix controls d'accés granulars i encriptació de dades.

Crear i gestionar datasets i taules

Crear un dataset

Un dataset és una col·lecció de taules. Per crear un dataset:

  1. Aneu a la consola de GCP.
  2. Seleccioneu el projecte on voleu crear el dataset.
  3. A la barra lateral, seleccioneu "BigQuery".
  4. Feu clic a "Crea un dataset".
  5. Introduïu un nom per al dataset i configureu les opcions necessàries (ubicació, caducitat, etc.).
  6. Feu clic a "Crea".

Crear una taula

Un cop tingueu un dataset, podeu crear taules dins d'aquest:

  1. Seleccioneu el dataset on voleu crear la taula.
  2. Feu clic a "Crea una taula".
  3. Seleccioneu la font de dades (p. ex., un fitxer CSV a Cloud Storage).
  4. Configureu l'esquema de la taula (noms de columnes, tipus de dades, etc.).
  5. Feu clic a "Crea".

Escriure i executar consultes SQL

BigQuery utilitza SQL estàndard per a les consultes. Aquí teniu un exemple bàsic:

SELECT name, age
FROM `project_id.dataset_id.table_id`
WHERE age > 30
ORDER BY age DESC;

Explicació del codi:

  • SELECT name, age: Selecciona les columnes name i age.
  • FROM project_id.dataset_id.table_id: Indica la taula de la qual es volen obtenir les dades.
  • WHERE age > 30: Filtra les files on l'edat és superior a 30.
  • ORDER BY age DESC: Ordena els resultats per edat de manera descendent.

Funcions avançades

Taules particionades

Les taules particionades permeten dividir les dades en segments més petits, millorant el rendiment de les consultes. Podeu particionar una taula per una columna de data o timestamp.

Taules materialitzades

Les taules materialitzades són consultes precomputades que es guarden com a taules. Això pot millorar significativament el rendiment de les consultes que es fan sovint.

Exercicis pràctics

Exercici 1: Crear un dataset i una taula

  1. Creeu un dataset anomenat my_dataset.
  2. Dins d'aquest dataset, creeu una taula anomenada employees amb les següents columnes:
    • employee_id (INTEGER)
    • name (STRING)
    • age (INTEGER)
    • department (STRING)

Exercici 2: Escriure una consulta SQL

Escriviu una consulta per obtenir els noms i edats dels empleats del departament de "Sales" que tenen més de 25 anys, ordenats per edat de manera ascendent.

SELECT name, age
FROM `project_id.my_dataset.employees`
WHERE department = 'Sales' AND age > 25
ORDER BY age ASC;

Solucions

Solució a l'Exercici 1

  1. Aneu a la consola de GCP.
  2. Seleccioneu el projecte.
  3. Aneu a BigQuery.
  4. Creeu un dataset anomenat my_dataset.
  5. Dins d'aquest dataset, creeu una taula anomenada employees amb les columnes especificades.

Solució a l'Exercici 2

SELECT name, age
FROM `project_id.my_dataset.employees`
WHERE department = 'Sales' AND age > 25
ORDER BY age ASC;

Resum

En aquest tema, hem après què és BigQuery i les seves característiques principals. Hem vist com crear i gestionar datasets i taules, com escriure i executar consultes SQL, i hem explorat funcions avançades com les taules particionades i les taules materialitzades. A més, hem practicat aquests conceptes amb exercicis pràctics. Ara estem preparats per aprofundir en altres serveis de dades i analítica a GCP.

© Copyright 2024. Tots els drets reservats