Introducció a BigQuery
BigQuery és un servei d'anàlisi de dades completament gestionat i sense servidor que permet processar grans volums de dades de manera ràpida i eficient. És ideal per a l'anàlisi de dades a gran escala, ja que pot gestionar terabytes i petabytes de dades amb facilitat.
Objectius d'aquest tema:
- Comprendre què és BigQuery i les seves característiques principals.
- Aprendre a crear i gestionar datasets i taules a BigQuery.
- Escriure i executar consultes SQL a BigQuery.
- Utilitzar funcions avançades com les taules particionades i les taules materialitzades.
Característiques principals de BigQuery
- Sense servidor: No cal gestionar cap infraestructura; Google s'encarrega de tot.
- Escalabilitat: Pot gestionar des de gigabytes fins a petabytes de dades.
- SQL estàndard: Utilitza SQL estàndard per a les consultes, facilitant la transició per a aquells que ja coneixen SQL.
- Integració: Es pot integrar fàcilment amb altres serveis de GCP com Cloud Storage, Dataflow, Dataproc, etc.
- Seguretat: Ofereix controls d'accés granulars i encriptació de dades.
Crear i gestionar datasets i taules
Crear un dataset
Un dataset és una col·lecció de taules. Per crear un dataset:
- Aneu a la consola de GCP.
- Seleccioneu el projecte on voleu crear el dataset.
- A la barra lateral, seleccioneu "BigQuery".
- Feu clic a "Crea un dataset".
- Introduïu un nom per al dataset i configureu les opcions necessàries (ubicació, caducitat, etc.).
- Feu clic a "Crea".
Crear una taula
Un cop tingueu un dataset, podeu crear taules dins d'aquest:
- Seleccioneu el dataset on voleu crear la taula.
- Feu clic a "Crea una taula".
- Seleccioneu la font de dades (p. ex., un fitxer CSV a Cloud Storage).
- Configureu l'esquema de la taula (noms de columnes, tipus de dades, etc.).
- Feu clic a "Crea".
Escriure i executar consultes SQL
BigQuery utilitza SQL estàndard per a les consultes. Aquí teniu un exemple bàsic:
Explicació del codi:
SELECT name, age
: Selecciona les columnesname
iage
.FROM project_id.dataset_id.table_id
: Indica la taula de la qual es volen obtenir les dades.WHERE age > 30
: Filtra les files on l'edat és superior a 30.ORDER BY age DESC
: Ordena els resultats per edat de manera descendent.
Funcions avançades
Taules particionades
Les taules particionades permeten dividir les dades en segments més petits, millorant el rendiment de les consultes. Podeu particionar una taula per una columna de data o timestamp.
Taules materialitzades
Les taules materialitzades són consultes precomputades que es guarden com a taules. Això pot millorar significativament el rendiment de les consultes que es fan sovint.
Exercicis pràctics
Exercici 1: Crear un dataset i una taula
- Creeu un dataset anomenat
my_dataset
. - Dins d'aquest dataset, creeu una taula anomenada
employees
amb les següents columnes:employee_id
(INTEGER)name
(STRING)age
(INTEGER)department
(STRING)
Exercici 2: Escriure una consulta SQL
Escriviu una consulta per obtenir els noms i edats dels empleats del departament de "Sales" que tenen més de 25 anys, ordenats per edat de manera ascendent.
SELECT name, age FROM `project_id.my_dataset.employees` WHERE department = 'Sales' AND age > 25 ORDER BY age ASC;
Solucions
Solució a l'Exercici 1
- Aneu a la consola de GCP.
- Seleccioneu el projecte.
- Aneu a BigQuery.
- Creeu un dataset anomenat
my_dataset
. - Dins d'aquest dataset, creeu una taula anomenada
employees
amb les columnes especificades.
Solució a l'Exercici 2
SELECT name, age FROM `project_id.my_dataset.employees` WHERE department = 'Sales' AND age > 25 ORDER BY age ASC;
Resum
En aquest tema, hem après què és BigQuery i les seves característiques principals. Hem vist com crear i gestionar datasets i taules, com escriure i executar consultes SQL, i hem explorat funcions avançades com les taules particionades i les taules materialitzades. A més, hem practicat aquests conceptes amb exercicis pràctics. Ara estem preparats per aprofundir en altres serveis de dades i analítica a GCP.
Curs de Google Cloud Platform (GCP)
Mòdul 1: Introducció a Google Cloud Platform
- Què és Google Cloud Platform?
- Configurar el teu compte de GCP
- Visió general de la consola de GCP
- Comprendre projectes i facturació
Mòdul 2: Serveis bàsics de GCP
Mòdul 3: Xarxes i seguretat
Mòdul 4: Dades i analítica
Mòdul 5: Aprenentatge automàtic i IA
Mòdul 6: DevOps i monitoratge
- Cloud Build
- Repositoris de codi font al núvol
- Funcions al núvol
- Monitoratge de Stackdriver
- Gestor de desplegament al núvol
Mòdul 7: Temes avançats de GCP
- Híbrid i multi-núvol amb Anthos
- Computació sense servidor amb Cloud Run
- Xarxes avançades
- Millors pràctiques de seguretat
- Gestió i optimització de costos