Introducció
L'API de visió de Google Cloud Platform (GCP) proporciona eines potents per analitzar imatges i extreure informació útil. Aquesta API permet als desenvolupadors integrar fàcilment capacitats de visió per ordinador en les seves aplicacions, com ara el reconeixement d'objectes, la detecció de cares, la lectura de text (OCR) i molt més.
Objectius d'aprenentatge
En aquest tema, aprendràs a:
- Comprendre les capacitats de l'API de visió.
- Configurar l'API de visió al teu projecte de GCP.
- Utilitzar l'API per analitzar imatges.
- Implementar exemples pràctics d'ús de l'API de visió.
Capacitats de l'API de visió
L'API de visió ofereix diverses funcionalitats clau:
- Detecció d'etiquetes: Identifica objectes, llocs, activitats i molt més dins d'una imatge.
- Detecció de cares: Localitza i analitza cares humanes en una imatge.
- Reconèixer text (OCR): Extreu text de les imatges.
- Detecció de punts de referència: Identifica llocs famosos i punts de referència.
- Classificació d'imatges: Classifica imatges en categories predefinides.
- Detecció de logotips: Identifica logotips de marques dins d'una imatge.
Configuració de l'API de visió
Pas 1: Crear un projecte a GCP
- Accedeix a la Consola de Google Cloud.
- Crea un nou projecte o selecciona un projecte existent.
Pas 2: Activar l'API de visió
- A la consola de GCP, ves a "API & Services" > "Library".
- Cerca "Vision API" i fes clic a "Enable".
Pas 3: Configurar les credencials
- Ves a "API & Services" > "Credentials".
- Crea una nova clau d'API o utilitza una clau existent.
- Desa la clau d'API en un lloc segur, ja que la necessitaràs per fer sol·licituds a l'API.
Utilitzar l'API de visió
Exemple pràctic: Detecció d'etiquetes
A continuació, es mostra un exemple de com utilitzar l'API de visió per detectar etiquetes en una imatge utilitzant Python.
Instal·lació de la biblioteca client de Google Cloud
Codi d'exemple
from google.cloud import vision import io def detect_labels(path): """Detecta etiquetes en una imatge.""" client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.label_detection(image=image) labels = response.label_annotations print('Etiquetes detectades:') for label in labels: print(label.description) # Ruta a la imatge local image_path = 'ruta/a/la/teva/imatge.jpg' detect_labels(image_path)
Explicació del codi
- Importar la biblioteca: Importem la biblioteca
google.cloud.vision
per accedir a les funcionalitats de l'API de visió. - Crear un client: Creem un client de
ImageAnnotatorClient
per interactuar amb l'API. - Llegir la imatge: Obrim la imatge en mode binari i llegim el seu contingut.
- Crear un objecte d'imatge: Creem un objecte
Image
amb el contingut de la imatge. - Detectar etiquetes: Utilitzem el mètode
label_detection
per detectar etiquetes a la imatge. - Mostrar resultats: Iterem sobre les etiquetes detectades i les imprimim.
Exercici pràctic
Exercici 1: Detecció de text (OCR)
Utilitza l'API de visió per extreure text d'una imatge que contingui text escrit.
Pistes:
- Utilitza el mètode
text_detection
en lloc delabel_detection
. - Prova amb una imatge que contingui text clar i llegible.
Solució
from google.cloud import vision import io def detect_text(path): """Detecta text en una imatge.""" client = vision.ImageAnnotatorClient() with io.open(path, 'rb') as image_file: content = image_file.read() image = vision.Image(content=content) response = client.text_detection(image=image) texts = response.text_annotations print('Text detectat:') for text in texts: print(text.description) # Ruta a la imatge local image_path = 'ruta/a/la/teva/imatge_amb_text.jpg' detect_text(image_path)
Errors comuns i consells
- Error de credencials: Assegura't que la clau d'API és correcta i que l'API de visió està activada al teu projecte.
- Imatge no llegible: Verifica que la ruta de la imatge és correcta i que la imatge és accessible.
- Quota excedida: L'API de visió té límits d'ús gratuït. Si excedeixes aquests límits, hauràs de configurar la facturació al teu compte de GCP.
Resum
En aquest tema, hem après a:
- Comprendre les capacitats de l'API de visió de GCP.
- Configurar l'API de visió al nostre projecte de GCP.
- Utilitzar l'API per detectar etiquetes i text en imatges.
- Implementar exemples pràctics amb Python.
Amb aquests coneixements, estàs preparat per integrar capacitats de visió per ordinador a les teves aplicacions utilitzant l'API de visió de GCP.
Curs de Google Cloud Platform (GCP)
Mòdul 1: Introducció a Google Cloud Platform
- Què és Google Cloud Platform?
- Configurar el teu compte de GCP
- Visió general de la consola de GCP
- Comprendre projectes i facturació
Mòdul 2: Serveis bàsics de GCP
Mòdul 3: Xarxes i seguretat
Mòdul 4: Dades i analítica
Mòdul 5: Aprenentatge automàtic i IA
Mòdul 6: DevOps i monitoratge
- Cloud Build
- Repositoris de codi font al núvol
- Funcions al núvol
- Monitoratge de Stackdriver
- Gestor de desplegament al núvol
Mòdul 7: Temes avançats de GCP
- Híbrid i multi-núvol amb Anthos
- Computació sense servidor amb Cloud Run
- Xarxes avançades
- Millors pràctiques de seguretat
- Gestió i optimització de costos