Introducció

L'API de visió de Google Cloud Platform (GCP) proporciona eines potents per analitzar imatges i extreure informació útil. Aquesta API permet als desenvolupadors integrar fàcilment capacitats de visió per ordinador en les seves aplicacions, com ara el reconeixement d'objectes, la detecció de cares, la lectura de text (OCR) i molt més.

Objectius d'aprenentatge

En aquest tema, aprendràs a:

  1. Comprendre les capacitats de l'API de visió.
  2. Configurar l'API de visió al teu projecte de GCP.
  3. Utilitzar l'API per analitzar imatges.
  4. Implementar exemples pràctics d'ús de l'API de visió.

Capacitats de l'API de visió

L'API de visió ofereix diverses funcionalitats clau:

  • Detecció d'etiquetes: Identifica objectes, llocs, activitats i molt més dins d'una imatge.
  • Detecció de cares: Localitza i analitza cares humanes en una imatge.
  • Reconèixer text (OCR): Extreu text de les imatges.
  • Detecció de punts de referència: Identifica llocs famosos i punts de referència.
  • Classificació d'imatges: Classifica imatges en categories predefinides.
  • Detecció de logotips: Identifica logotips de marques dins d'una imatge.

Configuració de l'API de visió

Pas 1: Crear un projecte a GCP

  1. Accedeix a la Consola de Google Cloud.
  2. Crea un nou projecte o selecciona un projecte existent.

Pas 2: Activar l'API de visió

  1. A la consola de GCP, ves a "API & Services" > "Library".
  2. Cerca "Vision API" i fes clic a "Enable".

Pas 3: Configurar les credencials

  1. Ves a "API & Services" > "Credentials".
  2. Crea una nova clau d'API o utilitza una clau existent.
  3. Desa la clau d'API en un lloc segur, ja que la necessitaràs per fer sol·licituds a l'API.

Utilitzar l'API de visió

Exemple pràctic: Detecció d'etiquetes

A continuació, es mostra un exemple de com utilitzar l'API de visió per detectar etiquetes en una imatge utilitzant Python.

Instal·lació de la biblioteca client de Google Cloud

pip install google-cloud-vision

Codi d'exemple

from google.cloud import vision
import io

def detect_labels(path):
    """Detecta etiquetes en una imatge."""
    client = vision.ImageAnnotatorClient()

    with io.open(path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)
    response = client.label_detection(image=image)
    labels = response.label_annotations

    print('Etiquetes detectades:')
    for label in labels:
        print(label.description)

# Ruta a la imatge local
image_path = 'ruta/a/la/teva/imatge.jpg'
detect_labels(image_path)

Explicació del codi

  1. Importar la biblioteca: Importem la biblioteca google.cloud.vision per accedir a les funcionalitats de l'API de visió.
  2. Crear un client: Creem un client de ImageAnnotatorClient per interactuar amb l'API.
  3. Llegir la imatge: Obrim la imatge en mode binari i llegim el seu contingut.
  4. Crear un objecte d'imatge: Creem un objecte Image amb el contingut de la imatge.
  5. Detectar etiquetes: Utilitzem el mètode label_detection per detectar etiquetes a la imatge.
  6. Mostrar resultats: Iterem sobre les etiquetes detectades i les imprimim.

Exercici pràctic

Exercici 1: Detecció de text (OCR)

Utilitza l'API de visió per extreure text d'una imatge que contingui text escrit.

Pistes:

  • Utilitza el mètode text_detection en lloc de label_detection.
  • Prova amb una imatge que contingui text clar i llegible.

Solució

from google.cloud import vision
import io

def detect_text(path):
    """Detecta text en una imatge."""
    client = vision.ImageAnnotatorClient()

    with io.open(path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)
    response = client.text_detection(image=image)
    texts = response.text_annotations

    print('Text detectat:')
    for text in texts:
        print(text.description)

# Ruta a la imatge local
image_path = 'ruta/a/la/teva/imatge_amb_text.jpg'
detect_text(image_path)

Errors comuns i consells

  • Error de credencials: Assegura't que la clau d'API és correcta i que l'API de visió està activada al teu projecte.
  • Imatge no llegible: Verifica que la ruta de la imatge és correcta i que la imatge és accessible.
  • Quota excedida: L'API de visió té límits d'ús gratuït. Si excedeixes aquests límits, hauràs de configurar la facturació al teu compte de GCP.

Resum

En aquest tema, hem après a:

  • Comprendre les capacitats de l'API de visió de GCP.
  • Configurar l'API de visió al nostre projecte de GCP.
  • Utilitzar l'API per detectar etiquetes i text en imatges.
  • Implementar exemples pràctics amb Python.

Amb aquests coneixements, estàs preparat per integrar capacitats de visió per ordinador a les teves aplicacions utilitzant l'API de visió de GCP.

© Copyright 2024. Tots els drets reservats