El Projecte | Sobre nosaltres | Contribuir | Donacions | Llicència

HOME

En aquest tema, aprendrem com configurar i executar Apache Spark a Google Cloud Platform (GCP). Google Cloud ofereix diverses eines i serveis que faciliten la implementació i gestió de Spark, com ara Google Cloud Dataproc, un servei gestionat per executar clústers de Spark i Hadoop.

Objectius del Tema

Entendre els conceptes bàsics de Google Cloud Platform.
Configurar un projecte a Google Cloud.
Crear i gestionar clústers de Spark utilitzant Google Cloud Dataproc.
Executar treballs de Spark en un clúster de Dataproc.

Introducció a Google Cloud Platform (GCP)

Google Cloud Platform és una suite de serveis de computació en núvol que s'executen en la mateixa infraestructura que Google utilitza internament per als seus productes d'usuari final, com ara Google Search i YouTube.

Conceptes Clau

Projectes: Un projecte és una entitat organitzativa dins de GCP que conté tots els recursos de Google Cloud.
Clústers: Un clúster és un conjunt de màquines virtuals que treballen juntes per executar aplicacions distribuïdes com Spark.
Google Cloud Dataproc: Un servei gestionat que facilita la creació, configuració i gestió de clústers de Spark i Hadoop.

Configuració del Projecte a Google Cloud

Abans de crear un clúster de Dataproc, necessitem configurar un projecte a Google Cloud.

Passos per Configurar el Projecte

Crear un Compte de Google Cloud:
- Registra't a Google Cloud.
- Inicia sessió amb el teu compte de Google.
Crear un Nou Projecte:
- A la consola de Google Cloud, fes clic a "Select a project" i després a "New Project".
- Assigna un nom al projecte i fes clic a "Create".
Activar l'API de Dataproc:
- A la consola de Google Cloud, ves a "APIs & Services" > "Library".
- Cerca "Dataproc" i fes clic a "Enable".
Configurar la Facturació:
- Assegura't que la facturació estigui configurada per al teu projecte. Això és necessari per utilitzar els serveis de Google Cloud.

Crear un Clúster de Spark amb Google Cloud Dataproc

Un cop el projecte està configurat, podem crear un clúster de Dataproc per executar Spark.

Passos per Crear un Clúster

Accedir a Dataproc:
- A la consola de Google Cloud, ves a "Dataproc" > "Clusters".
Crear un Nou Clúster:
- Fes clic a "Create Cluster".
- Assigna un nom al clúster.
- Selecciona la regió i la zona on vols crear el clúster.
- Configura les màquines virtuals (tipus de màquina, nombre de nodes, etc.).
Configurar les Opcions de Spark:
- A la secció "Advanced options", pots configurar opcions específiques de Spark, com ara la versió de Spark, opcions de configuració, etc.
Crear el Clúster:
- Fes clic a "Create" per crear el clúster. Aquest procés pot trigar uns minuts.

Executar Treballs de Spark en un Clúster de Dataproc

Un cop el clúster està creat, podem executar treballs de Spark.

Passos per Executar un Treball de Spark

Accedir a la Consola de Dataproc:
- A la consola de Google Cloud, ves a "Dataproc" > "Jobs".
Crear un Nou Treball:
- Fes clic a "Submit Job".
- Selecciona el clúster on vols executar el treball.
- Selecciona el tipus de treball (per exemple, Spark).
- Proporciona els detalls del treball, com ara el camí al fitxer JAR o script de Python, arguments, etc.
Executar el Treball:
- Fes clic a "Submit" per executar el treball. Pots veure l'estat del treball a la consola de Dataproc.

Exemple de Codi Spark

A continuació, es mostra un exemple d'un script de Python per a Spark que compta les paraules en un fitxer de text:

from pyspark import SparkContext, SparkConf

# Configuració de Spark
conf = SparkConf().setAppName("WordCount")
sc = SparkContext(conf=conf)

# Carregar el fitxer de text
text_file = sc.textFile("gs://path-to-your-bucket/input.txt")

# Comptar les paraules
counts = text_file.flatMap(lambda line: line.split(" ")) \
                  .map(lambda word: (word, 1)) \
                  .reduceByKey(lambda a, b: a + b)

# Desar el resultat
counts.saveAsTextFile("gs://path-to-your-bucket/output")

Exercici Pràctic

Objectiu

Crear un clúster de Dataproc i executar un treball de Spark que compti les paraules en un fitxer de text emmagatzemat a Google Cloud Storage.

Passos

Configura un projecte a Google Cloud.
Crea un clúster de Dataproc.
Carrega un fitxer de text a Google Cloud Storage.
Executa l'exemple de codi Spark proporcionat anteriorment.

Solució

Segueix els passos detallats en les seccions anteriors per completar l'exercici.

Conclusió

En aquest tema, hem après com configurar i executar Apache Spark a Google Cloud utilitzant Google Cloud Dataproc. Hem cobert des de la configuració del projecte fins a la creació de clústers i l'execució de treballs de Spark. Amb aquests coneixements, estàs preparat per aprofitar la potència de Google Cloud per a les teves aplicacions de Spark.

Executar Spark a Google Cloud

Objectius del Tema

Introducció a Google Cloud Platform (GCP)

Conceptes Clau

Configuració del Projecte a Google Cloud

Passos per Configurar el Projecte

Crear un Clúster de Spark amb Google Cloud Dataproc

Passos per Crear un Clúster

Executar Treballs de Spark en un Clúster de Dataproc

Passos per Executar un Treball de Spark

Exemple de Codi Spark

Exercici Pràctic

Objectiu

Passos

Solució

Conclusió

Curs d'Apache Spark

Mòdul 1: Introducció a Apache Spark

Mòdul 2: Conceptes Bàsics de Spark

Mòdul 3: Processament de Dades amb Spark

Mòdul 4: Programació Avançada amb Spark

Mòdul 5: Optimització i Millora del Rendiment

Mòdul 6: Spark al Núvol

Mòdul 7: Aplicacions del Món Real i Estudis de Cas

Mòdul 8: Projecte Final