En aquest tema, aprendrem com configurar i executar Apache Spark a Google Cloud Platform (GCP). Google Cloud ofereix diverses eines i serveis que faciliten la implementació i gestió de Spark, com ara Google Cloud Dataproc, un servei gestionat per executar clústers de Spark i Hadoop.
Objectius del Tema
- Entendre els conceptes bàsics de Google Cloud Platform.
- Configurar un projecte a Google Cloud.
- Crear i gestionar clústers de Spark utilitzant Google Cloud Dataproc.
- Executar treballs de Spark en un clúster de Dataproc.
- Introducció a Google Cloud Platform (GCP)
Google Cloud Platform és una suite de serveis de computació en núvol que s'executen en la mateixa infraestructura que Google utilitza internament per als seus productes d'usuari final, com ara Google Search i YouTube.
Conceptes Clau
- Projectes: Un projecte és una entitat organitzativa dins de GCP que conté tots els recursos de Google Cloud.
- Clústers: Un clúster és un conjunt de màquines virtuals que treballen juntes per executar aplicacions distribuïdes com Spark.
- Google Cloud Dataproc: Un servei gestionat que facilita la creació, configuració i gestió de clústers de Spark i Hadoop.
- Configuració del Projecte a Google Cloud
Abans de crear un clúster de Dataproc, necessitem configurar un projecte a Google Cloud.
Passos per Configurar el Projecte
-
Crear un Compte de Google Cloud:
- Registra't a Google Cloud.
- Inicia sessió amb el teu compte de Google.
-
Crear un Nou Projecte:
- A la consola de Google Cloud, fes clic a "Select a project" i després a "New Project".
- Assigna un nom al projecte i fes clic a "Create".
-
Activar l'API de Dataproc:
- A la consola de Google Cloud, ves a "APIs & Services" > "Library".
- Cerca "Dataproc" i fes clic a "Enable".
-
Configurar la Facturació:
- Assegura't que la facturació estigui configurada per al teu projecte. Això és necessari per utilitzar els serveis de Google Cloud.
- Crear un Clúster de Spark amb Google Cloud Dataproc
Un cop el projecte està configurat, podem crear un clúster de Dataproc per executar Spark.
Passos per Crear un Clúster
-
Accedir a Dataproc:
- A la consola de Google Cloud, ves a "Dataproc" > "Clusters".
-
Crear un Nou Clúster:
- Fes clic a "Create Cluster".
- Assigna un nom al clúster.
- Selecciona la regió i la zona on vols crear el clúster.
- Configura les màquines virtuals (tipus de màquina, nombre de nodes, etc.).
-
Configurar les Opcions de Spark:
- A la secció "Advanced options", pots configurar opcions específiques de Spark, com ara la versió de Spark, opcions de configuració, etc.
-
Crear el Clúster:
- Fes clic a "Create" per crear el clúster. Aquest procés pot trigar uns minuts.
- Executar Treballs de Spark en un Clúster de Dataproc
Un cop el clúster està creat, podem executar treballs de Spark.
Passos per Executar un Treball de Spark
-
Accedir a la Consola de Dataproc:
- A la consola de Google Cloud, ves a "Dataproc" > "Jobs".
-
Crear un Nou Treball:
- Fes clic a "Submit Job".
- Selecciona el clúster on vols executar el treball.
- Selecciona el tipus de treball (per exemple, Spark).
- Proporciona els detalls del treball, com ara el camí al fitxer JAR o script de Python, arguments, etc.
-
Executar el Treball:
- Fes clic a "Submit" per executar el treball. Pots veure l'estat del treball a la consola de Dataproc.
Exemple de Codi Spark
A continuació, es mostra un exemple d'un script de Python per a Spark que compta les paraules en un fitxer de text:
from pyspark import SparkContext, SparkConf # Configuració de Spark conf = SparkConf().setAppName("WordCount") sc = SparkContext(conf=conf) # Carregar el fitxer de text text_file = sc.textFile("gs://path-to-your-bucket/input.txt") # Comptar les paraules counts = text_file.flatMap(lambda line: line.split(" ")) \ .map(lambda word: (word, 1)) \ .reduceByKey(lambda a, b: a + b) # Desar el resultat counts.saveAsTextFile("gs://path-to-your-bucket/output")
Exercici Pràctic
Objectiu
Crear un clúster de Dataproc i executar un treball de Spark que compti les paraules en un fitxer de text emmagatzemat a Google Cloud Storage.
Passos
- Configura un projecte a Google Cloud.
- Crea un clúster de Dataproc.
- Carrega un fitxer de text a Google Cloud Storage.
- Executa l'exemple de codi Spark proporcionat anteriorment.
Solució
Segueix els passos detallats en les seccions anteriors per completar l'exercici.
Conclusió
En aquest tema, hem après com configurar i executar Apache Spark a Google Cloud utilitzant Google Cloud Dataproc. Hem cobert des de la configuració del projecte fins a la creació de clústers i l'execució de treballs de Spark. Amb aquests coneixements, estàs preparat per aprofitar la potència de Google Cloud per a les teves aplicacions de Spark.
Curs d'Apache Spark
Mòdul 1: Introducció a Apache Spark
Mòdul 2: Conceptes Bàsics de Spark
Mòdul 3: Processament de Dades amb Spark
Mòdul 4: Programació Avançada amb Spark
Mòdul 5: Optimització i Millora del Rendiment
- Comprendre les Tasques de Spark
- Emmagatzematge en Memòria i Persistència
- Gestió de Memòria
- Optimització d'Aplicacions Spark
Mòdul 6: Spark al Núvol
Mòdul 7: Aplicacions del Món Real i Estudis de Cas
- Processament de Dades en Temps Real
- Anàlisi de Big Data
- Pipelines d'Aprenentatge Automàtic
- Estudis de Cas