En aquest tema, aprendrem a configurar l'entorn necessari per treballar amb Apache Spark. Això inclou la instal·lació de Spark, la configuració de les variables d'entorn i la verificació de la instal·lació. Aquest procés és essencial per assegurar-nos que podem executar aplicacions Spark de manera eficient.
- Requisits Previs
Abans de començar amb la configuració de Spark, assegura't de tenir els següents requisits previs:
- Java Development Kit (JDK): Apache Spark requereix Java per funcionar. Assegura't de tenir instal·lat JDK 8 o superior.
- Apache Hadoop (opcional): Si vols utilitzar HDFS (Hadoop Distributed File System) com a sistema d'emmagatzematge, necessitaràs Hadoop.
- Descarregar Apache Spark
- Visita la pàgina oficial de descàrregues d'Apache Spark: https://spark.apache.org/downloads.html
- Selecciona la versió de Spark que vols descarregar. Per a aquest curs, recomanem utilitzar l'última versió estable.
- Selecciona el paquet precompilat per a Hadoop. Si no tens una preferència específica, pots seleccionar "Pre-built for Apache Hadoop 2.7 and later".
- Fes clic a "Download Spark" per descarregar el fitxer comprimit.
- Instal·lar Apache Spark
-
Descomprimeix el fitxer descarregat:
tar -xvf spark-<versió>-bin-hadoop2.7.tgz
Substitueix
<versió>
per la versió específica que has descarregat. -
Mou el directori descomprimit a una ubicació adequada:
sudo mv spark-<versió>-bin-hadoop2.7 /usr/local/spark
- Configurar les Variables d'Entorn
Per facilitar l'ús de Spark, és recomanable configurar les variables d'entorn. Això permetrà executar Spark des de qualsevol lloc del sistema.
-
Obre el fitxer de configuració del shell (per exemple,
.bashrc
o.zshrc
):nano ~/.bashrc
-
Afegeix les següents línies al final del fitxer:
export SPARK_HOME=/usr/local/spark export PATH=$PATH:$SPARK_HOME/bin
-
Carrega les noves configuracions:
source ~/.bashrc
- Verificar la Instal·lació
Per assegurar-nos que Spark s'ha instal·lat correctament, podem executar el shell de Spark.
-
Executa el shell de Spark:
spark-shell
-
Verifica que el shell s'inicia correctament. Hauries de veure una sortida similar a aquesta:
Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version <versió> /_/ Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_242) Type in expressions to have them evaluated. Type :help for more information.
-
Executa una operació simple per verificar el funcionament:
val data = Seq(1, 2, 3, 4, 5) val rdd = sc.parallelize(data) println(rdd.count())
Hauries de veure
5
com a sortida, indicant que Spark ha comptat correctament els elements de l'RDD.
- Conclusió
En aquesta secció, hem après a configurar l'entorn per treballar amb Apache Spark. Hem cobert la descàrrega, instal·lació i configuració de les variables d'entorn, així com la verificació de la instal·lació. Amb aquest entorn configurat, estem preparats per començar a explorar les capacitats de Spark en els següents mòduls.
Exercici Pràctic:
- Instal·la Apache Spark seguint els passos descrits anteriorment.
- Configura les variables d'entorn per facilitar l'ús de Spark.
- Verifica la instal·lació executant el shell de Spark i realitzant una operació simple.
Solució:
Segueix els passos detallats en aquesta secció per completar l'exercici. Si tens algun problema, revisa els passos per assegurar-te que no has omès cap detall.
Curs d'Apache Spark
Mòdul 1: Introducció a Apache Spark
Mòdul 2: Conceptes Bàsics de Spark
Mòdul 3: Processament de Dades amb Spark
Mòdul 4: Programació Avançada amb Spark
Mòdul 5: Optimització i Millora del Rendiment
- Comprendre les Tasques de Spark
- Emmagatzematge en Memòria i Persistència
- Gestió de Memòria
- Optimització d'Aplicacions Spark
Mòdul 6: Spark al Núvol
Mòdul 7: Aplicacions del Món Real i Estudis de Cas
- Processament de Dades en Temps Real
- Anàlisi de Big Data
- Pipelines d'Aprenentatge Automàtic
- Estudis de Cas