El Projecte | Sobre nosaltres | Contribuir | Donacions | Llicència

HOME

En aquest tema, aprendrem a configurar l'entorn necessari per treballar amb Apache Spark. Això inclou la instal·lació de Spark, la configuració de les variables d'entorn i la verificació de la instal·lació. Aquest procés és essencial per assegurar-nos que podem executar aplicacions Spark de manera eficient.

Requisits Previs

Abans de començar amb la configuració de Spark, assegura't de tenir els següents requisits previs:

Java Development Kit (JDK): Apache Spark requereix Java per funcionar. Assegura't de tenir instal·lat JDK 8 o superior.
Apache Hadoop (opcional): Si vols utilitzar HDFS (Hadoop Distributed File System) com a sistema d'emmagatzematge, necessitaràs Hadoop.

Descarregar Apache Spark

Visita la pàgina oficial de descàrregues d'Apache Spark: https://spark.apache.org/downloads.html
Selecciona la versió de Spark que vols descarregar. Per a aquest curs, recomanem utilitzar l'última versió estable.
Selecciona el paquet precompilat per a Hadoop. Si no tens una preferència específica, pots seleccionar "Pre-built for Apache Hadoop 2.7 and later".
Fes clic a "Download Spark" per descarregar el fitxer comprimit.

Instal·lar Apache Spark

Descomprimeix el fitxer descarregat:
```
tar -xvf spark-<versió>-bin-hadoop2.7.tgz
```
Substitueix <versió> per la versió específica que has descarregat.

Mou el directori descomprimit a una ubicació adequada:

sudo mv spark-<versió>-bin-hadoop2.7 /usr/local/spark

Configurar les Variables d'Entorn

Per facilitar l'ús de Spark, és recomanable configurar les variables d'entorn. Això permetrà executar Spark des de qualsevol lloc del sistema.

Obre el fitxer de configuració del shell (per exemple, .bashrc o .zshrc):
```
nano ~/.bashrc
```

Afegeix les següents línies al final del fitxer:

export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin

Carrega les noves configuracions:
```
source ~/.bashrc
```

Verificar la Instal·lació

Per assegurar-nos que Spark s'ha instal·lat correctament, podem executar el shell de Spark.

Executa el shell de Spark:
```
spark-shell
```

Verifica que el shell s'inicia correctament. Hauries de veure una sortida similar a aquesta:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version <versió>
      /_/

Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_242)
Type in expressions to have them evaluated.
Type :help for more information.

Executa una operació simple per verificar el funcionament:
```
val data = Seq(1, 2, 3, 4, 5)
val rdd = sc.parallelize(data)
println(rdd.count())
```
Hauries de veure 5 com a sortida, indicant que Spark ha comptat correctament els elements de l'RDD.

Conclusió

En aquesta secció, hem après a configurar l'entorn per treballar amb Apache Spark. Hem cobert la descàrrega, instal·lació i configuració de les variables d'entorn, així com la verificació de la instal·lació. Amb aquest entorn configurat, estem preparats per començar a explorar les capacitats de Spark en els següents mòduls.

Exercici Pràctic:

Instal·la Apache Spark seguint els passos descrits anteriorment.
Configura les variables d'entorn per facilitar l'ús de Spark.
Verifica la instal·lació executant el shell de Spark i realitzant una operació simple.

Solució:

Segueix els passos detallats en aquesta secció per completar l'exercici. Si tens algun problema, revisa els passos per assegurar-te que no has omès cap detall.

Configuració de l'entorn Spark

Requisits Previs

Descarregar Apache Spark

Instal·lar Apache Spark

Configurar les Variables d'Entorn

Verificar la Instal·lació

Conclusió

Curs d'Apache Spark

Mòdul 1: Introducció a Apache Spark

Mòdul 2: Conceptes Bàsics de Spark

Mòdul 3: Processament de Dades amb Spark

Mòdul 4: Programació Avançada amb Spark

Mòdul 5: Optimització i Millora del Rendiment

Mòdul 6: Spark al Núvol

Mòdul 7: Aplicacions del Món Real i Estudis de Cas

Mòdul 8: Projecte Final