En aquest tema, aprendrem a configurar l'entorn necessari per treballar amb Apache Spark. Això inclou la instal·lació de Spark, la configuració de les variables d'entorn i la verificació de la instal·lació. Aquest procés és essencial per assegurar-nos que podem executar aplicacions Spark de manera eficient.

  1. Requisits Previs

Abans de començar amb la configuració de Spark, assegura't de tenir els següents requisits previs:

  • Java Development Kit (JDK): Apache Spark requereix Java per funcionar. Assegura't de tenir instal·lat JDK 8 o superior.
  • Apache Hadoop (opcional): Si vols utilitzar HDFS (Hadoop Distributed File System) com a sistema d'emmagatzematge, necessitaràs Hadoop.

  1. Descarregar Apache Spark

  1. Visita la pàgina oficial de descàrregues d'Apache Spark: https://spark.apache.org/downloads.html
  2. Selecciona la versió de Spark que vols descarregar. Per a aquest curs, recomanem utilitzar l'última versió estable.
  3. Selecciona el paquet precompilat per a Hadoop. Si no tens una preferència específica, pots seleccionar "Pre-built for Apache Hadoop 2.7 and later".
  4. Fes clic a "Download Spark" per descarregar el fitxer comprimit.

  1. Instal·lar Apache Spark

  1. Descomprimeix el fitxer descarregat:

    tar -xvf spark-<versió>-bin-hadoop2.7.tgz
    

    Substitueix <versió> per la versió específica que has descarregat.

  2. Mou el directori descomprimit a una ubicació adequada:

    sudo mv spark-<versió>-bin-hadoop2.7 /usr/local/spark
    

  1. Configurar les Variables d'Entorn

Per facilitar l'ús de Spark, és recomanable configurar les variables d'entorn. Això permetrà executar Spark des de qualsevol lloc del sistema.

  1. Obre el fitxer de configuració del shell (per exemple, .bashrc o .zshrc):

    nano ~/.bashrc
    
  2. Afegeix les següents línies al final del fitxer:

    export SPARK_HOME=/usr/local/spark
    export PATH=$PATH:$SPARK_HOME/bin
    
  3. Carrega les noves configuracions:

    source ~/.bashrc
    

  1. Verificar la Instal·lació

Per assegurar-nos que Spark s'ha instal·lat correctament, podem executar el shell de Spark.

  1. Executa el shell de Spark:

    spark-shell
    
  2. Verifica que el shell s'inicia correctament. Hauries de veure una sortida similar a aquesta:

    Welcome to
          ____              __
         / __/__  ___ _____/ /__
        _\ \/ _ \/ _ `/ __/  '_/
       /___/ .__/\_,_/_/ /_/\_\   version <versió>
          /_/
    
    Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 1.8.0_242)
    Type in expressions to have them evaluated.
    Type :help for more information.
    
  3. Executa una operació simple per verificar el funcionament:

    val data = Seq(1, 2, 3, 4, 5)
    val rdd = sc.parallelize(data)
    println(rdd.count())
    

    Hauries de veure 5 com a sortida, indicant que Spark ha comptat correctament els elements de l'RDD.

  1. Conclusió

En aquesta secció, hem après a configurar l'entorn per treballar amb Apache Spark. Hem cobert la descàrrega, instal·lació i configuració de les variables d'entorn, així com la verificació de la instal·lació. Amb aquest entorn configurat, estem preparats per començar a explorar les capacitats de Spark en els següents mòduls.


Exercici Pràctic:

  1. Instal·la Apache Spark seguint els passos descrits anteriorment.
  2. Configura les variables d'entorn per facilitar l'ús de Spark.
  3. Verifica la instal·lació executant el shell de Spark i realitzant una operació simple.

Solució:

Segueix els passos detallats en aquesta secció per completar l'exercici. Si tens algun problema, revisa els passos per assegurar-te que no has omès cap detall.

© Copyright 2024. Tots els drets reservats