En aquesta secció, aprendrem com configurar l'entorn Hadoop al vostre ordinador. Aquest procés inclou la instal·lació de Java, la descàrrega i la configuració de Hadoop, i la verificació que tot funcioni correctament.
Requisits previs
Abans de començar, assegureu-vos de tenir els següents requisits previs:
- Sistema operatiu: Linux o macOS (també es pot utilitzar Windows amb Cygwin o una màquina virtual).
- Java: Hadoop requereix Java per funcionar. Assegureu-vos de tenir instal·lada la versió adequada de Java (JDK 8 o superior).
Passos per configurar Hadoop
- Instal·lació de Java
Verificar si Java està instal·lat
Obriu una terminal i executeu la següent comanda per verificar si Java està instal·lat:
Si Java està instal·lat, veureu la versió de Java. Si no està instal·lat, seguiu els passos següents per instal·lar-lo.
Instal·lació de Java a Linux
Per instal·lar Java a Linux, executeu les següents comandes:
Instal·lació de Java a macOS
Per instal·lar Java a macOS, podeu utilitzar Homebrew:
- Descàrrega de Hadoop
Visiteu la pàgina oficial de descàrrega de Hadoop: Apache Hadoop Releases
Seleccioneu la versió més recent i descarregueu l'arxiu tar.gz. Per exemple, per a la versió 3.3.1:
- Extracció de l'arxiu Hadoop
Un cop descarregat l'arxiu, extraiu-lo:
- Configuració de les variables d'entorn
Afegiu les següents línies al vostre fitxer .bashrc
o .zshrc
per configurar les variables d'entorn necessàries:
export HADOOP_HOME=~/hadoop-3.3.1 export PATH=$PATH:$HADOOP_HOME/bin export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
Després, carregueu les noves configuracions:
- Configuració de Hadoop
Editar hadoop-env.sh
Editeu el fitxer hadoop-env.sh
per configurar la variable JAVA_HOME
:
Afegiu la següent línia:
Configuració de core-site.xml
Editeu el fitxer core-site.xml
per configurar el directori de Hadoop:
Afegiu el següent contingut:
<configuration> <property> <name>hadoop.tmp.dir</name> <value>/usr/local/hadoop/tmp</value> <description>A base for other temporary directories.</description> </property> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Configuració de hdfs-site.xml
Editeu el fitxer hdfs-site.xml
per configurar la replicació de dades:
Afegiu el següent contingut:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
- Formatejar el sistema de fitxers HDFS
Formateu el sistema de fitxers HDFS executant la següent comanda:
- Iniciar Hadoop
Per iniciar Hadoop, executeu les següents comandes:
- Verificar la instal·lació
Per verificar que Hadoop està funcionant correctament, obriu el navegador i visiteu les següents URL:
- Namenode: http://localhost:9870
- ResourceManager: http://localhost:8088
Conclusió
En aquesta secció, hem après com configurar l'entorn Hadoop al nostre ordinador. Hem cobert la instal·lació de Java, la descàrrega i configuració de Hadoop, i la verificació que tot funcioni correctament. Ara estem preparats per començar a treballar amb Hadoop i explorar les seves capacitats.
Curs de Hadoop
Mòdul 1: Introducció a Hadoop
- Què és Hadoop?
- Visió general de l'ecosistema Hadoop
- Hadoop vs Bases de dades tradicionals
- Configuració de l'entorn Hadoop
Mòdul 2: Arquitectura de Hadoop
- Components bàsics de Hadoop
- HDFS (Sistema de fitxers distribuït de Hadoop)
- Marc MapReduce
- YARN (Yet Another Resource Negotiator)
Mòdul 3: HDFS (Sistema de fitxers distribuït de Hadoop)
Mòdul 4: Programació MapReduce
- Introducció a MapReduce
- Flux de treball d'una feina MapReduce
- Escriure un programa MapReduce
- Tècniques d'optimització de MapReduce
Mòdul 5: Eines de l'ecosistema Hadoop
Mòdul 6: Conceptes avançats de Hadoop
- Seguretat de Hadoop
- Gestió de clústers de Hadoop
- Ajust de rendiment de Hadoop
- Serialització de dades de Hadoop
Mòdul 7: Aplicacions reals i estudis de cas
- Hadoop en emmagatzematge de dades
- Hadoop en aprenentatge automàtic
- Hadoop en processament de dades en temps real
- Estudis de cas d'implementacions de Hadoop