Apache Spark (Español)

Estado de la traducción: esta traducción de Apache Spark fue revisada el 2019-02-09. Si existen cambios puede actualizarla o avisar al equipo de traducción.

Apache Spark es un framework de computación en clúster de código abierto desarrollado originalmente en el AMPLab de la UC Berkeley. En contraste con el paradigma MapReduce basado en el disco de dos etapas de Hadoop, las primitivas en memoria de Spark ofrecen un rendimiento hasta 100 veces mayor para ciertas aplicaciones. Al permitir que los programas del usuario carguen datos en la memoria de un clúster y lo consulten repetidamente, Spark está bien adaptado a los algoritmos de aprendizaje automático.

Instalación

Instale el paquete apache-spark^AUR.

Configuración

Algunas variables de entorno se establecen en /etc/profile.d/apache-spark.sh.

ENV	Valor	Descripción
PATH	`$PATH:/opt/apache-spark/bin`	Spark binaries

Es posible que deba ajustar la variable de entorno PATH si su shell inhibe /etc/profile.d:

export PATH=$PATH:/opt/apache-spark/bin

Habilitar el soporte de R

El paquete R de sparkR se distribuye con el paquete pero no se compila durante la instalación. Para conectarse a Spark desde R, primero debe compilar el paquete ejecutando

# $SPARK_HOME/R/install-dev.sh

como se describe en $SPARK_HOME/R/README.md. También puede desear compilar la documentación del paquete siguiendo las instrucciones en $SPARK_HOME/R/DOCUMENTATION.md. Una vez que se haya compilado el paquete sparkR R, puede conectarse utilizando /usr/bin/sparkR.