Apache Spark


		Notas en la instalación y uso de Apache Spark.

Instalación

Windows

Para la instalación de Apache Spark en Windows 10 se han seguido las instrucciones de las notas de Doron Vainrub publicadas en Medium². Esta instalación busqué hacerla lo más «nativamente » posible en el entorno de Windows pero me tope con un problema. Un mensaje de error al hacer uso de winutils.exe que dice:

FindFileOwnerAndPermission error (1789): The trust relationship between this workstation and the primary domain failed.

Según he investigado, el salirme del dominio Windows y reincorporar a la computadora a éste, solucionaría el problema (al menos éste), pero siendo que trabajo con una computadora que es propiedad de mi empleador y que hacerlo seguramente implica poder tener privilegios administrativos (que seguramente mi usuario no posee) y que me puede dejar al equipo inutilizado hasta que soporte técnico me ayude a reincorporarlo al dominio de la empresa (y eso si luego no salen otros problema o hay necesidad de repetir esto, además de justificar el porqué ando haciendo estas cosas y el tener que pasar por todo el tiempo y proceso de pedir soporte), he decidido desistir de este intento.

Windows Subsystem for Linux

Un segundo intento para tenerlo en la laptop del trabajo fue haciendo uso del subsistema del Windows para Linux (en este caso con Ubuntu, aunque un uname -a ), muestra:

Linux MACHINENAME 4.19.104-microsoft-standard #1 SMP Wed Feb 19 06:37:35 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux

Así tal cual tengo la instalación en el equipo, desde Windows Terminal y con BASH 5.0.17, se procedió con los siguientes pasos:

Se descargó Spark de la página de proyecto¹ (se descargó e instaló la versión 3.0.1 con Hadoop 3.2).
Se desempacó el tarball, se renombró el directorio resultante a Spark3 por facilidad en su manejo y se movió a un mejor lugar que el directorio de descargas (que fue donde el proceso de descompactación lo dejó). En este caso bajo mi $HOME.
Para propósitos de prueba se hizo (para hacerlo permanente hay que dejar esto en el .bashrc o en el .bash_profile:

$ export SPARK_HOME=$HOME/Spark3 $ PATH=$SPARK_HOME/bin:$PATH
Una primer prueba para ver si el asunto funciona y quedó bien instalado es invocar el intérprete de Spark con:
$ spark-shell

y validar que el servicio responda usando el navegador en la dirección que se indican en las instrucciones en el arranque del intérprete.

Uso

PySpark

Para hacer uso de PySpark se requirió instalar pip para el Python 3.8 que tengo en el equipo. Esto requirió primero de actualizar algunas cosas antes de hacer la instalación:
$ sudo apt-get update
…
$ sudo apt install python3-pip
…
$ pip3 install pyspark

Referencias

«Apache Spark,» web. Visited: 2020.10.20. URL: https://spark.apache.org/.
Doron Vainrub, «Spark 2: How to install it on Windows in 5 steps,» Medium, web. Published: 2018.03.21; visited: 2020.10.20. URL: https://medium.com/big-data-engineering/how-to-install-apache-spark-2-x-in-your-pc-e2047246ffc3.

Creación: 2020.10.20
Última actualización: 2020.10.21

El contenido de este sitio puede ser copiado y reproducido libremente mientras no sea alterado y se cite su origen. Marcas y productos registrados son citados por referencia y sin fines de lucro o dolo. Todas las opiniones son a título personal del o los autores de éstas y, salvo sea expresado de otro modo, deben considerarse como registro y expresión de la experiencia de uso de aquello que es tratado. Para conocer más sobre la posición de privacidad y responsabilidad de lo que se presenta en este sitio web y como ha sido obtenido, consulte la declaración al respecto.

Dr. Edu

Sitio web de un informático y amante de la ciencia en general