![]() |
|||
![]() |
Notas en la instalación y uso de Apache Spark. |
Instalación
Windows
Para la instalación de Apache Spark en Windows 10 se han seguido las instrucciones de las notas de Doron Vainrub publicadas en Medium2. Esta instalación busqué hacerla lo más «nativamente » posible en el entorno de Windows pero me tope con un problema. Un mensaje de error al hacer uso de winutils.exe
que dice:
FindFileOwnerAndPermission error (1789): The trust relationship between this workstation and the primary domain failed.
Según he investigado, el salirme del dominio Windows y reincorporar a la computadora a éste, solucionaría el problema (al menos éste), pero siendo que trabajo con una computadora que es propiedad de mi empleador y que hacerlo seguramente implica poder tener privilegios administrativos (que seguramente mi usuario no posee) y que me puede dejar al equipo inutilizado hasta que soporte técnico me ayude a reincorporarlo al dominio de la empresa (y eso si luego no salen otros problema o hay necesidad de repetir esto, además de justificar el porqué ando haciendo estas cosas y el tener que pasar por todo el tiempo y proceso de pedir soporte), he decidido desistir de este intento.
Windows Subsystem for Linux
Un segundo intento para tenerlo en la laptop del trabajo fue haciendo uso del subsistema del Windows para Linux (en este caso con Ubuntu, aunque un uname -a
), muestra:
Linux MACHINENAME 4.19.104-microsoft-standard #1 SMP Wed Feb 19 06:37:35 UTC 2020 x86_64 x86_64 x86_64 GNU/Linux
Así tal cual tengo la instalación en el equipo, desde Windows Terminal y con BASH 5.0.17, se procedió con los siguientes pasos:
- Se descargó Spark de la página de proyecto1 (se descargó e instaló la versión 3.0.1 con Hadoop 3.2).
- Se desempacó el tarball, se renombró el directorio resultante a
Spark3
por facilidad en su manejo y se movió a un mejor lugar que el directorio de descargas (que fue donde el proceso de descompactación lo dejó). En este caso bajo mi$HOME
. - Para propósitos de prueba se hizo (para hacerlo permanente hay que dejar esto en el
.bashrc
o en el.bash_profile
:$ export SPARK_HOME=$HOME/Spark3
$ PATH=$SPARK_HOME/bin:$PATH - Una primer prueba para ver si el asunto funciona y quedó bien instalado es invocar el intérprete de Spark con:
$ spark-shell
y validar que el servicio responda usando el navegador en la dirección que se indican en las instrucciones en el arranque del intérprete.
Uso
PySpark
Para hacer uso de PySpark se requirió instalar pip
para el Python 3.8 que tengo en el equipo. Esto requirió primero de actualizar algunas cosas antes de hacer la instalación:
$ sudo apt-get update
…
$ sudo apt install python3-pip
…
$ pip3 install pyspark
Referencias
- «Apache Spark,» web. Visited: 2020.10.20. URL: https://spark.apache.org/.
- Doron Vainrub, «Spark 2: How to install it on Windows in 5 steps,» Medium, web. Published: 2018.03.21; visited: 2020.10.20. URL: https://medium.com/big-data-engineering/how-to-install-apache-spark-2-x-in-your-pc-e2047246ffc3.
|
© Todos los derechos reservados. Dr. Eduardo René Rodríguez Avila |
Creación: 2020.10.20 Última actualización: 2020.10.21 |
|||
El contenido de este sitio puede ser copiado y reproducido libremente mientras no sea alterado y se cite su origen. Marcas y productos registrados son citados por referencia y sin fines de lucro o dolo. Todas las opiniones son a título personal del o los autores de éstas y, salvo sea expresado de otro modo, deben considerarse como registro y expresión de la experiencia de uso de aquello que es tratado. Para conocer más sobre la posición de privacidad y responsabilidad de lo que se presenta en este sitio web y como ha sido obtenido, consulte la declaración al respecto. |