Instalación y configuración de Anaconda y Spark


Anaconda es un distribución libre y abierta de los lenguajes Python y R, utilizada en ciencia de datos, y aprendizaje automático. Esto incluye procesamiento de grandes volúmenes de información, análisis predictivo y cómputos científicos. Está orientado a simplificar el despliegue y administración de los paquetes de software.​ 

Las diferentes versiones de los paquetes se administran mediante el sistema de gestión de paquetes conda, el cual lo hace bastante sencillo de instalar, correr, y actualizar software de ciencia de datos y aprendizaje automático como ser Scikit-team, TensorFlow y SciPy.3​

Para la descarga de anaconda vamos a su página oficial:


Al ejecutar el instalador debes seguir las instrucciones que se centran en siguiente y siguiente hasta finalizar. Como recomendación en una ventana de la instalación activa la opción de agregar al PATH Anaconda.


Para descargar Spark vamos a su página oficial:

El archivo lo descomprimimos en una carpeta. Por ejemplo: C:\Spark
Luego agregamos la dirección de la carpeta al PATH de windows.

Ejecutamos en el símbolo del sistema el siguiente código:
python -m pip install findspark

No olvidar que debe estar instalado Java Runtime Environment - Oracle y configurado en el PATH.

En la carpeta C:\Spark\bin debemos pegar el archivo winutils.exe que descargamos dependiendo de la versión de hadoop que elegimos al descargar spark. Visita el siguiente enlace para su descarga:
https://github.com/steveloughran/winutils

Para terminar de configurar iniciamos jupyter y hacemos clic en el botón nuevo del lado derecho superior.

Pegamos y ejecutamos el siguiente código:
import findspark
findspark.init()
import pyspark

Comentarios

Entradas populares