Instalación y configuración de Anaconda y Spark
Anaconda es un distribución libre y abierta de los lenguajes Python y R, utilizada en ciencia de datos, y aprendizaje automático. Esto incluye procesamiento de grandes volúmenes de información, análisis predictivo y cómputos científicos. Está orientado a simplificar el despliegue y administración de los paquetes de software.
Las diferentes versiones de los paquetes se administran mediante el sistema de gestión de paquetes conda, el cual lo hace bastante sencillo de instalar, correr, y actualizar software de ciencia de datos y aprendizaje automático como ser Scikit-team, TensorFlow y SciPy.3
Para la descarga de anaconda vamos a su página oficial:
Al ejecutar el instalador debes seguir las instrucciones que se centran en siguiente y siguiente hasta finalizar. Como recomendación en una ventana de la instalación activa la opción de agregar al PATH Anaconda.
Para descargar Spark vamos a su página oficial:
El archivo lo descomprimimos en una carpeta. Por ejemplo: C:\Spark
Luego agregamos la dirección de la carpeta al PATH de windows.
Ejecutamos en el símbolo del sistema el siguiente código:
python -m pip install findspark
Ejecutamos en el símbolo del sistema el siguiente código:
python -m pip install findspark
No olvidar que debe estar instalado Java Runtime Environment - Oracle y configurado en el PATH.
En la carpeta C:\Spark\bin debemos pegar el archivo winutils.exe que descargamos dependiendo de la versión de hadoop que elegimos al descargar spark. Visita el siguiente enlace para su descarga:
https://github.com/steveloughran/winutilsPara terminar de configurar iniciamos jupyter y hacemos clic en el botón nuevo del lado derecho superior.
Pegamos y ejecutamos el siguiente código:
import findspark
findspark.init()
import pyspark
Comentarios
Publicar un comentario