Inicio » ¿Qué Hacemos? » Formación a Empresas » Big Data & Analytics » Curso Data Science con Spark y Hadoop

Curso Data Science con Spark y Hadoop en Madrid, Barcelona y Online

Formación Data Science, Spark y Hadoop para perfiles profesionales de empresa que deseen aprender sobre dicha materia. Curso ofrecido en la modalidad presencial In Company u online en Madrid, Barcelona, Valencia, Alicante, Málaga, Sevilla y Bilbao, bajo demanda para empresas.

Aprende todas las novedades en torno a la ciencia de datos, Spark, Hadoop y prepárate para tu certificación.

¿Qué es un Data Scientist (Científico de Datos)?
Los científicos de datos son profesionales IT que se dedican a la analítica de datos, o lo que es lo mismo, a la extracción de información de grandes conjuntos de datos (Big Data), tanto estructurados como no estructurados, y convertirla en conocimiento para que las empresas y organizaciones realicen una mejor toma de decisiones en sus procesos de negocio.

Una definición simple y cotidiana de lo que es un científico de datos podría ser la que acuñó el ingeniero Josh Wills: “Es una persona con conocimientos de estadística superiores a los de los programadores y con conocimientos de programación superiores a los de cualquier estadístico”.

Se trata de un perfil profesional en auge en los últimos años, cuyas funciones principales son las siguientes:
– Obtener grandes cantidades de datos, tanto estructurados como no estructurados, para su posterior tratamiento de manera que su formato permita analizarlos y procesarlos.
– Ofrecer soluciones a problemas de negocio, a través del uso del conocimiento obtenido del big data
– Aportar resultados y colaborar con las distintas áreas de negocio dentro de una empresa.

Los científicos de datos pueden trabajar en un amplio abanico de sectores profesionales, con la finalidad de ofrecer una respuesta a los problemas que se puedan presentar, siempre en base al conocimiento adquirido previamente a partir de los datos obtenidos. Es un perfil profesional imprescindible en el área de big data, inteligencia artificial y machine learning, y que cuenta con una muy buena remuneración debido a la gran demanda existente en el mercado laboral y la escasez de perfiles disponibles, puesto que exige contar con un amplio dominio de estadística y matemáticas, experiencia trabajando con diversos lenguajes de programación, como Python, R o SAS, y un dominio de técnicas de visualización de datos y analíticas como el machine learning, deep learning y analítica de texto.

Presencial In Company

Formación presencial In Company

Formación presencial en las instalaciones del cliente

Presencial Convocatorias

Convocatorias en abierto

Próximos cursos en tu ciudad

Classroom Training

Formación online en Streaming

Profesor en directo con el sistema GoToMeeting

Online Classroom

Formación Online Asíncrona

Accede a nuestros contenidos multimedia desde nuestra plataforma LMS

Características del Curso Data Science con Spark y Hadoop

Duración

Público

Objetivos

Duración

Público

Objetivos

Temario: Plan de estudios | Curso Spark Hadoop (Data Science)

TEMA 1. Introducción al Data Science
TEMA 2. El rol del científico de datos
TEMA 3. Casos de uso
TEMA 4. Ciclo de vida de un proyecto
TEMA 5. Adquisición de datos
TEMA 6. Evaluación de datos de entrada
TEMA 7. Transformación de datos

TEMA 8. Fundamentos de Machine Learning
TEMA 9. Introducción a los sistemas de recomendaciones
TEMA 10. Introducción a Apache Spark y MLib
TEMA 11. Implementación de sistemas de recomendación con MLib
TEMA 12. Experimentación y evaluación
TEMA 13. Despliegue en producción

* También realizamos temarios a medida. Consúltanos si necesitas personalizar el contenido.

¿Qué es Apache Spark y Hadoop?

Hadoop es un proyecto de Apache.org, consistente en una librería de software y un framework de acción que permite el procesamiento distribuido de grandes volúmenes de datos, conocidos como big data, a través de millares de sistemas convencionales que ofrecen potencia de procesamiento y espacio de almacenamiento. Se trata del diseño más potente en el área de la analítica de datos.

Por su parte, Spark es otro framework open source del entorno Apache Software Foundation, que puede ser modificado para crear versiones personalizadas orientadas a cuestiones específicas, siendo muy útil tanto para desarrolladores como para profesionales de empresa que busquen añadir más funcionalidades y mejoras en cuanto a rendimiento.

Apache Spark y Apache Hadoop son dos de las herramientas más importantes y prestigiosas en el ámbito del big data. Comparten muchas de sus funcionalidades, pero hay áreas donde uno de estos frameworks resulta más eficaz que el otro. En este sentido, Apache Spark, al carecer de sistema de archivos, depende del sistema distribuido de Hadoop. Pero, en cuanto a usabilidad, ofrece un mejor rendimiento al contar con APIs sencillas para Java, Python, Scala o Spark SQL.

En lo referente a la seguridad, Hadoop se impone claramente, puesto que proporciona a sus usuarios una infinidad de beneficios a partir de proyectos como Knox Gateway o Sentry, por ejemplo. Además, el componente principal del ecosistema Hadoop, HDFS (Hadoop Distributed File System), garantiza una gestión de permisos adecuada para todos sus clientes a nivel de archivo. Así, como Spark necesita ejecutarse en HDFS para acceder a dichos permisos, deberá recurrir a Hadoop YARN.

En conclusión, se trata de dos herramientas imprescindibles para la ciencia y el análisis de datos (data science), puesto que Apache Hadoop aporta un mejor rendimiento cuando el tamaño de la memoria es notablemente menor que el tamaño de los datos, y Spark nos ofrece una mayor rapidez (en algunos casos hasta 100 veces más rápido), al trabajar en memoria RAM, transfiriendo los datos desde los discos duros a memoria principal, partiendo estos datos en “chunks”, y unas mejores prestaciones para aplicaciones de aprendizaje automático (machine learning).

Por ello, en la actualidad es muy recomendable utilizar la combinación de ambos programas para trabajar con Big Data.

Formación Bonificada para empresas

Si actualmente estás trabajando, tu empresa podrá bonificarse nuestros cursos a través de FUNDAE (antiguamente la Fundación Tripartita) y salirle prácticamente gratis.