- contacto@formadoresit.es
- + 34 692 317 648
-
Calle Velázquez, 80
28001, Madrid
SUSCRÍBETE A LA NEWSLETTER
- Recibe información acerca de nuestros cursos y próximas convocatorias
Inicio » ¿Qué Hacemos? » Formación a Empresas » Big Data & Analytics » Curso Data Science con Spark y Hadoop
Formación Data Science, Spark y Hadoop para perfiles profesionales de empresa que deseen aprender sobre dicha materia. Curso ofrecido en la modalidad presencial In Company u online en Madrid, Barcelona, Valencia, Alicante, Málaga, Sevilla y Bilbao, bajo demanda para empresas.
Aprende todas las novedades en torno a la ciencia de datos, Spark, Hadoop y prepárate para tu certificación.
¿Qué es un Data Scientist (Científico de Datos)?
Los científicos de datos son profesionales IT que se dedican a la analítica de datos, o lo que es lo mismo, a la extracción de información de grandes conjuntos de datos (Big Data), tanto estructurados como no estructurados, y convertirla en conocimiento para que las empresas y organizaciones realicen una mejor toma de decisiones en sus procesos de negocio.
Una definición simple y cotidiana de lo que es un científico de datos podría ser la que acuñó el ingeniero Josh Wills: “Es una persona con conocimientos de estadística superiores a los de los programadores y con conocimientos de programación superiores a los de cualquier estadístico”.
Se trata de un perfil profesional en auge en los últimos años, cuyas funciones principales son las siguientes:
– Obtener grandes cantidades de datos, tanto estructurados como no estructurados, para su posterior tratamiento de manera que su formato permita analizarlos y procesarlos.
– Ofrecer soluciones a problemas de negocio, a través del uso del conocimiento obtenido del big data
– Aportar resultados y colaborar con las distintas áreas de negocio dentro de una empresa.
Los científicos de datos pueden trabajar en un amplio abanico de sectores profesionales, con la finalidad de ofrecer una respuesta a los problemas que se puedan presentar, siempre en base al conocimiento adquirido previamente a partir de los datos obtenidos. Es un perfil profesional imprescindible en el área de big data, inteligencia artificial y machine learning, y que cuenta con una muy buena remuneración debido a la gran demanda existente en el mercado laboral y la escasez de perfiles disponibles, puesto que exige contar con un amplio dominio de estadística y matemáticas, experiencia trabajando con diversos lenguajes de programación, como Python, R o SAS, y un dominio de técnicas de visualización de datos y analíticas como el machine learning, deep learning y analítica de texto.
20 horas
– Desarrolladores y analistas de datos, responsables de bases de datos
Utilizar los componentes apropiados de Hadoop y Spark en el proceso de datos y aplicar Machine Learning para el análisis de los mismos
TEMA 1. Introducción al Data Science
TEMA 2. El rol del científico de datos
TEMA 3. Casos de uso
TEMA 4. Ciclo de vida de un proyecto
TEMA 5. Adquisición de datos
TEMA 6. Evaluación de datos de entrada
TEMA 7. Transformación de datos
TEMA 8. Fundamentos de Machine Learning
TEMA 9. Introducción a los sistemas de recomendaciones
TEMA 10. Introducción a Apache Spark y MLib
TEMA 11. Implementación de sistemas de recomendación con MLib
TEMA 12. Experimentación y evaluación
TEMA 13. Despliegue en producción
Hadoop es un proyecto de Apache.org, consistente en una librería de software y un framework de acción que permite el procesamiento distribuido de grandes volúmenes de datos, conocidos como big data, a través de millares de sistemas convencionales que ofrecen potencia de procesamiento y espacio de almacenamiento. Se trata del diseño más potente en el área de la analítica de datos.
Por su parte, Spark es otro framework open source del entorno Apache Software Foundation, que puede ser modificado para crear versiones personalizadas orientadas a cuestiones específicas, siendo muy útil tanto para desarrolladores como para profesionales de empresa que busquen añadir más funcionalidades y mejoras en cuanto a rendimiento.
Apache Spark y Apache Hadoop son dos de las herramientas más importantes y prestigiosas en el ámbito del big data. Comparten muchas de sus funcionalidades, pero hay áreas donde uno de estos frameworks resulta más eficaz que el otro. En este sentido, Apache Spark, al carecer de sistema de archivos, depende del sistema distribuido de Hadoop. Pero, en cuanto a usabilidad, ofrece un mejor rendimiento al contar con APIs sencillas para Java, Python, Scala o Spark SQL.
En lo referente a la seguridad, Hadoop se impone claramente, puesto que proporciona a sus usuarios una infinidad de beneficios a partir de proyectos como Knox Gateway o Sentry, por ejemplo. Además, el componente principal del ecosistema Hadoop, HDFS (Hadoop Distributed File System), garantiza una gestión de permisos adecuada para todos sus clientes a nivel de archivo. Así, como Spark necesita ejecutarse en HDFS para acceder a dichos permisos, deberá recurrir a Hadoop YARN.
En conclusión, se trata de dos herramientas imprescindibles para la ciencia y el análisis de datos (data science), puesto que Apache Hadoop aporta un mejor rendimiento cuando el tamaño de la memoria es notablemente menor que el tamaño de los datos, y Spark nos ofrece una mayor rapidez (en algunos casos hasta 100 veces más rápido), al trabajar en memoria RAM, transfiriendo los datos desde los discos duros a memoria principal, partiendo estos datos en “chunks”, y unas mejores prestaciones para aplicaciones de aprendizaje automático (machine learning).
Por ello, en la actualidad es muy recomendable utilizar la combinación de ambos programas para trabajar con Big Data.
Si actualmente estás trabajando, tu empresa podrá bonificarse nuestros cursos a través de FUNDAE (antiguamente la Fundación Tripartita) y salirle prácticamente gratis.
– Método OnLine mediante servicios streaming enfocado a empresas.
– Curso apto para visualizar en tablets, multinavegador y multiplataforma.
– Tecnología GoToMeeting.