Curso experto en Data Engineer

Antes de realizar un curso o seminario, escuchamos las necesidades reales y objetivos de cada cliente, para adecuar la formación y obtener el mayor aprovechamiento posible. Ajustamos cada curso a sus necesidades.

Somos también especialistas en formaciones 'in company' adaptadas a las necesidades de cada organización, donde el aprovechamiento para varios asistentes de la misma compañía es mucho mayor. Si es tu caso, contacta con nosotros.

Consulte convocatorias

Ponemos a disposición también plataforma Cloud con todas las herramientas instaladas y configuradas, listas para la formación, incluyendo ejercicios, bases de datos, etc... para no perder tiempo en la preparación y configuración inicial. ¡Sólo preocuparos de aprender!

Ofrecemos también la posibilidad de realizar formaciones en base a ‘Casos de Uso’

Se complementa la formación tradicional de un temario/horas/profesor con la realización de casos prácticos en las semanas posteriores al curso en base a datos reales de la propia organización, de forma que se puedan ir poniendo en producción proyectos iniciales con nuestro soporte, apoyo al desarrollo y revisión con los alumnos y equipos, etc…

En los 10 últimos años, ¡hemos formado a más de 250 organizaciones y 3.000 alumnos!

Ah, y regalamos nuestras famosas camisetas de Data Ninjas a todos los asistentes. No te quedes si las tuyas

Objetivo

El curso Experto en Data Engineer tiene como objetivo prepararte para trabajar con las tecnologías, metodologías y algoritmos más avanzados para Big Data.

El curso te formará en la preparación, depuración y explotación de los datos con Apache Spark y Scala. Con ese curso podrás desarrollar, escalar y gestionar tus soluciones y proyectos Data Driven.

Público objetivo

Curso destinado para ingenieros o profesionales de TI con conocimiento previo en:

Bases de datos SQL
Conocimientos en lenguajes de scripting (Python, Javascript, R u otras)

Observaciones

¿Cuál es el roadmap para ser un Data Engineer?

Listado de los mejores Podcasts sobre Datos

Emilio dic. 27, 2020 0

Muy interesante esta recopilación que viene haciendo Alexei Grigorev sobre los mejores podcasts sobre el mundo de los Datos, Machine Learning, Inteligencia Artificial... (también hay algunos en español)

Diferencias entre Business Intelligence y Data Science (bien explicado)

Emilio dic. 27, 2020 0

Como extraer y trabajar con los datos de SAP

Muy buena y clarificadora explicación, desde un punto de vista práctico de las diferencias entre estas dos disciplinas Saber más: Workshops Big Data Analytics

Temario

Introducción

Por qué Scala
Por qué Spark
Por qué Scala y Spark
Scala y Spark dentro de entorno Hadoop: Importancia e Integración
- Sistema de archivos distribuidos HDFS
- Motor de procesamiento Map Reduce
- Gestor de procesos: YARN
- Sistema de mensajería distribuido para Big Data: Apache Kafka
- Log streaming: Apache Flume
Ejemplo de arquitecturas Big Data que usen Scala y Spark

Caso teórico/práctico: Diseño de una arquitectura para la detección de fraude en seguros en tiempo real.

Introducción a Scala

Scala y la necesidad de paralelizar todo “Single-core performance is running out of steam, and you need to parallelize everything” (Martin Odersky , creador de Scala)
Conceptos básicos de Scala
Tipos de datos
Estructuras de control
Conclusiones
Ejercicios prácticos:
- Tipos de datos, Colecciones y Estructuras de control en Scala

Caso práctico de procesamiento de datos de AXA con Scala: (Limpieza, filtrado, agregación)

Spark

Introducción
¿Debo usar Scala, Python o Java para programar en Spark? Scala en Spark
Introducción al Shell de Spark para Scala
Concepto y creación del Spark Context (SC).
Los conjuntos elásticos de datos distribuidos (RDDs).
Operaciones sobre RDDs: Transformaciones y Acciones.
Programación de funciones para RDD’s
Caché y persistencia de RDD’s
Trabajo con pares Clave-Valor (Key-Value Pair RDD)
Carga y almacenamiento desde HDFS (Sistema de archivos distribuido de Hadoop)
Ejercicios prácticos:
- Sobre cada uno de los puntos anteriores
- Caso práctico
- Caso práctico* de procesamiento de datos de AXA con Scala: (Limpieza, filtrado, agregación).
Otros lenguajes en Spark (Introducción):
- SQL
- R
Ejecución en clúster Hadoop con programas Spark.
Ejercicio práctico:
- Ejecución en el clúster de Axa del programa del caso práctico desarrollado en el ejercicio anterior. (K, iii).

Caso práctico de procesamiento de datos de AXA con Scala: (Limpieza, filtrado, agregación)

Big Data Streaming 1: Apache Kafka

Introducción a Apache Kafka
Arquitectura
Topics
Productores y Consumidores.
Kafka y Apache Zookeper
Flujo de datos en Kafka
Ejercicio práctico:
- Estudio de una implementación de Kafka para lectura de datos desde Wikipedia.

Big Data Streaming 2: Spark Streaming

Arquitectura y abstracción
Transformaciones y Operaciones Streaming
Fuentes de entrada
Tolerancia a fallos
Rendimiento
Ejercicio práctico:
- Diseño e implementación de un programa en Spark Streaming para el procesamiento de los datos de Wikipedia en Streaming usando la implementación proporcionada

Caso práctico*: Diseñar la arquitectura para la implementación de un proceso Streaming con datos propios de la organización, usando Kafka y Spark. En el curso se llevaría a cabo el inicio de la implementación y en las tutorías se resolverán dudas surgidas sobre el proceso.

Contacto

Ajustamos cada curso a sus necesidades.

Nuestra oficina en Madrid

Avenida de Brasil 17. Planta 16
28046 Madrid
info@stratebi.com
Tlfno: +34 91.788.34.10
Fax:+34 91.788.57.01

info@stratebi.com

(+034) 91 788 34 10