Antes de realizar un curso o seminario, escuchamos las necesidades reales y objetivos de cada cliente, para adecuar la formación y obtener el mayor aprovechamiento posible. Ajustamos cada curso a sus necesidades.

Somos también especialistas en formaciones 'in company' adaptadas a las necesidades de cada organización, donde el aprovechamiento para varios asistentes de la misma compañía es mucho mayor. Si es tu caso, contacta con nosotros.

Ponemos a disposición también plataforma Cloud con todas las herramientas instaladas y configuradas, listas para la formación, incluyendo ejercicios, bases de datos, etc... para no perder tiempo en la preparación y configuración inicial. ¡Sólo preocuparos de aprender!

Ofrecemos también la posibilidad de realizar formaciones en base a ‘Casos de Uso’

Se complementa la formación tradicional de un temario/horas/profesor con la realización de casos prácticos en las semanas posteriores al curso en base a datos reales de la propia organización, de forma que se puedan ir poniendo en producción proyectos iniciales con nuestro soporte, apoyo al desarrollo y revisión con los alumnos y equipos, etc…

En los 10 últimos años, ¡hemos formado a más de 250 organizaciones y 3.000 alumnos!

Ah, y regalamos nuestras famosas camisetas de Data Ninjas a todos los asistentes. No te quedes si las tuyas

1  2  3  4  5

Curso experto en Data Engineer

Curso experto en Data Engineer

Objetivo

El curso Experto en Data Engineer tiene como objetivo prepararte para trabajar con las tecnologías, metodologías y algoritmos más avanzados para Big Data.

El curso te formará en la preparación, depuración y explotación de los datos con Apache Spark y Scala. Con ese curso podrás desarrollar, escalar y gestionar tus soluciones y proyectos Data Driven.

Público objetivo

Curso destinado para ingenieros o profesionales de TI con conocimiento previo en:
  • Bases de datos SQL
  • Conocimientos en lenguajes de scripting (Python, Javascript, R u otras)

Observaciones

¿Cuál es el roadmap para ser un Data Engineer?

Temario

  • Por qué Scala
  • Por qué Spark
  • Por qué Scala y Spark
  • Scala y Spark dentro de entorno Hadoop: Importancia e Integración
    • Sistema de archivos distribuidos HDFS
    • Motor de procesamiento Map Reduce
    • Gestor de procesos: YARN
    • Sistema de mensajería distribuido para Big Data: Apache Kafka
    • Log streaming: Apache Flume
  • Ejemplo de arquitecturas Big Data que usen Scala y Spark

Caso teórico/práctico: Diseño de una arquitectura para la detección de fraude en seguros en tiempo real.

  • Scala y la necesidad de paralelizar todo “Single-core performance is running out of steam, and you need to parallelize everything” (Martin Odersky , creador de Scala)
  • Conceptos básicos de Scala
  • Tipos de datos
  • Estructuras de control
  • Conclusiones
  • Ejercicios prácticos:
    • Tipos de datos, Colecciones y Estructuras de control en Scala

Caso práctico de procesamiento de datos de AXA con Scala: (Limpieza, filtrado, agregación)

  • Introducción
  • ¿Debo usar Scala, Python o Java para programar en Spark? Scala en Spark
  • Introducción al Shell de Spark para Scala
  • Concepto y creación del Spark Context (SC).
  • Los conjuntos elásticos de datos distribuidos (RDDs).
  • Operaciones sobre RDDs: Transformaciones y Acciones.
  • Programación de funciones para RDD’s
  • Caché y persistencia de RDD’s
  • Trabajo con pares Clave-Valor (Key-Value Pair RDD)
  • Carga y almacenamiento desde HDFS (Sistema de archivos distribuido de Hadoop)
  • Ejercicios prácticos:
    • Sobre cada uno de los puntos anteriores
    • Caso práctico
    • Caso práctico* de procesamiento de datos de AXA con Scala: (Limpieza, filtrado, agregación).
  • Otros lenguajes en Spark (Introducción):
    • SQL
    • R
  • Ejecución en clúster Hadoop con programas Spark.
  • Ejercicio práctico:
    • Ejecución en el clúster de Axa del programa del caso práctico desarrollado en el ejercicio anterior. (K, iii).

Caso práctico de procesamiento de datos de AXA con Scala: (Limpieza, filtrado, agregación)

  • Introducción a Apache Kafka
  • Arquitectura
  • Topics
  • Productores y Consumidores.
  • Kafka y Apache Zookeper
  • Flujo de datos en Kafka
  • Ejercicio práctico:
    • Estudio de una implementación de Kafka para lectura de datos desde Wikipedia.
  • Arquitectura y abstracción
  • Transformaciones y Operaciones Streaming
  • Fuentes de entrada
  • Tolerancia a fallos
  • Rendimiento
  • Ejercicio práctico:
    • Diseño e implementación de un programa en Spark Streaming para el procesamiento de los datos de Wikipedia en Streaming usando la implementación proporcionada

Caso práctico*: Diseñar la arquitectura para la implementación de un proceso Streaming con datos propios de la organización, usando Kafka y Spark. En el curso se llevaría a cabo el inicio de la implementación y en las tutorías se resolverán dudas surgidas sobre el proceso.


Contacto

Ajustamos cada curso a sus necesidades.

Nuestra oficina en Madrid