Esta categoría llamada «Big Data» nos servirá para organizar el curso Big Data, curso con enfoque presencial y que aquí iremos subiendo el material guía. Encontraremos de manera organizada tanto las sesiones teóricas como práctias.

El curso tiene como objetivo ofrecer a los/as interesados/as una visión global y amplia en las dos ramas principales del Big Data, lo que serían Big Data Management y Big Data Analytics. Donde cada vez se buscan más profesionales expertos en éstas áreas.

El Data Management es la pieza que se encarga de montar y mantener la infraestructura Big Data de un proyecto. Desde configurar un Cluster hasta escoger una base de datos que mejor se adapte a la estructura de nuestros datos y a su explotación.

En cambio, Data Analytics o Data Science se encarga de elaborar modelos sobre los datos para extraer información de valor para el negocio, así como también de la visualización de los datos.

En las prácticas del bloque Data Management usaremos el sistema operativo Ubunto 18.04 virtualizado (veáse Management_prerrequisito01 para instalación). Y, como lenguajes de programación usaremos principalmente Java aún que algunos ejemplos también pueden ser mostrados adicionalmente en Scala.

Para las prácticas del Bloque Data Analytics usaremos el lenguaje R y Java para el módulo de Spark MLlib.

Programa completo

Big Data Management

Big Data Analytics

  • Inferencia estadística
  • Regresión lineal
  • Profiling
  • Reglas de asociación
  • Árboles de decisión
  • PCA
  • Clustering
  • Fundamentos de Machine Learning
  • Clasificación
  • Redes Neuronales
  • Support Vector Machine SVM
  • Random Forests
  • Distributed ML
  • Ejemplo Deep Learning

Fuera del guión del curso, en la categoría «Miscelánea» iremos subiendo minicursos enfocados a ciertas herramienta de entornos Big Data como podrían ser Hive, Impala, Kafka, Flume… o cualquier otra información de interés.