Big Data – Big Data && Maths !!

Esta categoría llamada «Big Data» nos servirá para organizar el curso Big Data, curso con enfoque presencial y que aquí iremos subiendo el material guía. Encontraremos de manera organizada tanto las sesiones teóricas como práctias.

El curso tiene como objetivo ofrecer a los/as interesados/as una visión global y amplia en las dos ramas principales del Big Data, lo que serían Big Data Management y Big Data Analytics. Donde cada vez se buscan más profesionales expertos en éstas áreas.

El Data Management es la pieza que se encarga de montar y mantener la infraestructura Big Data de un proyecto. Desde configurar un Cluster hasta escoger una base de datos que mejor se adapte a la estructura de nuestros datos y a su explotación.

En cambio, Data Analytics o Data Science se encarga de elaborar modelos sobre los datos para extraer información de valor para el negocio, así como también de la visualización de los datos.

En las prácticas del bloque Data Management usaremos el sistema operativo Ubunto 18.04 virtualizado (veáse Management_prerrequisito01 para instalación). Y, como lenguajes de programación usaremos principalmente Java aún que algunos ejemplos también pueden ser mostrados adicionalmente en Scala.

Para las prácticas del Bloque Data Analytics usaremos el lenguaje R y Java para el módulo de Spark MLlib.

Programa completo

Big Data Management

Inroducción
Fundamentos de las bases de datos
Hadoop Distributed file System HDFS
Big Data Processing
Big Data Design
Key-Value
Document-Store
Graph-Store
Spark
- Spark-core
- Spark-SQL
- Spark-Streaming
- Spark-Graph
- Sprak-MLlib
Big Data architecture

Big Data Analytics

Inferencia estadística
Regresión lineal
Profiling
Reglas de asociación
Árboles de decisión
PCA
Clustering
Fundamentos de Machine Learning
Clasificación
Redes Neuronales
Support Vector Machine SVM
Random Forests
Distributed ML
Ejemplo Deep Learning

Fuera del guión del curso, en la categoría «Miscelánea» iremos subiendo minicursos enfocados a ciertas herramienta de entornos Big Data como podrían ser Hive, Impala, Kafka, Flume… o cualquier otra información de interés.