Management_sesión04: Big Data Processing

En esta sesión veremos:

  • Escalabilidad, elasticidad y sus límites – Universal Scalability Law y como modela/mide la escalabilidad.
  • Desafíos en los procesamientos distribuidos – aspectos principales que se tienen en cuenta en las implementaciones de bases NoSQL.
  • Fases de una query distribuida – global query optimizer y local query optimizer
  • Data shipping, Query shipping – dos maneras de asignar query processing
  • Tipos de paralelismo – intra-query y inter-query parallelism
  • Criterios para escoger un acces plan

Management_sesión03: Hadoop Distributed File System (HDFS)

En esta sesión veremos:

  • Qué es HDFS – capacidades y utilidad
  • Arquitectura HDFS – cómo se organiza internamente Hadoop
    • Fragmentación, Réplicas y balanceamiento
  • File Formats en HDFS – diseños de particionado
    • Diseño Horizontal: SequenceFile
    • Diseño Horizontal: Avro
    • Diseño Híbrido: Parquet
    • Comparación
    • Compresión de datos en Hadoop
    • Cómo escoger file format y tipo de compresión

Esta sesión contiene asociada 3 sesiones prácticas:

  1. Management_sesion03_hands-on01: Comencemos con Hadoop-parte01
  2. Management_sesión03_Hands-on01: Comencemos con Hadoop_parte02
  3. Management_sesión03_Hands-on02: Block size & balanceamiento
  4. Management_sesion03_Hands-on03: FileFormats & Compresión

Management_sesión02:Fundamentos de las bases de datos

En esta sesión veremos:

  • Data Files e Índices – cómo se organizan por dentro las bases de datos.
  • B+ Tree – como construir un índice B+ Tree y para qué casos es más eficiente.
  • Índice Hash – como construir un índiceHash y para qué casos es más eficiente
  • Query Optimizer – qué mecanismos usan las bases de datos (relacionales) para optimizar las consultas.
    • Semantic Optimizer
    • Syntactic Optimiser
    • Physical Optimisation

Management_sesion01:Introducción

En está sesión introductoria al Big Data veremos:

  • Big Data, una manera de gestionar datos? – Introducción a las necesidad que surgen en Big Data.
  • Business Intelligence – «El workflow» entre los datos y departamentos en un ecosistema Big Data.
  • Qué es el Big Data – posible definición de esté área de conocimiento.
  • Challenges – algunos problemas en el ecosistema Big Data y como se intentan resolver.
  • Paradigma – paradigma Big Data: distribución, paralelismo, NoSQL …
  • Cloud & On premise – ventajas vs inconvenientes. Big Data y Cloud
  • Salidas profesionales – comentamos ciertos perfiles Big Data y sus roles principales.