Hadoop
Hadoop
Hadoop es Open-Source.
Componentes Clave
Hadoop Distributed File System (HDFS): HDFS es el sistema de archivos distribuido que permite almacenar datos en
múltiples máquinas y ofrece alta disponibilidad y tolerancia a fallos.
MapReduce: Es el modelo de programación de Hadoop que permite el procesamiento paralelo de grandes conjuntos de
datos distribuidos a través de un clúster de computadoras. Funciona en dos fases principales: Map y Reduce. La fase Map
procesa y filtra datos, mientras que la fase Reduce agrega y consolida los resultados.
YARN (Yet Another Resource Negotiator): Es el sistema de administración de recursos de Hadoop que gestiona y programa
los recursos del clúster, permitiendo a múltiples aplicaciones trabajar sobre el mismo clúster.
Hadoop Common: Son las bibliotecas y utilidades que soportan otros módulos de Hadoop.
Ecosistema de Hadoop: Hadoop tiene un ecosistema rico que incluye varias herramientas y proyectos adicionales como
Hive (para consultas SQL), Pig (un lenguaje de alto nivel para el procesamiento de datos), HBase (una base de datos NoSQL),
Spark (para procesamiento en memoria), y muchos otros.
Hadoop Distributed File System (HDFS): HDFS es el sistema de archivos
distribuido que permite almacenar datos en múltiples máquinas y ofrece
alta disponibilidad y tolerancia a fallos.
MapReduce: Es el modelo de programación de Hadoop que permite el procesamiento paralelo de grandes conjuntos de datos
distribuidos a través de un clúster de computadoras. Funciona en dos fases principales: Map y Reduce. La fase Map procesa y
filtra datos, mientras que la fase Reduce agrega y consolida los resultados.
Distribuciones de Hadoop
● Análisis de grandes datos (Big Data Analytics): Empresas utilizan Hadoop para
analizar grandes volúmenes de datos para obtener insights.
● Almacenamiento de datos a gran escala: Se usa para almacenar grandes volúmenes
de datos de manera eficiente.
● Procesamiento de datos en tiempo real: Con herramientas como Apache Storm y
Apache Flink integradas en el ecosistema de Hadoop.
Casos de uso comunes de Hadoop
Hadoop se puede utilizar para analizar datos de secuencias de clics para segmentar los usuarios y conocer sus
preferencias. Los anunciantes también pueden analizar secuencias de clics y registros de impresión de publicidad
para ofrecer anuncios más eficaces.
Data Archiving
Debido a que Hadoop es una tecnología de bajo coste para el almacenamiento y acceso a los datos. Podremos
valernos de conseguir almacenar grandes bancos de datos históricos, que por su composición cuentan con accesos
poco frecuentes y SLAs relajadas, Hadoop te permite construir una infraestructura para cubrir las necesidades.
Podrás contar con almacenamiento de muchos años los cuales te permitirá disponer de ellos para análisis futuros,
calcular predicciones o simplemente como un gran banco documental.
Casos de uso comunes de Hadoop
Internet de la cosas nos provee un mundo de nuevas posibilidades, con la creciente creación de APIs y nuevos desarrollos
podemos obtener datos de casi cualquier dispositivo (Bicicletas, Neveras, Casas, etc). Pero para almacenar, tratar y disponer de
dichos datos necesitamos disponer de una plataforma escalable y potente como lo es Hadoop, permitiendo almacenar
distintos tipos de datos y a grandes flujos de velocidad.
Veámoslo como un DW distribuido un nivel mucho más estratégico donde prima la necesidad de centralizar los datos por
ejemplo de todas sus sucursales, tiendas, ventas, etc. minimizando los silos independientes, permitiendo un cross-selling
sinérgico, análisis multi-canal, unificación de KPIs y mucho más. Éste caso se apoya en la capacidad, tanto en almacenamiento
como en procesamiento, de utilizar cualquier tipo de dato existente en la organización (o fuera de ella), y con escalabilidad
ilimitada. Hadoop permite, además, abrir los datos a distintos enfoques o tecnologías de procesamiento: predictivos,
regresivos, batch, online, MapReduce, SQL, R, SAS, etc. (siempre sobre los mismos datos y sobre la misma plataforma).
Capturas de Instalacion
Capturas