0% found this document useful (0 votes)
22 views

Hadoop

instalar hadoop
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
22 views

Hadoop

instalar hadoop
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
You are on page 1/ 11

Integrantes:

Isis Belsabeth Narvaez Sauceda


Adolfo Carranza Pereira
Kevin Antonio Guzmán Barahona
Catedrático:
Ing. Ricardo Enrique Lagos Mendoza
Tema:
Hadoop
Clase:
Programación para sistemas abiertos I
Hadoop

Hadoop es un marco de software de código abierto que facilita el procesamiento y almacenamiento de


grandes conjuntos de datos en un entorno distribuido. Fue desarrollado por Apache Software Foundation
y está diseñado para escalar desde servidores individuales a miles de máquinas, cada una ofreciendo
almacenamiento y computación local.
Escalabilidad: Puede escalarse horizontalmente añadiendo más nodos a un
clúster.

Flexibilidad: Puede almacenar y procesar cualquier tipo de datos, ya sean


estructurados, semi-estructurados o no estructurados.

Tolerancia a fallos: Los datos se replican en múltiples nodos, proporcionando


alta disponibilidad y resistencia a fallos.

Costo-efectividad: Al ser de código abierto y utilizar hardware de bajo costo,


es una solución accesible para procesar grandes volúmenes de información

Hadoop es Open-Source.
Componentes Clave

Hadoop Distributed File System (HDFS): HDFS es el sistema de archivos distribuido que permite almacenar datos en
múltiples máquinas y ofrece alta disponibilidad y tolerancia a fallos.

MapReduce: Es el modelo de programación de Hadoop que permite el procesamiento paralelo de grandes conjuntos de
datos distribuidos a través de un clúster de computadoras. Funciona en dos fases principales: Map y Reduce. La fase Map
procesa y filtra datos, mientras que la fase Reduce agrega y consolida los resultados.

YARN (Yet Another Resource Negotiator): Es el sistema de administración de recursos de Hadoop que gestiona y programa
los recursos del clúster, permitiendo a múltiples aplicaciones trabajar sobre el mismo clúster.

Hadoop Common: Son las bibliotecas y utilidades que soportan otros módulos de Hadoop.

Ecosistema de Hadoop: Hadoop tiene un ecosistema rico que incluye varias herramientas y proyectos adicionales como
Hive (para consultas SQL), Pig (un lenguaje de alto nivel para el procesamiento de datos), HBase (una base de datos NoSQL),
Spark (para procesamiento en memoria), y muchos otros.
Hadoop Distributed File System (HDFS): HDFS es el sistema de archivos
distribuido que permite almacenar datos en múltiples máquinas y ofrece
alta disponibilidad y tolerancia a fallos.
MapReduce: Es el modelo de programación de Hadoop que permite el procesamiento paralelo de grandes conjuntos de datos
distribuidos a través de un clúster de computadoras. Funciona en dos fases principales: Map y Reduce. La fase Map procesa y
filtra datos, mientras que la fase Reduce agrega y consolida los resultados.
Distribuciones de Hadoop

Cloudera fue la primera distribución Hadoop del mercado. Su chief


architect es el propio Dough Cutting, uno de los creadores de
Hadoop.

Mapr pone el foco en ofrecer el


máximo rendimiento y tolerancia a
fallos, aprovechando el potencial de
Hadoop para trabajar a gran escala,
con el menor esfuerzo. Es el
distribuidor de Hadoop que mayor
La filosofía de HortonWorks esta más
cercana al modelo de innovación esfuerzo ha hecho en hacer fiables y
opensource. Toda la tecnología de la eficientes las mayores
distribución HortonWorks es Apache implementaciones de clusters
open source 100% Hadoop
Usos comunes

● Análisis de grandes datos (Big Data Analytics): Empresas utilizan Hadoop para
analizar grandes volúmenes de datos para obtener insights.
● Almacenamiento de datos a gran escala: Se usa para almacenar grandes volúmenes
de datos de manera eficiente.
● Procesamiento de datos en tiempo real: Con herramientas como Apache Storm y
Apache Flink integradas en el ecosistema de Hadoop.
Casos de uso comunes de Hadoop

Análisis de secuencias de clics

Hadoop se puede utilizar para analizar datos de secuencias de clics para segmentar los usuarios y conocer sus
preferencias. Los anunciantes también pueden analizar secuencias de clics y registros de impresión de publicidad
para ofrecer anuncios más eficaces.

Data Archiving

Debido a que Hadoop es una tecnología de bajo coste para el almacenamiento y acceso a los datos. Podremos
valernos de conseguir almacenar grandes bancos de datos históricos, que por su composición cuentan con accesos
poco frecuentes y SLAs relajadas, Hadoop te permite construir una infraestructura para cubrir las necesidades.
Podrás contar con almacenamiento de muchos años los cuales te permitirá disponer de ellos para análisis futuros,
calcular predicciones o simplemente como un gran banco documental.
Casos de uso comunes de Hadoop

(IoT) Internet de la cosas

Internet de la cosas nos provee un mundo de nuevas posibilidades, con la creciente creación de APIs y nuevos desarrollos
podemos obtener datos de casi cualquier dispositivo (Bicicletas, Neveras, Casas, etc). Pero para almacenar, tratar y disponer de
dichos datos necesitamos disponer de una plataforma escalable y potente como lo es Hadoop, permitiendo almacenar
distintos tipos de datos y a grandes flujos de velocidad.

Repositorio centralizado de datos

Veámoslo como un DW distribuido un nivel mucho más estratégico donde prima la necesidad de centralizar los datos por
ejemplo de todas sus sucursales, tiendas, ventas, etc. minimizando los silos independientes, permitiendo un cross-selling
sinérgico, análisis multi-canal, unificación de KPIs y mucho más. Éste caso se apoya en la capacidad, tanto en almacenamiento
como en procesamiento, de utilizar cualquier tipo de dato existente en la organización (o fuera de ella), y con escalabilidad
ilimitada. Hadoop permite, además, abrir los datos a distintos enfoques o tecnologías de procesamiento: predictivos,
regresivos, batch, online, MapReduce, SQL, R, SAS, etc. (siempre sobre los mismos datos y sobre la misma plataforma).
Capturas de Instalacion
Capturas

You might also like

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy