1.big Data
1.big Data
1.big Data
4.1. Relacionales
Las bases de datos NoSQL se clasifican de la siguiente 5. Herramientas para el Big Data
manera:
Los datos no tienen sentido hasta que se convierten
4.2.1. Clave-valor. Las bases de datos clave-valor son en información y conocimiento útiles que pueden ayudar
altamente divisibles y permiten escalado horizontal a escalas a los directivos en la toma de decisiones. Para este
que otros tipos de bases de datos no pueden alcanzar. Los propósito, tenemos varios de los mejores software de Big
casos de uso como juegos, tecnologı́a publicitaria e IoT Data disponibles en el mercado. Este software ayuda a
se prestan particularmente bien con el modelo de datos almacenar, analizar, informar y hacer mucho más con los
clave-valor. datos.
5.1. Apache Hadoop Big Data.
Apache Hadoop es un framework que permite el proce- Desde sus humildes comienzos en el AMPLab de la U.C.
samiento distribuido de grandes conjuntos de datos en gru- Berkeley en 2009, Apache Spark se ha convertido en uno de
pos de computadoras. Está diseñado para escalar desde los principales frameworks de procesamiento distribuido de
servidores individuales a miles de máquinas, cada una de las big data en el mundo. Spark se puede implementar de varias
cuales ofrece computación y almacenamiento local. En lugar maneras, proporciona enlaces nativos para los lenguajes de
de depender del hardware para brindar alta disponibilidad, la programación Java, Scala, Python y R, y es compatible con
biblioteca en sı́ está diseñada para detectar y manejar fallas SQL, transmisión de datos y aprendizaje automático. Es
en la capa de la aplicación, por lo que brinda un servicio de utilizado por bancos, empresas de telecomunicaciones, em-
alta disponibilidad sobre un grupo de computadoras, cada presas de juegos, gobiernos y todos los gigantes tecnológicos
una de las cuales puede ser propensa a fallas. más importantes, como Apple, Facebook, IBM y Microsoft.
Apache Hive es una tecnologı́a distribuida diseñada Apache Airflow es una plataforma para crear, programar
y construida sobre Hadoop. Permite hacer consultas y y monitorear flujos de trabajo mediante programación. Es
analizar grandes cantidades de datos almacenados en el completamente de código abierto y es especialmente útil en
sistema de archivos de Hadoop, en la escala de petabytes. la arquitectura y orquestación de canalizaciones de datos
Tiene un lenguaje de consulta llamado HiveQL o HQL que complejas. Airflow se creó originalmente para resolver los
internamente transforma las consultas SQL en trabajos que problemas que surgen con las tareas cron de ejecución
ejecutan en Hadoop. El lenguaje de consulta HQL es un prolongada y los scripts pesados, pero desde entonces ha
dialecto de SQL, que no sigue el estándar ANSI SQL, sin crecido hasta convertirse en una de las plataformas de
embargo es muy similar. canalización de datos de código abierto más poderosas que
existen.
El proyecto comenzó en el 2008 y fue desarrollado
por Facebook para hacer que Hadoop se comportara de Airflow tiene un par de beneficios clave:
una manera más parecida a un data warehouse tradicional.
• Es dinámico: Cualquier cosa que se pueda hacer
La tecnologı́a Hadoop es altamente escalable, sin embargo
en Python, puede hacerlo en Airflow.
tiene dos problemas principales: La dificultad de uso y
• Es extensible: Airflow tiene complementos
orientado a operaciones Batch.
fácilmente disponibles para interactuar con los sis-
temas externos más comunes. También puede crear
Los datos gestionados por Hive son datos estructurados sus propios complementos según sea necesario.
almacenados en el sistema de archivos de Hadoop. Ası́, • Es escalable: Los equipos usan Airflow para ejecu-
optimiza de forma automática el plan de ejecución y usa tar miles de tareas diferentes por dı́a.
particionado de tablas en determinadas consultas..
Con Airflow, los flujos de trabajo se diseñan y expresan
Una consulta tı́pica en Hive ejecuta en varios data nodos como gráficos acı́clicos dirigidos (DAG), en los que cada
en paralelo, con trabajos asociados. Estas operaciones son nodo del DAG representa una tarea especı́fica. Airflow está
de tipo batch, por lo que la latencia es más alta que en diseñado con la creencia de que todas las canalizaciones
otros tipos de bases de datos. Además, hay que considerar de datos se expresan mejor como código y, como tal,
el retardo producido por la inicialización de los trabajos, es una plataforma de código primero donde puede iterar
sobre todo en el caso de consultar pequeños datasets. rápidamente en los flujos de trabajo. Esta filosofı́a de diseño
de código primero proporciona un grado de extensibilidad
5.3. Apache Spark que otras herramientas de canalización no pueden igualar.
Apache Spark es un framework de procesamiento Airflow se puede usar para prácticamente cualquier
de datos que puede realizar rápidamente tareas de canalización de datos por lotes, y hay muchos casos de uso
procesamiento en conjuntos de datos muy grandes y documentados en la comunidad. Debido a su extensibilidad,
también puede distribuir tareas de procesamiento de datos Airflow es particularmente poderoso para orquestar trabajos
en varias computadoras, ya sea solo o en conjunto con con dependencias complejas en múltiples sistemas externos.
otras herramientas informáticas distribuidas. Estas dos
cualidades son clave para los mundos de los grandes datos
y el aprendizaje automático, que requieren la organización 5.5. Apache Kafka
de una potencia informática masiva para procesar grandes
almacenes de datos. Spark abstrae gran parte del trabajo Apache Kafka es una plataforma de transmisión de
duro de la computación distribuida y el procesamiento de eventos distribuidos de código abierto utilizada por miles de
empresas para canalizaciones de datos de alto rendimiento, 5.7. Power Bi
análisis de transmisión, integración de datos y aplicaciones
de misión crı́tica. Power BI is a collection of software services, apps,
and connectors that work together to turn your unrelated
La transmisión de eventos es la práctica de capturar sources of data into coherent, visually immersive, and in-
datos en tiempo real de fuentes de eventos como bases de teractive insights. Your data may be an Excel spreadsheet,
datos, sensores, dispositivos móviles, servicios en la nube or a collection of cloud-based and on-premises hybrid data
y aplicaciones de software en forma de flujos de eventos; warehouses. Power BI lets you easily connect to your data
almacenar estos flujos de eventos de forma duradera para sources, visualize and discover what’s important, and share
su posterior recuperación; manipular, procesar y reaccionar that with anyone or everyone you want.
a los flujos de eventos en tiempo real y enrutar los flujos
de eventos a diferentes tecnologı́as de destino según sea 5.8. Quicksights
necesario. La transmisión de eventos garantiza un flujo
continuo y una interpretación de los datos para que la Amazon QuickSight permite que todos los miembros de
información correcta esté en el lugar correcto, en el su organización comprendan sus datos mediante preguntas
momento correcto. en lenguaje natural, la exploración a través de paneles
interactivos o la búsqueda automática de patrones y valores
La transmisión de eventos se aplica a una amplia var- atı́picos impulsada por machine learning.
iedad de casos de uso en una gran cantidad de industrias y
organizaciones. Sus muchos ejemplos incluyen: Los usuarios finales de las organizaciones pueden
realizar preguntas en lenguaje natural y recibir respuestas
• Para procesar pagos y transacciones financieras en con visualizaciones relevantes. QuickSight Q utiliza
tiempo real, como en bolsas de valores, bancos machine learning para interpretar la intención de una
y seguros. Para rastrear y monitorear automóviles, pregunta y analizar los datos para responder las preguntas
camiones, flotas y envı́os en tiempo real, como en empresariales de manera rápida.
logı́stica y la industria automotriz.
• Para capturar y analizar continuamente datos de Los analistas empresariales pueden crear paneles de
sensores de dispositivos IoT u otros equipos, como control de pı́xeles perfectos y sin servidor en minutos y
en fábricas y parques eólicos. sin problemas, mediante la conexión segura a petabytes de
• Para recopilar y reaccionar de inmediato a las in- datos en Amazon S3 y la realización de consultas a través
teracciones y pedidos de los clientes, como en el de Amazon Athena, mientras comparten con decenas de
comercio minorista, la industria hotelera y de viajes, miles de usuarios en Amazon QuickSight, todo sin software
y las aplicaciones móviles. cliente o infraestructura de servidor.
• Monitorear a los pacientes en atención hospitalaria
y predecir cambios de condición para asegurar un Los desarrolladores pueden implementar y escalar
tratamiento oportuno en emergencias. análisis integrados a cientos de miles de usuarios en
• Para conectar, almacenar y poner a disposición datos aplicaciones con API de AWS robustas. Comparta la
producidos por diferentes divisiones de una empresa. información y la visualización de datos con todos los
Servir como base para plataformas de datos, arqui- usuarios de la organización, ya sea a través de la Web, de
tecturas basadas en eventos y microservicios. dispositivos móviles, del email o de aplicaciones integradas.
6. Conclusión
Debido a las grandes cantidades de datos y a las
necesidades de obtener cada vez mejor calidad de
informacion y conocimiento de estos mismos, muchas
herramientas, procesos y conceptos se han desarrollado
para poder hacer frente a estos nuevos retos.
References
[1] URL : https://kafka.apache.org/intro.
[2] ¿Qué es una base de datos relacional? URL: https :
//www.oracle.com/mx/database/what-is-a-relational-
database/.
[3] Apache airflow documentation¶. URL: https://airflow.
apache.org/docs/apache-airflow/stable/index.html.
[4] Apache Hive. URL: https://hive.apache.org/.
[5] Thomas Erl, Wajid Khattak, and Paul Buhler. Big Data
Fundamentals: Concepts, Drivers amp; Techniques.
Prentice Hall, 2016.
[6] Alex Gorelik. The Enterprise Big Data Lake: Deliver-
ing the promise of Big Data and data science. O’Reilly
Media, 2019.
[7] Markku Lahtela and Philip (Provenance) Kaplan. AWS
Quicksight. 1966. URL: https://aws.amazon.com/es/
quicksight/.
[8] Project jupyter. URL: https://jupyter.org/.