Lecturas Big Data C

¿Qué es big data?
El responsable del área de gobierno de datos y analítica de una empresa de telefonía que tiene más de 8
millones de líneas activas, está necesitando un número mayor de información de los clientes para
realizar campañas de fidelización y retención.
Como el volumen de los datos es muy grande y el procesamiento de los mismos va a ser muy lento, se
está evaluando utilizar big data.
En esta lectura podrás entender a qué nos referimos cuando hablamos de big data.
¿Qué es big data?
Referencias
Descarga en PDF
LECCIÓN 1 de 3
¿Qué es big data?
El término big data, es una palabra que significa muchas cosas diferentes, y que ha dejado de estar limitado al mundo
de la tecnología. Las empresas ven al big data como una prioridad empresarial debido a “su capacidad para
influenciar profundamente en el comercio de una economía integrada a escala global". Además de proporcionar
soluciones a antiguos retos empresariales, inspira nuevas formas de transformar procesos, empresas, sectores enteros
e incluso la propia sociedad” (IBM, 2012, https://bit.ly/2VyvocW). Las empresas utilizan big data para obtener
resultados centrados en el cliente principalmente, así como también aprovechan los datos internos y crean un mejor
ecosistema de información.
“Big data es el término empleado para referirse a toda aquella cantidad

inteligente de datos que, debido a sus características, no pueden ser
siempre procesados por los sistemas informáticos actuales” (Fernández,
2017)
Hoy en día, el término “big data” es muy utilizado aunque muchas veces no quede claro a que se refiere. Al respecto:
Esta palabra se ha utilizado para trasladar al público todo tipo de conceptos entre los que se
incluyen grandes cantidades de datos, analítica de redes sociales, herramientas de última
generación para gestionar los datos, datos en tiempo real y mucho más. Independientemente de la
etiqueta que le colguemos, las empresas comienzan a comprender y explorar cómo procesar y
analizar de nuevas formas una amplia variedad de información. Al hacerlo, un pequeño pero
creciente grupo de pioneros está logrando resultados empresariales importantísimos.
En sectores de todo el mundo los directivos reconocen la necesidad de aprender más acerca de
cómo explotar big data (IBM, 2012, https://bit.ly/2VyvocW).
Gracias al gran avance que existe en las tecnologías de la información, las organizaciones empresariales se han
tenido que enfrentar al desafío de encontrar nuevos medios que:
… les permitan analizar, descubrir y entender más allá de lo que sus herramientas tradicionales
reportan sobre su información, al mismo tiempo que, durante los últimos años, el gran
crecimiento de las aplicaciones disponibles en internet (geo-localización, redes sociales, etc.) han
sido parte importante en las decisiones de negocio de las empresas (Tech BI, 2016,
https://bit.ly/2KyelkN).
La primera pregunta que posiblemente llegue a su mente en este momento es ¿qué es big data y por qué se ha vuelto
tan importante? Para responderla, podríamos entonces referirnos al big data en términos generales como la tendencia
en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de
decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados) que de
otra forma, tomaría demasiado tiempo y serían muy costosos de cargar a un base de datos relacional para su análisis.
De manera que, el concepto de big data aplica para toda aquella información que no puede ser procesada o analizada
utilizando procesos o herramientas tradicionales.
Ahora bien, big data no se refiere a alguna cantidad en específico, sino que el término es usualmente utilizado
cuando se habla de petabytes y exabytes de datos. Entonces, ¿cuánto es demasiada información de manera que sea
elegible para ser procesada y analizada utilizando big data? Analicemos esto primeramente en términos de bytes:
 Gigabyte = 1 000 000 000
Terabyte = 1 000 000 000 000
Petabyte = 1 000 000 000 000 000
Exabyte = 1 000 000 000 000 000 000
Si hablamos de las características principales de una oportunidad para big data, podemos comenzar diciendo que
mucho se habla del gran volumen de información, pero además, que este existe en una gran variedad de datos que
pueden ser representados de diversas maneras en todo el mundo, por ejemplo, dispositivos móviles, audio, video,
sistemas GPS, incontables sensores digitales en equipos industriales, automóviles, medidores eléctricos, veletas,
anemómetros, etc., los cuales pueden medir y comunicar el posicionamiento, movimiento, vibración, temperatura,
humedad y hasta los cambios químicos que sufre el aire, de tal forma que las aplicaciones que analizan estos datos
requieren que la velocidad de respuesta sea lo más rápida posible para lograr obtener la información correcta en el
momento preciso.
Figura 1. Definición de big data – Las V del big data

Fuente: The Unbealievable Machine, s.f., https://bit.ly/2yBta3C
Los seres humanos estamos creando y almacenando información constantemente y cada vez más
en cantidades astronómicas. Se podría decir que si todos los bits y bytes de datos del último año
fueran guardados en CD's, se generaría una gran torre desde la Tierra hasta la Luna y de regreso.
(Barranco Fragoso, 2012, https://bit.ly/2KuOt9w).
Un concepto que todos deberíamos entender, según Barranco Fragoso (2012), es que las bases de datos
convencionales son una parte importante y relevante para una solución analítica, que incluso se vuelve vital cuando
se usa en conjunto con la plataforma de big data. Al respecto, explica:
Pensemos en nuestras manos izquierda y derecha, cada una ofrece fortalezas individuales para
cada tarea en específico. Por ejemplo, un beisbolista sabe que una de sus manos es mejor para
lanzar la pelota y la otra para atraparla; puede ser que cada mano intente hacer la actividad de la
otra, sin embargo, el resultado no será el más óptimo (Barranco Fragoso, 2012,
https://bit.ly/2KuOt9w).
Figura 2. Proceso de digitalización de big data
Fuente: Linkeit, s.f., https://bit.ly/34XBiHN

Actualmente, sabemos que muchas compañías cuentan con importantes cantidades de datos transaccionales y que la
acumulación masiva de datos se da en una diversidad de industrias. Tal como expresa Barranco Fragoso:
La acumulación masiva de datos se la puede encontrar en diversas industrias, las compañías

mantienen grandes cantidades de datos transaccionales, reuniendo información acerca de sus
clientes, proveedores, operaciones, etc., de la misma manera sucede con el sector público. En
muchos países se administran enormes bases de datos que contienen datos de censo de población,
registros médicos, impuestos, etc., y si a todo esto le añadimos transacciones financieras
realizadas en línea o por dispositivos móviles, análisis de redes sociales (en Twitter son cerca de
12 Terabytes de tweets creados diariamente y Facebook almacena alrededor de 100 Petabytes de
fotos y videos), ubicación geográfica mediante coordenadas GPS, en otras palabras, todas
aquellas actividades que la mayoría de nosotros realizamos varias veces al día con nuestros
"smart phones", estamos hablando de que se generan alrededor de 2.5 quintillones de bytes
diariamente en el mundo (2012, https://bit.ly/2KuOt9w).
 1 quintillón = 1 000 000 000 000 000 000 000 000 000 000
De acuerdo con un estudio realizado por Cisco, entre el 2011 y el 2016 donde refleja que la
cantidad de tráfico de datos móviles crecerá a una tasa anual de 78%, así como el número de
dispositivos móviles conectados a Internet excederá el número de habitantes en el planeta. Las
naciones unidas proyectan que la población mundial alcanzará los 7.5 billones para el 2016 de tal
modo que habrá cerca de 18.9 billones de dispositivos conectados a la red a escala mundial, esto
conllevaría a que el tráfico global de datos móviles alcance 10.8 Exabytes mensuales o 130
Exabytes anuales. Este volumen de tráfico previsto para 2016 equivale a 33 billones de DVDs
anuales o 813 cuatrillones de mensajes de texto.
Pero no solamente somos los seres humanos quienes contribuimos a este crecimiento enorme de
información, existe también la comunicación denominada máquina a máquina (M2M machine-to-
machine) cuyo valor en la creación de grandes cantidades de datos también es muy importante.
Sensores digitales instalados en contenedores para determinar la ruta generada durante una
entrega de algún paquete y que esta información sea enviada a las compañías de transportación,
sensores en medidores eléctricos para determinar el consumo de energía a intervalos regulares
para que sea enviada esta información a las compañías del sector energético. Se estima que hay
más de 30 millones de sensores interconectados en distintos sectores como automotriz,
transportación, industrial, servicios, comercial, etc. y se espera que este número crezca en un 30%
anualmente (Barranco Fragoso, 2012, https://bit.ly/2KuOt9w).
Para concluir, es importante destacar que la big data “no solo produce un cambio radical en la gestión empresarial,
pues además de ofrecer un gran servicio informático a negocios de todo el mundo, ha conseguido cambiar muchos
aspectos de nuestra vida cotidiana” (Linkeit, s.f., https://bit.ly/34XBiHN)
Si ya terminaste esta lectura, ahora puedes reunirte con tus pares y explicarles con claridad qué es big data y cómo
beneficiaría a una compañía.
LECCIÓN 2 de 3
Referencias
Barranco Fragoso, R. (2012). ¿Qué es Big Data? Recuperado de https://www.ibm.

com/developerworks/ssa/local/im/que-es-big-data/
Fernández, E. P. (2017). Big data: eje estratégico en la industria audiovisual. Barcelona, España: Editorial UOC
IBM. (2012). Analytics: el uso de big data en la vida real [pdf]. Recuperado de
https://www.fundacionseres.org/Lists/Informes/Attachments/951/IBM%20Analytics%20el%20uso%20de%20big%2
0data%20en%20el%20mundo%20real%20-%20Como%
20las%20empresas%20mas%20innovadoras%20extraen%20valor%20de%20datos%20inciertos.pdf
Linke IT. (S.f.). Cambios y aplicaciones SAP HANA Big Data [entrada de blog]. Recuperado de
https://www.linkeit.com/es/blog/cambios-y-aplicaciones-sap-hana-big-data
Tech BI. (2016). Big Data. Recuperado de http://www.tech-bi.com/es/servicios/ bigdata/
The Unbelievable Machine. (s.f.). What is Big Data? – A definition with five Vs [entrada de blog]. Recuperado de
https://blog.unbelievable-machine.com/en/what-is-big-data-definition-five-vs
LECCIÓN 3 de 3
Descarga en PDF
Este bloque se crea al final de la carga, luego de haber exportado la lectura

a PDF y se nomencla con el nombre de la lectura.
File Attachment Block

No file added
Características del Big Data
El gerente de la compañía para la cual te contrataron, luego de entender qué es el big data, te cita para autorizar el presupuesto. En este momento debes explicarle
cuáles son las características y las ventajas de utilizar big data para procesar los volúmenes de información que generan los clientes.
A continuación, justamente, desarrollaremos las características del big data y las ventajas de implementarlo.
Principales características y conceptos del big data
Referencias
LECCIÓN 1 de 2
Principales características y conceptos del big data
Las 3V de big data
Las características del big data pueden resumirse en las 3V: volumen, variedad y velocidad.
Por un lado, el gran volumen de información; por otro, la variedad de datos, que pueden ser representados de diferentes maneras en el mundo; y finalmente, la velocidad con
la cual estos datos se generan.
Principales tipos de datos
Usualmente las empresas se preguntan qué información es la que se debe analizar. Sin embargo, el cuestionamiento debería estar enfocado hacia el problema que se está
intentando resolver.
Como sabemos, existe una amplia variedad de tipos de datos a analizar. En este sentido, una buena clasificación nos ayudaría a entender mejor su representación. Sin embargo,
debemos considerar que estas categorías puedan extenderse con el avance tecnológico.
A continuación se presenta una lista de los tipos de datos.
Figura 1. Tipos de datos
Fuente: Barranco Fragoso, 2012, https://ibm.co/3eQdfiD

1 Web and Social Media: Incluye contenido web e información que es obtenida de las redes sociales como Facebook, Twitter, LinkedIn, blogs.
2 Machine-to-Machine [máquina a máquina] (M2M): M2M se refiere a las tecnologías que permiten conectarse a otros dispositivos. M2M utiliza
dispositivos como sensores o medidores que capturan algún evento en particular (velocidad, temperatura, presión, variables meteorológicas, variables
químicas como la salinidad, etc.) los cuales transmiten a través de redes alámbricas, inalámbricas o híbridas a otras aplicaciones que traducen estos
eventos en información significativa.
3 Big Transaction Data [grandes datos transaccionales]: Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas
(CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados.
4 Biometrics [datos biométricos]: Información biométrica en la que se incluye huellas digitales, escaneo de la retina, reconocimiento facial, genética, etc.
En el área de seguridad e inteligencia, los datos biométricos han sido información importante para las agencias de investigación.
5 Human Generated [datos generados por humanos]: Las personas generamos diversas cantidades de datos como la información que guarda un call
center al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios médicos, etc. [MG1] (Barranco Fragoso,
2012, https://ibm.co/3eQdfiD).
¿Qué ventajas aporta el big data a la empresa?
Son muchos los beneficios que aporta el big data al sector empresarial. Particularmente, las áreas más beneficiadas son las de conocimiento del cliente, marketing, operaciones
y gestión del riesgo.
Las empresas que desarrollen una adecuada estrategia de big data obtendrán cinco ventajas competitivas:
1 Implementación de mejoras tecnológicas que posibilitan la adquisición de datos y permiten descubrir las necesidades y puntos de mejora en la compañía.
2 Inmersión de nuevas variables en la toma de decisiones a través de algoritmos automatizados. Los análisis de los datos pueden mejorar sustancialmente la
toma de decisiones dentro de una compañía reduciendo al mínimo los riegos. La toma de decisiones no es igual en todas las organizaciones, hay algunas
que optimizan sus decisiones mediante el análisis de datos de clientes, empleados, o incluso sensores incorporados en los productos.
3 Innovación en la creación de productos y servicios. Hay que tener en cuenta que el big data permite que las compañías evalúen sus productos. Mediante el
análisis de datos, las empresas obtienen información muy valiosa que les permite crear nuevos productos o rediseñar los ya existentes.
4 Segmentación de los clientes para personalizar acciones. De esta forma las empresas pueden orientar sus servicios y satisfacer las necesidades de sus
consumidores de forma específica. La personalización de productos y servicios es una de las tendencias que pisa más fuerte actualmente.
Mejora de la accesibilidad y la fluidez de la información dentro de la propia empresa. Las empresas que digitalicen los datos y habiliten herramientas para
facilitar la búsqueda de información crearán una dinámica de trabajo más rápida y eficaz (Womenalia, 2017, https://bit.ly/2yGCfYE).
Las nuevas 3V del big data
Anteriormente mencionamos las 3V del big data, que son las características que lo definen. Sin embargo, el avance tecnológico y los nuevos usos que se da a la información,
han obligado en un corto tiempo a considerar nuevos factores a la hora caracterizar al big data. Así es como a las famosas de 3V se le agregan otras 3V:
VERACIDAD: VISUALIZACIÓN: VA L O R :
La abundancia de información moviéndose a gran velocidad no tiene valor si no es correcta. De hecho, para que los análisis arrojen resultados adecuados los datos
deben ser verdaderos. Es importante considerar que los datos inadecuados pueden causar problemas a las organizaciones y a los consumidores.
La veracidad cobra mayor relevancia en los casos en que el análisis de datos genera toma de decisiones automatizadas, es decir, en donde las personas no
intervienen.
Uno de los desafíos de quienes realizan análisis de datos es encontrar la manera de representar la información de forma sencilla y entendible. De todas formas,
visualización no es sinónimo de gráficos sencillos, por el contrario, se trata de lograr que extensas listas de variables sean fáciles de leer y entender.
Dependiendo de cada industria, el big data posee diferente valor. Al mismo tiempo, la información por sí misma no tiene ningún valor. Este valor está dado por el
análisis de los datos y cómo estos se convierten en información y, eventualmente, en conocimiento.
Las cinco aplicaciones principales del big data
El big data es una herramienta que brinda importantes soluciones a las organizaciones. Estas soluciones pueden agruparse en cinco grupos principales:
La exploración de grandes datos

–
Las tres 'V' del Big Data (velocidad, volumen y variedad) reflejan el reto al que se enfrentan las grandes compañías a la hora de dar a los datos un valor para tomar mejores decisiones, mejorar las
operaciones y reducir los riesgos. Por lo tanto, es necesario poder navegar de forma fácil para obtener la información tanto dentro de los sistemas de la compañía como los datos que llegan desde
afuera.
El aumento del llamado “bruto de datos” o “ruido” plantea el dilema de cómo contextualizar estos datos para alimentar un mejor análisis y una mejor toma de decisiones. La exploración de datos,
además de ofrecer soluciones a estos problemas, también contribuye a disminuir el riesgo de filtración de información confidencial gracias a sus mecanismos de seguridad.
360º de visión sobre el cliente

–
Para conseguir un conocimiento total del cliente, las compañías deben obtener información de fuentes internas y externas para poder asesorarle y entender cuál es la mejor manera de ayudarle. El
objetivo es comprender el comportamiento del cliente y predecir sus futuras acciones.
Los empleados que trabajan directamente con los clientes deben poseer la información suficiente y adecuada para crear una relación de confianza y conseguir un compromiso o una fidelidad por
parte del consumidor. Para conseguirlo, el empleado debe poder disponer al instante tanto de información interna (según el comportamiento del cliente en otras experiencias con la propia
compañía) como externa (sobre sus gustos e intereses, obtenida de redes sociales, correo electrónico, etc.).
Hay que aclarar que la palabra cliente es un nombre genérico, que pasará a denominarse paciente en el sector de la salud, un sospechoso en un caso policial, etc.
Extensión de la seguridad/inteligencia
–
Mecanismos para localizar anomalías y prevenir ataques. Este tipo de soluciones permite discernir entre cantidades masivas de datos (tanto internos como externos) posibles relaciones ocultas,
detectar patrones de conducta y prevenir amenazas a la seguridad. También posibilita descubrir un fraude mediante la comprobación en tiempo real del historial de actividad de una cuenta, con lo
que es factible desenmascarar un comportamiento anormal de un usuario o una transacción sospechosa.
También permite examinar nuevas fuentes y variedades de datos como pruebas de una actividad criminal, por ejemplo, internet.
Las tres aplicaciones principales son:
Visión mejorada de inteligencia y vigilancia: análisis de datos en movimiento y en reposo para encontrar asociaciones o descubrir patrones. Esta información en tiempo real puede
incluso salvar vidas
Previsión y atenuación de ataques cibernéticos en tiempo real: analizando el tráfico de la red, las compañías pueden descubrir amenazas nuevas y prevenir ataques de hackers, intrusos,
espionaje, fraude cibernético e incluso ciberterrorismo.
Predicción y prevención del crimen: la capacidad para analizar datos de la red de telecomunicaciones y de redes sociales permite detectar amenazas y adelantarse a los criminales antes de
que actúen.
Análisis de operaciones
–
Permite obtener visibilidad en tiempo real de las operaciones, la experiencia del cliente, transacciones y comportamiento. Dinamiza el plan para incrementar la eficiencia de las operaciones,
identifica e investiga las anomalías, y monitoriza la infraestructura end-to-end para evitar de forma preventiva la degradación o apagones en el servicio.
Con un acelerador de datos permite ingerir y procesar grandes volúmenes de datos para proporcionar un conocimiento detallado del estado de la compañía. Los machine data pueden ser
correlacionados con otros datos de la empresa como información del cliente o del producto, aunque el gran volumen de datos esté en formatos distintos que, sin la solución, no son compatibles
con los demás.
Esta combinación es de gran utilidad para los encargados de tomar las decisiones operativas, a la vez que aumenta la inteligencia y la eficiencia de las operaciones. Estos responsables de la toma
de decisiones pueden visualizar los datos a través de distintos sistemas para obtener la visión más informada posible y poder reaccionar de forma rápida ante cualquier imprevisto.
Aumentar el almacén de datos o Data Warehouse

–
Se trata de ampliar una estructura de almacenamiento de datos ya existente aplicando las ventajas de Big Data para incrementar su valor. El aumento del Data Warehouse nace de dos necesidades
básicas: sacar provecho de diferentes tipos de datos para ganar nuevas perspectivas de negocio en tiempo real, y para optimizar la estructura de almacenamiento de datos facilitando la tarea y
ahorrando costes. Existen tres tipos de Data Warehouse:
Pre-Processing Hub (núcleo de preprocesamiento): proporciona un área de montaje o “zona de aterrizaje” de los datos antes de decidir cuáles se incorporan al almacén de datos.
Discovery/Analytics (descubrimiento-análisis): da la capacidad de realizar análisis que deberían haberse hecho antes en el Data Warehouse, para así optimizar el almacén de datos y
posibilitar nuevos tipos de análisis.
Query-able Data Store (almacén de datos de consulta): descarga datos que se consultan con poca frecuencia o de una antigüedad considerable del data warehouse mediante software y
herramientas de integración de información, y los almacena en un espacio de almacenamiento de bajo coste, pero manteniéndolos aún accesibles desde la solución [MG1] (Logicalis, 2014,
https://bit.ly/2xSbpwS).
Ahora sí estás listo para ir a la reunión con el gerente de la compañía y explicarle qué características, ventajas y usos tiene big data.
LECCIÓN 2 de 2
Referencias
Barranco Fragoso, R. (2012). ¿Qué es Big Data? Recuperado de https://www.ibm. com/developerworks/ssa/local/im/que-es-big-data/
David López García. Universidad de Cantabria (2013). Análisis de las posibilidades de uso de Big Data en las organizaciones. Recuperado de https://repositorio.
unican.es/xmlui/bitstream/handle/10902/4528/TFM%20-%20David%20L%C3%B3 pez%20Garc%C3%ADaS.pdf?sequence=1
Logicalis, (2014). Big Data y las cinco aplicaciones principales. Recuperado de: https: //blog.es.logicalis.com/analytics/las-cinco-principales-aplicaciones-de-big-data
Womenalia, (2017). Big Data, qué es y qué beneficios aporta a la empresa. Recuperado de: https://www.womenalia.com/es/hoy-en-womenalia/135-actualidad/ 4023-big-data-
que-es-y-que-beneficios-aporta-a-la-empresa
Perfiles profesionales del Big Data
En la empresa en la cual estás trabajando ya se decidió la implementación de big data.

Ahora, te encargan el armado del área, es decir, deberás buscar cada uno de los perfiles necesarios para
desempeñar los roles del equipo.
En esta lectura conocerás los profesionales que forman parte de un área de big data.
Per les profesionales del big data
Referencias
LECCIÓN 1 de 2
Perfiles profesionales del big data
Los perfiles profesionales más buscados de big data
Siguiendo a Juan (2016):
Cada vez es más frecuente encontrar ofertas de empleo que buscan especialistas en la gestión de
grandes volúmenes de datos o, lo que es lo mismo, expertos en big data. Considerada una de las
profesiones con más futuro del siglo XXI, el experto en big data se alza como la nueva
especialidad más demandada por las empresas para convertir los datos en conocimiento.
Teniendo en cuenta que el 90 % de todos los datos del mundo se han creado sólo en los últimos 3
años, los expertos en big data se precisan más que nunca (https://bit.ly/2XRa04i).
¿Por qué las empresas buscan diferentes perfiles de big data?
Siempre hay variación en el tipo de trabajo y rol que desempeñan los empleados en las empresas,
el mismo avance tecnológico hace evolucionar las distintas disciplinas. En este sentido, Juan
(2016) sostiene:
Es así como muchos son los puestos de trabajo que, como consecuencia de la crisis, las empresas
no precisan. Sin embargo, hay otros nuevos que surgen a raíz de las necesidades que demanda la
transformación digital. En un entorno que evoluciona tan rápido tecnológicamente, las compañías
buscan ahora a especialistas capaces de trabajar con los grandes volúmenes de datos que se
almacenan día a día. Esos datos, debidamente analizados y procesados, son en realidad
información muy útil para las empresas y representan nuevas oportunidades de negocio, mejoras
en la toma de decisiones, conocimiento más preciso del público objetivo (https://bit.ly/2XRa04i).
Por otra parte, retomando lo que se menciona en el párrafo anterior, Juan (2016) agrega:
¿El problema? La falta en el mercado actual de personas especializadas en Big Data que puedan
ofrecer estos servicios. ¿La ventaja? Aquellas personas que estén formadas en esta área tienen
ante sí una oportunidad única y una clara ventaja en el ámbito profesional.
(https://bit.ly/2XRa04i).
Figura 1. El experto en big data

Fuente: IEBS, 2016, https://bit.ly/2XRa04i
Los 7 perfiles clave de los profesionales del big data
De acuerdo con Eurecat (2016):
Se ofrece puesto de trabajo para especialista en big data. Si abrimos LinkedIn u otros portales de
búsqueda trabajo cada vez es más frecuente encontrar ofertas laborales dirigidas a especialistas en
gestión de grandes volúmenes de datos. Los datos así lo confirman: Infojobs clasifica los
desarrolladores de soluciones big data entre las 6 primeras profesiones con más oportunidades
laborales y la consultora. Gartner estima que en 2018 la mitad de las grandes corporaciones
utilizarán los recursos del big data; un porcentaje similar dispondrán de algoritmos propios. Las
empresas necesitan gestionar sus datos y requieren perfiles multidisciplinares para convertir la
información en tiempo real en oportunidades de negocio. (https://bit.ly/2XXT1gv).
Por otra parte, Eurecat (2016) realizó una lista de los roles esenciales que deberían incorporar las distintas empresas:
¿Cuáles son los perfiles que deben integrar estos equipos? ¿Cómo podemos determinar los roles y
las responsabilidades? El Centro de Excelencia en Big Data de Eurecat identifica en el primer
número de la colección Big Data Insights, que publicará regularmente el centro de excelencia en
Big Data de Barcelona, los 7 roles fundamentales a incorporar en empresas:
1 Chief Data Officer (CDO): es el responsable de asegurar que la organización es data driven.
Lidera la gestión de datos y analítica asociada por el negocio y, por tanto, es responsable de los
diferentes equipos especialidades en datos.
2 Data Scientists (científico de los datos): son los miembros clave del equipo de ciencia de datos.
Permiten extraer conocimiento e información valiosa de los datos. Tienen visión general del
proceso de extremo a extremo y pueden resolver problemas de ciencias datos, la construcción de
modelos analíticos y algoritmos. Combinan diversas habilidades relacionadas con las matemáticas,
la estadística, la programación y visualización, pero también deben tener habilidades
comunicativas, para explicar los resultados obtenidos en la organización.
3 Citizen Data Scientist: es la persona dentro de la organización que típicamente no está formada
específicamente para ser Data Scientist, pero que puede extraer valor, a través de su experiencia,
explorando los datos, desde las unidades de negocio. Pueden ejecutar una serie simple de tareas
analíticas utilizando herramientas de descubrimiento de datos.
4 Data Engineer (ingeniero de datos): Se encarga de proporcionar los datos de una manera
accesible y apropiada a los usuarios y Deata scientists. Es un perfil especializado en infraestructura
big data. Desarrolla y explota técnicas, procesos, herramientas y métodos que deben servir para el
desarrollo de aplicaciones big data. Tiene un gran conocimiento en gestión de bases de datos,
arquitecturas de clusters, lenguajes de programación y sistemas de procesamiento de datos.
5 Data Steward (administrador de datos): es responsable de mantener la calidad, disponibilidad y
seguridad de los datos. Persigue mejorar el almacenamiento y presentación de los datos en toda la
empresa. Tiene conocimientos de los procesos de negocio y de cómo los datos se utilizan dentro de
estos procesos.
6 Business Data Analyst (analista de datos): participa en las iniciativas y proyectos de análisis de
datos. Es la persona que recoge las necesidades de los usuarios de negocio para los Data Scientist
y presenta resultados obtenidos.
7 Data Artist: son expertos en Business Analytics y son los responsables de crear los gráficos,
infografías y otras herramientas visuales para ayudar a las diferentes personas de la organización a
comprender datos complejos (https://bit.ly/2XXT1gv).
Figura 2. Perfiles profesionales del big data
Fuente: IEBS, 2016, https://bit.ly/2XRa04i.

Según lo establece Juan (2014):
Cada vez surgen más especializaciones de Big Data, ya que la revolución digital crece a pasos
agigantados y los complejos volúmenes de datos también. Las empresas demandan estos perfiles
para poder introducirse en los procesos de transformación digital, tan necesarios actualmente
(https://bit.ly/2XRa04i).
Ya conoces todos los perfiles que pueden intervenir para llevar adelante big data.
Ahora, ponte a buscar a los profesionales que consideras que harán falta para dar soporte a los objetivos de tu
organización.
LECCIÓN 2 de 2
Referencias
Juan, C. (2016). Los perfiles profesionales más buscados de Big Data. Recuperado de
https://www.iebschool.com/blog/profesionales-mas-buscados-big-data/
Eurecat. (2016). Los 7 perfiles clave de los profesionales del Big Data. Recuperado de https://eurecat.org/es/los-7-
perfiles-clave-de-los-profesionales-del-big-data/
Presente y futuro del Big Data
El big data es muy nombrado, sin embargo, se conoce muy poco sobre qué es, para qué se
usa y qué aplicaciones tiene en la vida real, fuera de las empresas. Supongamos que te
llaman de un colegio secundario con orientación en informática para que les des una charla
con el objetivo de que los estudiantes puedan conocer de qué se trata el big data.
Presente y futuro del big data
Referencias
Video conceptual
Revisión del Módulo 1: Introducción general y ecosistema big data

LECCIÓN 1 de 4
Presente y futuro del big data
Actualmente el big data ha dejado de ser un tema técnico para convertirse en una necesidad comercial. Lo primordial
es lograr un óptimo uso del mismo, lo que permitirá generar cambios significativos en el comercio, finanzas, salud,
asuntos gubernamentales, política y servicios a la sociedad, entre otros. Es fundamental para las empresas conocer y
explorar todos los datos que dispone. Hay una gran cantidad de conocimiento en la información sin explotar, que
puede proporcionar respuestas y nuevas metodologías para incrementar la productividad y la eficacia, mientras se
disminuyen los gastos innecesarios (IDATHA, 2014).
Siguiendo a IDHATA (2014), podemos observar diversos ejemplos de uso:
Google Flu Trends: utilizando los términos de búsqueda de los usuarios, Google predice cómo se
esparce el virus de la gripe por el mundo.
Planeamiento Urbano: el MIT (Instituto Tecnológico de Massachusetts) está utilizando información

obtenida a través de los teléfonos móviles y los patrones de tráfico para mejorar el planeamiento
urbano de la ciudad.
Seguros Santam: la mayor aseguradora de Sudáfrica, utiliza big data junto el análisis predictivo para
mejorar la detección de fraude y agilizar la gestión de siniestros.
Policía de Los Ángeles: el departamento de policía de Los Ángeles y la Universidad de California

están usando big data para predecir actos delictivos antes de que estos ocurran.
Bank of America: la segunda entidad bancaria más importante de los Estados Unidos utilizó big data
para entender por qué muchos de sus clientes comerciales se estaban yendo a bancos más pequeños.
UPS: la empresa internacional de logística y reparto ha estado utilizando big data para recolectar y
analizar información de más de 46.000 camiones de su flota de transporte. Gracias al uso inteligente
de los datos tomados, la compañía ha reducido en 32 millones de litros el gasto en combustible y
acortado en 137 millones de kilómetros sus rutas de reparto (IDATHA, 2014,
https://bit.ly/2VWTL2W).
La Evolución de big data en la empresa
Es muy difícil ser competitivo en la actual economía de escala global, ya que es indispensable que las empresas
posean un gran entendimiento de los mercados, los clientes, los productos, los competidores y todo lo que rodea al
negocio. El uso de técnicas de big data es clave para entender lo que sucede, como así también es muy importante la
inteligencia de negocio, la inteligencia analítica y la información (IDATHA, 2014).
Gracias a la fuerte adopción y desarrollo del big data, ahora las organizaciones de todo el mundo
están descubriendo nuevas formas de competir, mejorar y ganar. Su actual proceso de cambio les
permite sacar ventaja del amplio abanico de información disponible con el fin de enriquecer sus
decisiones y acrecentar el rendimiento de la empresa. Organizaciones de diferentes tamaños ya
han optado por usar de forma inteligente los datos disponibles, brindado a cada uno de los
sectores de la compañía las herramientas necesarias para que estos tomen las mejores y más
oportunas decisiones (IDATHA, 2014, https://bit.ly/2VWTL2W).
El big data es para todo tipo de organizaciones, cada empresa “sin importar su tamaño, puede verse beneficiada en la
utilización de nuevas herramientas de análisis que generen valor y brinden acceso a mejores oportunidades para su
negocio” (IDATHA, 2014, https://bit.ly/2VWTL2W). Existen muchos proveedores de macrodatos, es fundamental
tener claro el objetivo de big data que persigue la organización para poder evaluar los proveedores de estas
soluciones. Una amplia variedad de empresas proporciona productos y servicios acorde a las necesidades del cliente,
de este modo permiten desarrollar de forma eficiente la estrategia de la empresa. Entender correctamente la
información es la clave para el crecimiento y evolución de los negocios (IDATHA, 2014).
Big Data: presente y futuro para las empresas
Siguiendo a ABC (2013):
[Un] frente abierto por los investigadores y fabricantes de tecnología es adecuar el análisis de
grandes datos («big data») para favorecer al desarrollo de la sociedad. Ese gran yacimiento de
información digital es cada vez más grande y, por ende, más difícil de procesar.
Los expertos lo confirman: las empresas se sumergirán en el futuro en el universo del big data. El
reto consiste en capturar, almacenar, buscar, compartir y poner en valor «datos hasta fecha
infrautilizados o inaccesibles». La revolución de los datos masivos no es tendencia: «siempre ha
existido» pero todavía no ha explotado. (https://bit.ly/2Vx1Mge).
En este sentido, Merco (citado en Godino, 2013) sostiene:
Es cierto que en los últimos años, derivado de la digitalización de los negocios y de su gestión así
como de la explosión de dispositivos móviles, el crecimiento está siendo exponencial año a año.
Asimismo, la proliferación de las redes sociales, del intercambio de sentimientos, ideas y
opiniones en la red, está generando más datos que nunca. Lo cual supone una oportunidad para
todos.
El hecho de no ser capaz de analizar y obtener un valor de los datos que se está generando
responde a la volatilidad de los datos. Lo importante es que siempre se analice o aplicar analítica
para saber qué queremos responder, qué buscamos o, incluso, encontrar cosas que no sabíamos
(https://bit.ly/3cGOtQ0).
Gordino continua “actualmente, se estima que el 90 % de los datos creados en los últimos dos años -de los que el 80
% están sin estructurar- son acrónimos o tienen ironía, es decir, «llevan asociados sentimientos»” (2013,
https://bit.ly/3cGOtQ0).
Siguiendo la misma línea de reflexión, Godino (2013, https://bit.ly/3cGOtQ0) agrega: “Las empresas españolas
incorporarán en menos de dos años, big data a una velocidad del 304 % con respecto a este año, según datos de la
consultora IDC. Pero, ¿las empresas saben aprovechar sus posibilidades?”.
Por su parte, Merco (citado en Godino, 2013) menciona:
Las empresas cada vez son más conscientes de las posibilidades que ofrece [el big data] y las
empiezan a aprovechar. El verdadero reto no es tanto crear la arquitectura que sea capaz de
recoger y almacenar todo ese volumen ingente de datos sino en ser capaz de separar lo relevante
de lo que no lo es y de explotarlo con las técnicas analíticas precisas en el menor tiempo posible
de respuesta. El foco está puesto en entender lo que nos dicen los datos y en sacar partido a todo
su valor para las organizaciones (https://bit.ly/3cGOtQ0).
Respecto al párrafo anterior, Godino (2013) señala:
Por ejemplo, para gestionar mejor la relación con los clientes mejorando su satisfacción y
fidelización se busca desarrollar aquellos productos que el mercado demanda, detectar el fraude y
evitar grandes pérdidas económicas o predecir el comportamiento de los consumidores para
realizar acciones comerciales más efectivas.
Entre los beneficios que aporta el análisis de datos masivos a la sociedad se encuentran, por
ejemplo, adelantarse a futuras conductas de actuación o gestión de expectativas de los ciudadanos.
Y de ahí surgen los comportamientos y publicaciones que los internautas envían a los diferentes
canales de internet como redes sociales, «fuentes de información que nos permite adelantarnos a
futuras conductas de actuación» (https://bit.ly/3cGOtQ0).
Ventajas a la sociedad
Según lo establece Merco (citado en Godino, 2013):
El big data nos lleva a hacer preguntas y encontrar respuestas, no solo para la empresa, sino
también para la sociedad. Por ejemplo, con analítica avanzada de big data es posible ayudar a
evitar la extinción de animales tan representativos como el oso polar o los rinocerontes blancos, a
través de un seguimiento de los ejemplares que hay en libertad y el estudio en las zonas en las que
habita. Otras soluciones de big data ayudan a los bomberos de Londres para establecer la
disponibilidad de efectivos dentro de la ciudad dependiendo de qué zonas sean más propensas a
sufrir incendios, y ayudar así a prevenirlos (https://bit.ly/3cGOtQ0).
Siguiendo a Godino (2013):

Otro importante ámbito de aplicación es en aquellas ciudades que están adoptando el concepto
«Smart City» y que empiezan a recoger mediante sensores, cantidades ingentes de información
relativa al tráfico, suministros o estado de los servicios que ofrece a sus ciudadanos, teniendo
siempre como objetivo anticiparse y mejorar.
La clave del big data -explica- es contar con personas y socios que tengan talento analítico, así
como capacidad de reflexionar sobre dónde quiero ir y qué tipo de respuestas necesito para
mejorar mis decisiones hoy y, entonces, anticiparme (https://bit.ly/3cGOtQ0).
En relación a las ventajas de una correcta administración de la información en las empresas, Merco (citado en
Godino, 2012) afirma lo siguiente:
La gestión correcta de los datos en las compañías está generando una corriente en los consejos de
administración de las compañías, que cada vez son más conscientes de que los datos y su analítica
como un activo donde hay que invertir. Y son necesarios nuevos tipos de perfiles que hay que
desarrollar o encontrar en el mercado para cuidar y sacar el máximo de esos activos
(https://bit.ly/3cGOtQ0).
La clave del éxito
Ante el fenómeno del big data, Merco (citado en Godino, 2013) se pregunta:
¿Cómo imaginan los expertos el futuro de esta tendencia? Big data es una realidad, da igual que el
término en sí suene en ocasiones a sobrevendido en los últimos años. Ya es una realidad en
muchas empresas que empiezan en el mundo del big data analizando lo que más les importa: sus
clientes. Las experiencias en “big data marketing” son las más innovadoras, las más reales, y las
capacidades que entregan están al nivel de películas de ciencia ficción.
El análisis de datos masivos es el eje central del modelo de negocio de las grandes compañías. El
volumen de publicidad que algunas de estas empresas venden es tan alto gracias a la existencia de
estos datos masivos que, gracias a la capacidad de dar un mensaje relevante a cada persona o a la
audiencia en cada momento. Del mismo modo, los motores de búsquedas relacionadas que
suponen un gran volumen de ventas para compañías como Amazon, no son más que el resultado
del tratamiento de los datos masivos. Analizarlos permite ofrecer a los clientes una oferta que, con
un alto porcentaje de probabilidad será de su interés, lo que provoca que se disparen las ventas.
La clave está en conectar puntos, patrones y hacerlo de modo que el cliente sienta que lo que le
ofreces solo está disponible en ese momento, en tiempo real, y para él. (https://bit.ly/3cGOtQ0).
Con todo este material, arma tu charla y ve a la escuela y comparte tus conocimientos con los alumnos.
LECCIÓN 2 de 4
Referencias
Godino, I. (s. f.). Documentación y empresas. Recuperado de https://www.scoop.it/t/ documentacion-y-empresa
IDATHA. (2014). BIG DATA – Conceptos Generales. Recuperado de https://docplayer. es/884856-We-are-experts-

in-data-processing-analytics-idatha-big-data-conceptos-generales-white-paper-idatha-diciembre-2014-idatha.html
LECCIÓN 3 de 4
Video conceptual
VIMEO
Verify to continue
We detected a high number of errors from your
connection. To continue, please confirm that
youâ€™re a human (and not a spambot).
I'm not a robot

reCAPTCHA
Privacy - Terms
VC- Big Data - Módulo 1

VER EN VIMEO 
LECCIÓN 4 de 4
Revisión del Módulo 1: Introducción general y

ecosistema big data
01 - ¿Qué es big data?

–
Esta palabra se ha utilizado para trasladar al público todo tipo de conceptos entre los que se incluyen grandes
cantidades de datos, analítica de redes sociales, herramientas de última generación para gestionar los datos, datos en
tiempo real y mucho más. Independientemente de la etiqueta que le colguemos, las empresas comienzan a
comprender y explorar cómo procesar y analizar de nuevas formas una amplia variedad de información.
02- Características
–
Las características del big data pueden resumirse en las 3V: volumen, variedad y velocidad.
Por un lado, el gran volumen de información; por otro, la variedad de datos, que pueden ser representados de
diferentes maneras en el mundo;y finalmente, la velocidad con la cual estos datos se generan. Producto del avance
tecnológico se agregan “otras 3V”: veracidad, visualización y valor.
03- Perfiles profesionales de big data

–
Surgen a raíz de las necesidades que demanda la transformación digital. En un entorno que evoluciona tan rápido
tecnológicamente, las compañías buscan ahora a especialistas capaces de trabajar con los grandes volúmenes de
datos que se almacenan día a día. Esos datos, debidamente analizados y procesados, son información muy útil para
las empresas y representan nuevas oportunidades de negocio, mejoras en la toma de decisiones, conocimiento más
preciso del público objetivo.
04- Presente y futuro
–
Es fundamental para las empresas conocer y explorar todos los datos que dispone. Hay una gran cantidad de
conocimiento en la información sin explotar, que puede proporcionar respuestas y nuevas metodologías para
incrementar la productividad y la eficacia, mientras se disminuyen los gastos innecesarios.
Descubriendo valor en los datos
Te contratan en una empresa del rubro de ventas de mercaderías minorista porque necesitan mejorar las compras para reabastecimiento y no quedase con
mercadería de alta estacionalidad, ni tampoco quedarse sin stock por adquirir una menor cantidad de lo que demanda la clientela.
Para realizar esto tienes acceso a la información de volúmenes de ventas históricas de los últimos cinco años.
Referencias
Descarga en PDF
LECCIÓN 1 de 3
¿Qué es el proceso KDD?
El término descubrimiento de conocimiento en bases de datos, o KDD (del inglés knowledge discovery in databases) para abreviar, se refiere al amplio proceso de búsqueda
de conocimiento en los datos y hace hincapié en la aplicación de alto nivel de determinados métodos de minería de datos. Es de interés para los investigadores en aprendizaje
automático, reconocimiento de patrones, bases de datos, estadísticas, inteligencia artificial, adquisición de conocimientos para sistemas expertos y visualización de datos (Galán
Montaño, 2013).
El objetivo unificador del proceso KDD es extraer un conocimiento de datos en el contexto de una gran base de datos.
Se utilizan métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera conocimiento, de acuerdo con las especificaciones de medidas y umbrales.
Esto se produce al combinar una base de datos con cualquier preprocesamiento, submuestreo y transformaciones requeridas de dicha base.
Figura 1. El proceso de descubrimiento del conocimiento en base de datos
Fuente: [imagen sin título sobre proceso de descubrimiento del conocimiento en base de datos], 2016, https://bit.ly/3cD24HY
El proceso general para encontrar e interpretar patrones a partir de datos implica la aplicación repetida de los siguientes pasos:
1 Desarrollar un entendimiento de:

a. el dominio de la aplicación;
b. el conocimiento previo pertinente; y
c. los objetivos del usuario final.
2 Creación de un conjunto de datos de destino: selección de un grupo de datos o enfoque en un subconjunto de variables o muestras de datos en las que se
debe realizar el descubrimiento.
3 Limpieza y preprocesamiento de datos:
a. eliminación de ruidos o valores extremos;
b. recopilación de la información necesaria para modelar o explicar el ruido;
c. estrategias para manejar campos de datos que faltan;
d. contabilización de la información de secuencia temporal y cambios conocidos.
4 Reducción y proyección de datos.
a. Encontrar características útiles para representar los datos dependiendo del objetivo de la tarea.
b. Utilizar métodos de reducción de la dimensionalidad o de transformación para achicar el número efectivo de variables bajo consideración o para
encontrar representaciones invariantes para los datos.
5 Elegir la tarea de minería de datos.
a. Decidir si el objetivo del proceso KDD es la clasificación, regresión, agrupación, etcétera.
6 Elegir el/los algoritmo/s de minería de datos.
a. Selección de métodos que se utilizarán para buscar patrones en los datos.
b. Decidir qué modelos y parámetros pueden ser apropiados.
c. Emparejar un método particular de minería de datos con los criterios generales del proceso KDD.
7 Extracción de datos.
a. Búsqueda de patrones de interés en una forma representacional particular o un conjunto de representaciones tales como reglas de clasificación o
árboles, regresión, agrupación, etcétera.
8 Interpretación de patrones minados.
9 Consolidar el conocimiento descubierto.

Los términos descubrimiento de conocimiento y extracción de datos son distintos. KDD se refiere al proceso general de descubrir conocimientos útiles a partir de datos. Implica
la evaluación y posiblemente la interpretación de los patrones para tomar la decisión de lo que califica como conocimiento. También incluye la elección de esquemas de
codificación, preprocesamiento, muestreo y proyecciones de los datos antes del paso de minería de datos.
La minería de datos se refiere a la aplicación de algoritmos para extraer patrones de datos sin los pasos adicionales del proceso KDD.
Definiciones relacionadas con el proceso KDD
El descubrimiento de conocimientos en bases de datos es el proceso no trivial de identificar patrones válidos, nuevos, potencialmente útiles y, en última instancia, comprensibles
en los datos.
Tabla 1. Datos y conjunto de hechos
DATOS UN CONJUNTO DE HECHOS
Patrones Una expresión E en un lenguaje L que describe hechos en un subconjunto Fe de F.
KDD es un proceso de varios pasos que incluye la preparación de datos, la búsqueda de patrones, la evaluación
Procesos
de conocimientos y el refinamiento con iteración después de la modificación.
Los patrones descubiertos deben ser verdaderos en los nuevos datos con cierto grado de certeza. Generalizar al
Válidos
futuro (otros datos).
Novedosos Los patrones deben ser nuevos (no deben conocerse previamente).
Útiles Procesables; los patrones deberían conducir potencialmente a algunas acciones útiles.
El proceso debe conducir a la comprensión humana. Los patrones deben hacerse simples para facilitar una mejor
Comprensibles
comprensión de los datos subyacentes.
Fuente: elaboración propia.
El interés es una medida general del valor del patrón, combinando validez, novedad, utilidad y simplicidad (Berlanga Rivera, 2010). El conocimiento es valor, por eso, en base a
los datos históricos pueden analizar el movimiento de los productos y así optimizar las compras.
LECCIÓN 2 de 3
Referencias
[Imagen sin título sobre proceso de descubrimiento del conocimiento en base de datos]. (2016). Recuperado de http://ediciones.ucc.edu.co/index.php/ucc/catalog/
download/36/40/220-1?inline=1
Berlanga Rivera, F. J. (2010). Aprendizaje de sistemas basados en reglas difusas compactos y precisos con programación genética. Recuperado de:
https://digibug.ugr.es/bitstream/handle/10481/5547/1875241x.pdf?sequence=1&is Allowed=y
Galán Montaño, F. J. (2013). Metodología para el análisis de ocurrencias de terremotos de gran magnitud. Recuperado de: https://studylib.es/doc/7714420/
metodolog%C3%ADa-para-el-an%C3%A1lisis-de-terremotos-de-gran-magnitud
LECCIÓN 3 de 3
Descarga en PDF

No file added
Almacenes de datos
El primer trabajo que te encomiendan como consultor consiste en explicarles a tus potenciales clientes
qué es un data warehouse, qué ventajas brida y qué se puede hacer a partir de esto.
En esta lectura abordaremos todos estos conceptos.
Almacenes de datos
Referencias
Descarga en PDF
LECCIÓN 1 de 3
Almacenes de datos
¿Qué es el data warehouse o almacén de datos?
Un almacén de datos es un repositorio para todos los datos que recogen los diversos sistemas empresariales de una
organización. El repositorio puede ser físico o lógico. Un almacenamiento de datos es una tecnología que agrega
información estructurada de una o más fuentes con el fin de que pueda ser comparada y analizada para lograr una
mayor inteligencia de negocios.
El almacenamiento hace hincapié en la captura de datos de diversas fuentes para el análisis y acceso útiles. Sin
embargo, generalmente no se empieza desde el punto de vista del usuario final, que puede necesitar acceso a bases de
datos especializadas, a veces locales. Esta última idea se conoce como data mart.
Hay dos enfoques para el almacenamiento de datos: de arriba hacia abajo y de abajo hacia arriba. El enfoque de
arriba hacia abajo crea los data marts para grupos específicos de usuarios después de que se haya creado el almacén
de datos completo. El enfoque de abajo hacia arriba construye primero los data marts y luego los combina en un solo
y completo almacén de datos.
Normalmente, un almacén de datos se aloja en un servidor de mainframe corporativo o en la nube. Los datos de
varias aplicaciones de procesamiento de transacciones en línea (OLTP) y otras fuentes se extraen selectivamente para
su uso por aplicaciones analíticas y consultas de usuarios.
El término almacén de datos fue acuñado por William H. Inmon, que es conocido como el padre de data
warehousing. Inmon lo describió como una colección de datos orientada a temas, integrada, con variante de tiempo y
no volátil, que soporta el proceso de toma de decisiones de la administración.
¿Qué necesito saber sobre el almacenamiento de datos?
Los almacenes de datos se usan típicamente para correlacionar los datos comerciales generales y así proporcionar
una mayor visión ejecutiva del desempeño corporativo.
¿Cómo es un almacén de datos diferente de una base de datos

regular?
Los almacenes de datos utilizan un diseño diferente de las bases de datos operativas estándar. Estas últimas se
optimizan para mantener una exactitud estricta de los datos en el momento, actualizando en tiempo real. Los
almacenes de datos, por el contrario, están diseñados para proporcionar una visión de largo alcance en el tiempo.
Cambian el volumen de transacciones y se especializan en la agregación de datos.
Figura 1. Data warehouse

Fuente: [Imagen sin título sobre data warehouse], s.f., https://bit.ly/3cT2GcN
¿Para qué se usan los data warehouses?
Muchos tipos de datos empresariales se analizan a través de almacenes de datos. La necesidad de un almacén de
datos a menudo se hace evidente cuando los requisitos analíticos están en contradicción con el funcionamiento
continuo de las bases de datos operacionales. Ejecutar una consulta compleja en una base de datos requiere que esta
ingrese un estado fijo temporal. Esto es, a veces, insostenible para las bases de datos transaccionales. Un almacén de
datos se emplea para hacer el trabajo analítico, dejando la base de datos transaccional libre para centrarse en las
transacciones.
Otros beneficios de un almacén de datos son la capacidad de analizar datos de múltiples fuentes y negociar
diferencias en el esquema de almacenamiento mediante el proceso ETL.
Figura 2. Almacén de datos

Fuente: [Imagen sin título sobre almacén de datos], 2011, https://bit.ly/3eS5vfW
¿Cuáles son las desventajas de un almacén de datos?
Los almacenes de datos son caros a escala y no sobresalen en el manejo de datos crudos, no estructurados o
complejos. Sin embargo, siguen siendo una herramienta importante en la era de los grandes datos.
LECCIÓN 2 de 3
Referencias
[Imagen sin título sobre data warehouse], (s.f.). Recuperado de https://es.

wikipedia.org/wiki/Almac%C3%A9n_de_datos#/media/File:Data_warehouse_overview.JPG
[Imagen sin título sobre almacén de datos]. (2011). Recuperada de https://image. slidesharecdn.com/sesion2-
111026002141-phpapp01/95/sistemas-de-informacion-12-728.jpg?cb=1319685816
LECCIÓN 3 de 3
Descarga en PDF

No file added
Arquitectura de almacenes de datos
El gerente del área de sistemas convoca a una reunión porque la compañía en la que te
desempeñas profesionalmente ha decidido implementar un data warehouse y se debe definir
la arquitectura y cada uno de los componentes.
Referencias
LECCIÓN 1 de 2
Arquitectura de business intelligence (BI) de próxima generación

para almacenes de datos
¡Qué momento tan emocionante para ser un implementador de inteligencia de negocios o almacén de datos! ¡Hay
tanta tecnología nueva y revolucionaria para elegir! No obstante, con la innovación tecnológica surge la inevitable
interrupción de las arquitecturas, técnicas y tradiciones existentes. Almacenamiento de datos y entornos de BI no son
inmunes a eso.
Un almacén de datos y una arquitectura de BI de próxima generación están emergiendo de todo el tumulto. Esta
nueva arquitectura incluye la necesidad de:
1 capacidades analíticas avanzadas, como análisis estadísticos y predictivos, análisis de datos en tiempo
real y visualización sofisticada de datos;
2 gestión de fuentes de datos nuevas e inusuales a través de nuevos conceptos, tales como refinerías de
datos (lagos de datos o hubs) y el uso de herramientas de virtualización o mezcla de datos para
aumentar los enfoques estándares de extracción, transformación, integración y carga de datos;
3 nuevas opciones de implementación, entre ellas la nube, dispositivos móviles y dispositivos integrados
de hardware y software.
Frente a la necesidad de nuevas tecnologías se suma la creciente presión en las empresas para generar ideas
comerciales más inmediatas y, al mismo tiempo, reducir el costo total de estos entornos en expansión.
No es de extrañar que muchos tecnólogos estén confundidos acerca de cómo y dónde estas nuevas capacidades
encajan en sus contextos existentes de BI y data warehouse. ¿El almacén de datos de la empresa (EDW) todavía
tiene un papel? ¿Cómo pueden satisfacer la creciente necesidad de la empresa de análisis en tiempo real? Para
responder a estas preguntas, nuevas metodologías están surgiendo. Así, una constante actualización es necesaria para
estar siempre a la vanguardia de la tecnología.
La arquitectura de data warehouse de la empresa perdura y

evoluciona
Los almacenes de datos pueden parecer un poco monótonos, especialmente en comparación con las nuevas
tecnologías como las bases de datos Hadoop y NoSQL. En la era de los grandes datos, la construcción de una
arquitectura de almacén de datos empresarial no tiene el mismo nivel que la creación de un almacén de datos basado
en Hadoop. Sin embargo, el EDW y su pariente más pequeña, el data mart, siguen teniendo un lugar destacado en la
mesa de TI ya que proporcionan datos confiables a los usuarios de inteligencia de negocios y análisis.
Una arquitectura de almacén de datos consta principalmente de tres capas. Dentro de la primera, se crea un
repositorio de documentos para almacenar informes estándares de la empresa. La segunda es una capa de inteligencia
empresarial global que soporta múltiples aplicaciones, incluye informes de ventas, análisis de ventas, análisis de la
cadena de suministro y de adquisiciones, etcétera. Y por último, debajo de estas dos primeras se encuentra el propio
EDW. La mayoría de las empresas de primera línea trabajan con tecnología SAP para administración de datos
maestros y extracción de funciones de transformación y carga.
Figura 1. Arquitectura de almacenes de datos

Fuente: Sotolongo León y Hernández Ramírez, 2012, https://bit.ly/2W2bpSS
La arquitectura del almacén de datos debe ir más allá de lo

tradicional
En todo el mundo se habla de un tema que sigue siendo el centro de los equipos de TI, BI y analítica: cómo expandir
una arquitectura tradicional de data warehouse para incorporar tecnologías como clústeres Hadoop en tiempo real.
La aparición de nuevas tecnologías ha desgarrado la arquitectura a la que estamos tan acostumbrados, aquella que
tiene un almacén de datos y data marts dependientes. Hay una necesidad de almacenes de datos empresariales y de la
información estática e histórica típicamente almacenada en ellos. En la era de los grandes datos, la computación en la
nube y las aplicaciones móviles ya no son suficientes.
Una de las tendencias actuales es una arquitectura de data warehouse extendida que añade nuevas capas para la
administración de big data, análisis exploratorios y análisis de datos en tiempo real. Sin embargo, no hay un solo
camino a seguir para todas las organizaciones. Lo importante sigue siendo el problema que el negocio está tratando
de resolver y luego pensar en una arquitectura que coincida en tecnología con ese problema de negocio.
De esta manera, ya tienes argumentos para entender cada componente y aportar sugerencias acerca de la arquitectura
que mejor se adapte a las necesidades de tu negocio.
LECCIÓN 2 de 2
Referencias
Sotolongo León, A. R., y Hernández Ramírez, M. D. (2012). Modelo de descripción de arquitectura de almacenes
de datos para ensayos clínicos del Centro de Inmunología Molecular. En Revista Cubana de Ingeniería, 3(1).
Recuperado de http://rci.cujae.edu.cu/index.php/rci/article/view/62/html
Minería de datos
En esta lectura aprenderás cómo funciona la minería de datos y cómo puede ayudar a la empresa a
encontrar patrones ocultos.
Antes de comenzar, imagina la siguiente situación.
Te contratan de una cadena de empresas que se dedica a la venta de ropa femenina y masculina y tiene
sucursales en cinco provincias. Tu tarea consiste en analizar los datos históricos de ventas para detectar
las combinaciones de prendas que, usualmente, compran los clientes según la época del año. Esta
información le permitirá a la empresa diseñar campañas publicitarias en torno a lo que los clientes
buscan; vestir a los maniquíes con las combinaciones más vendidas; y no comprar grandes cantidades de
prendas que se no se venden.
Minería de datos
Referencias
Revisión de Módulo 2: Minería de datos y análisis de datos

LECCIÓN 1 de 3
Minería de datos
¿Qué es la minería de datos?
La minería de datos es el proceso de encontrar anomalías, patrones y correlaciones dentro de

grandes conjuntos de datos para predecir los resultados. Utilizando una amplia gama de técnicas,
puede emplear esta información para aumentar los ingresos, reducir los costos, mejorar las
relaciones con los clientes, reducir los riesgos y más (SAS Institute, s.f., https://bit.ly/3eJDreE).
Historial de minería de datos y avances actuales
El proceso de hurgar en los datos para descubrir conexiones ocultas y predecir tendencias futuras
tiene una larga historia. Conocido algunas veces como "descubrimiento de conocimientos en
bases de datos", el término "minería de datos" no se acuñó sino hasta la década de 1990. Pero su
base comprende tres disciplinas científicas entrelazadas: estadística (el estudio numérico de
relaciones de datos), inteligencia artificial (inteligencia similar a la humana exhibida por software
y/o máquinas) y machine learning [o aprendizaje automático] (algoritmos que pueden aprender de
datos para hacer predicciones). Lo que era antiguo es nuevo otra vez, ya que la minería de datos
continúa evolucionando para igualar el ritmo del potencial sin límites del big data y poder de
cómputo asequible.
En la última década, los avances en el poder y la velocidad de procesamiento nos han permitido
llegar más allá de las prácticas manuales, tediosas y que toman mucho tiempo al análisis de datos
rápido, fácil y automatizado. Cuanto más complejos son los conjuntos de datos recopilados,
mayor es el potencial que hay para descubrir insights relevantes. Los comerciantes detallistas,
bancos, fabricantes, proveedores de telecomunicaciones y aseguradoras, entre otros, utilizan la
minería de datos para descubrir relaciones entre todas las cosas, desde precios, promociones y
demografía hasta la forma en que la economía, el riesgo, la competencia y los medios sociales
afectan sus modelos de negocios, ingresos, operaciones y relaciones con clientes (SAS Institute,
s.f., https://bit.ly/3eJDreE).
¿Por qué es importante la minería de datos?
Porque el volumen de datos producidos se duplica cada dos años. Los datos no estructurados por
sí solos conforman el 90 % del universo digital. Pero más información no significa
necesariamente más conocimientos.
La minería de datos permite (…) entender qué es relevante y luego hacer un buen uso de esa
información para evaluar resultados probables [y] acelerar el ritmo de la toma de decisiones
informadas (SAS Institute, s.f., https://bit.ly/3eJDreE).
Figura 1. Proceso de minería de datos

Fuente: Núñez Cárdenas, s. f., https://bit.ly/2W1Z9SF
¿Quién utiliza la minería de datos?
La minería de datos está en el centro de los esfuerzos analíticos de diferentes industrias y disciplinas. Entre estas
podemos encontrar las siguientes.
Comunicaciones
–
En un mercado sobrecargado donde la competencia es cerrada, las respuestas se encuentran a menudo en los datos
de sus consumidores. Las compañías de multimedia y telecomunicaciones pueden utilizar modelos analíticos para
entender montañas de datos de clientes, ayudándoles así a predecir el comportamiento de sus clientes y ofrecer
campañas altamente dirigidas y relevantes.
Seguros
–
Con conocimientos analíticos, las compañías de seguros pueden resolver problemas complejos concernientes a
fraude, cumplimiento, gestión de riesgo y separación de clientes. Las compañías han utilizado técnicas de minería
de datos para asignar precios a productos con mayor eficacia en líneas de negocios y hallar nuevas formas de
ofrecer productos competitivos a su base de clientes existente.
Educación
–
Con vistas unificadas basadas en datos del progreso de los estudiantes, los educadores pueden predecir el
desempeño de sus alumnos antes de que pongan un pie en el salón de clases – y desarrollar estrategias de
intervención para mantenerlos en curso. La minería de datos ayuda a los educadores a acceder a datos de los
estudiantes, a predecir niveles de logro y a detectar estudiantes o grupos de estudiantes que necesitan atención extra.
Manufactura
–
La alineación de planes de suministro con pronósticos de demanda es esencial, como lo es también la detección
temprana de problemas, garantía de calidad e inversión en equidad de marca. Los fabricantes pueden predecir el
desgaste de activos de producción y anticipar su mantenimiento, lo cual puede maximizar el tiempo en operación y
mantener la línea de producción acorde a lo programado.
Bancos
–
Los algoritmos automatizados ayudan a los bancos a entender a su base de clientes y también los miles de millones
de transacciones en el corazón del sistema financiero. La minería de datos ayuda a las compañías de servicios
financieros a tener una mejor vista de los riesgos del mercado, a detectar el fraude en menos tiempo, a gestionar las
obligaciones de cumplimiento de las regulaciones y a obtener retornos óptimos de sus inversiones en marketing.
Retail
–
Grandes bases de datos de clientes contienen insights ocultos que le pueden ayudar a mejorar las relaciones con
clientes, optimizar campañas de marketing y pronosticar ventas. A través de modelos de datos más precisos, las
compañías detallistas pueden ofrecer campañas más enfocadas – y encontrar la oferta que tenga el mayor impacto
en el cliente (Instituto SAS, s.f., https://bit.ly/3eJDreE).
LECCIÓN 2 de 3
Referencias
Núñez Cárdenas, F. de J. (s.f.). El proceso de minería de datos. Recuperado de

https://www.uaeh.edu.mx/scige/boletin/huejutla/n1/m2.html
Instituto SAS (s.f.). Minería de datos. Qué es y por qué es tan importante. Recuperado de
https://www.sas.com/es_es/insights/analytics/data-mining.html
LECCIÓN 3 de 3
Revisión de Módulo 2: Minería de datos y análisis de

datos
01- Descubriendo el valor de los datos

–
El término descubrimiento de conocimiento en bases de datos, o KDD (del inglés knowledge discovery in
databases) para abreviar, se refiere al amplio proceso de búsqueda de conocimiento en los datos y hace hincapié en
la aplicación de alto nivel de determinados métodos de minería de datos.
02- Almacenes de datos

–
Muchos tipos de datos empresariales se analizan a través de almacenes de datos. La necesidad de un almacén de
datos a menudo se hace evidente cuando los requisitos analíticos están en contradicción con el funcionamiento
continuo de las bases de datos operacionales. Un almacén de datos se emplea para hacer el trabajo analítico, dejando
la base de datos transaccional libre para centrarse en las transacciones.
03- Arquitectura de almacenes de datos

–
Frente a la necesidad de nuevas tecnologías se suma la creciente presión en las
empresas para generar ideas comerciales más inmediatas y, al mismo tiempo, reducir el costo total de estos entornos
en expansión.
04- Minería de datos
–
La Minería de datos comprende tres disciplinas científicas entrelazadas: estadística (el estudio numérico de
relaciones de datos), inteligencia artificial (inteligencia similar a la humana exhibida por software y/o máquinas) y
machine learning [o aprendizaje automático] (algoritmos que pueden aprender de datos para hacer predicciones).
Origen y definición de Customer analytics
En un importante shopping center de esta ciudad, están preocupados por los numerosos
reclamos que reciben de los locatarios de los locales comerciales por las bajas ventas que se
producen. A raíz de esto, te contratan para analizar el comportamiento de los clientes, sugerir
promociones, enviar mensajes de fidelización y desarrollar distintas acciones para atraer más
personas a los negocios y que realicen compras.
Customer analytics: origen y de nición
Referencias
LECCIÓN 1 de 2
Customer analytics: origen y definición
¿Qué es el customer analytics?
La analítica de clientes es el proceso que brinda a las organizaciones un conocimiento más profundo sobre el
comportamiento del cliente y puede usarse para tomar decisiones comerciales. Este proceso permite convertir los
datos de clientes en algo que es de valor para la organización: una herramienta de marketing que ayudará a convertir
todos sus obstáculos en oportunidades.
La analítica de clientes sirve como columna vertebral de todas las actividades de marketing, como el modelado
predictivo, la visualización de datos, la gestión de la información y la segmentación.
Importancia del customer analytics
El uso de la analítica de clientes es cada vez más importante en el mundo de hoy. Esto se debe a que los clientes se
vuelven más poderosos y están más conectados que nunca. Ahora, cuentan con mucha información y tienen acceso a
ella en cualquier lugar y en cualquier momento. Esto hace que la organización use los análisis de clientes.
Los comportamientos de los clientes están cambiando rápidamente en el mundo de hoy. Si las empresas comprenden
sus hábitos de compra, pueden predecir su comportamiento futuro. Esto las ayudará a lanzar los productos relevantes
en el momento correcto y también aumentará las ganancias de su negocio.
Beneficios del customer analytics
La analítica de clientes llevará a una mayor lealtad de los clientes y, por lo tanto, aumentará el retorno de la
inversión.
Además, reduce los costos de la campaña de la organización al dirigirse a los clientes adecuados en el momento
indicado.
También, ayuda a disminuir la tasa de desgaste al predecir las expectativas del cliente y entregarles el producto
exacto.
Por último, segmenta a los clientes de manera más efectiva y ayuda a entenderlos mejor.
Objetivos del customer analytics
Comprender cómo se usan los datos para averiguar el comportamiento del cliente.
Descubrir cuáles son las mejores prácticas para usar los datos para crear estrategias comerciales más
efectivas.
Descubrir la tasa de éxito de las estrategias comerciales utilizando los datos actuales.
Seguir las necesidades del cliente y entregar lo que espera en el momento adecuado.
Tomar mejores decisiones comerciales sobre los datos relacionados con los clientes del negocio.
Figura 1. Customer analytics

Fuente: [Imagen sin título sobre customer analytics], 2016, https://bit.ly/3cPj9hS
El proceso del customer analytics
Como hemos mencionado anteriormente, la analítica de clientes es un proceso mediante el cual se pueden
transformar los datos en perspectivas predictivas para adquirir clientes, retener aquellos en riesgo de alejarse, mejorar
la lealtad y la promoción del cliente.
Con los avances recientes en tecnología, se pueden encontrar en el mercado herramientas analíticas fáciles de usar y
disponibles tanto para grandes como para pequeñas empresas. Estas herramientas permiten recopilar y analizar los
datos del cliente y permiten hacer predicciones sólidas sobre su comportamiento.
Las empresas que necesitan una ventaja competitiva buscan en los datos de sus clientes un factor diferenciador.
Muchas organizaciones han comenzado a explorar el valor del análisis en el compromiso con sus clientes.
Analicemos las siguientes preguntas:
¿Has logrado el conocimiento del cliente y el compromiso que te propusiste?
¿Puedes personalizar la experiencia, entregar valor y lealtad a la marca?
¿Tienes una vista de cliente única y coherente?
¿Puedes usar esto para vender de manera efectiva a existentes y futuros clientes?
El customer analytics es el contribuyente principal para poder responder estas preguntas.
Desarrollo del mercado, una fuente de información invaluable
La facilidad con la que se dispone de información junto con la gran cantidad de empresas de consumo que ofrecen
presencia en línea hacen que tengamos consumidores informados y expertos en tecnología.
Este cambio masivo significa que debe asegurarse no solo la alineación tradicional de las personas, el proceso y la
tecnología, sino también esa cultura empresarial para atraer y retener a los consumidores.
Analizar el comportamiento de nuestros clientes de una forma tradicional ya no es una opción. El nuevo desafío del
mundo moderno es hacer ese análisis teniendo toda la información disponible de las redes sociales y de las empresas.
LECCIÓN 2 de 2
Referencias
[Imagen sin título sobre customer analytics]. (2016). Recuperado de https://blog.aspiresys.com/digital/big-data-

analytics/boost-your-organizations-performance-using-customer-analytics/
Metodología customer analytics
¿Recuerdas la situación práctica presentada en la lectura anterior?

Ahora, en el mismo shopping center tienes que ponerte a trabajar para armar un plan que incluya todos los pasos necesarios para que los datos se transformen en
conocimiento. Es decir, debes tomar los datos desde la entrada y procesarlos para que sean útiles.
Esta lectura te ayudará a llevar adelante tu tarea.
Metodologías customer analytics
Referencias
LECCIÓN 1 de 2
Metodologías customer analytics
Las metodologías en proyectos de customer analytics están vinculadas a las metodologías de proyectos de minería de datos.
Metodología CRISP-DM (Cross Industry Standard Process for Data Mining)
Un poco de historia
A principios de la década de 1990, la minería de datos estaba evolucionando. Por ese entonces, se empleaba mucho tiempo preparando los datos, ya que las herramientas y la
computación eran bastante limitadas. Rara vez había más de uno o dos “científicos de datos” en la misma sala y era mucho más probable que se los llamara “modeladores
predictivos”, ya que ese tipo de modelado era lo último en su época.
A medida que progresaron los años 90, hubo un flujo natural que llevó a estandarizar las lecciones aprendidas en una metodología común. Esfuerzos como este comenzaron al
preguntar en voz alta si existiría un enfoque común, dado que los problemas se veían tan diferentes. Como resultado, hubo una nueva metodología llamada CRISP-DM.
Los principales proveedores de herramientas de análisis de minería de datos, junto con algunas corporaciones, formaron un grupo de interés especial en 1996 y, en el transcurso
de menos de un año, se logró codificar el proceso CRISP-DM: Proceso Estándar de la Industria para la Minería de Datos.
CRISP-DM no fue realmente el primero. El SAS Institute, que ha existido durante más tiempo de lo que cualquiera puede recordar, tenía su propia versión llamada SEMMA
(Sample, Explore, Modify, Model, Assess).
¿Qué es CRISP-DM?
El modelo estándar Cross Industry Standard Process for Data Mining o CRISP-D, como se lo conoce, es un marco de procesos para diseñar, crear, construir, probar y desplegar
soluciones de aprendizaje automático.
El proceso está organizado en seis fases. Estas se pueden ver en el siguiente diagrama:
Figura 1. Diagrama de proceso del modelo CRISP-DM

Fuente: [Imagen sin título sobre diagrama de proceso del modelo CRISP-DM], s.f., https://bit.ly/2zs78R6
Las fases se describen a continuación:
Entendimiento empresarial:
–
Se enfoca en la comprensión de los objetivos y requisitos del proyecto desde una perspectiva comercial y, luego, convierte este conocimiento en una definición de problema de minería de datos y
en un plan preliminar.
Comprensión de datos:
–
Comienza con una recopilación inicial de datos y procede con actividades para familiarizarse con estos, identificar problemas de calidad, descubrir primeros conocimientos o detectar
subconjuntos interesantes para formar hipótesis sobre información oculta.
Preparación de datos
–
La fase de preparación de datos abarca todas las actividades para construir el conjunto de datos final, a partir de los datos brutos iniciales.
Modelado:
–
Las técnicas de modelado se seleccionan y aplican. Dado que algunas técnicas, como las redes neuronales, tienen requisitos específicos con respecto a la forma de los datos, puede haber un bucle
para la preparación de estos.
Evaluación:
–
Una vez que se han construido uno o más modelos que parecen tener alta calidad en relación con las funciones de pérdida seleccionadas, es necesario probarlos para garantizar que se generalicen
frente a los datos no vistos y que todos los problemas comerciales clave se hayan considerado suficientemente. El resultado final es la selección del/de los modelo/s campeón/es.
Despliegue
–
Generalmente, esto significa desplegar una representación de código del modelo en un sistema operativo para calificar o categorizar nuevos datos no vistos, a medida que surjan, y crear un
mecanismo para el uso de esa nueva información en la solución del problema comercial original. Es importante destacar que la representación del código también debe incluir todos los pasos de
preparación de datos previos al modelado. De este modo, el modelo trata nuevos datos brutos de la misma manera que durante su desarrollo.
¿Se puede usar CRISP-DM para proyectos de modelado no tradicionales como el big data o el análisis de sentimientos?
La ciencia de los datos ha ido más allá del modelado predictivo. Esta metodología puede ser utilizada en otros tipos de proyectos. De hecho, todos estos proyectos comienzan
con la comprensión del negocio, con datos que deben recopilarse, explorarse y prepararse de alguna manera. Todos estos proyectos aplican un conjunto de algoritmos de ciencia
de datos al problema. Y todos estos proyectos deben evaluarse por su capacidad de generalización en el mundo real. Entonces, sí, CRISP-DM proporciona una guía sólida
incluso para las actividades más avanzadas de las ciencias de la información actuales.
Metodología SEMMA (Sample, Explore, Modify, Model, Assess)
Para poder aplicarlo con éxito, un estudio de data mining debe considerarse un proceso que sigue una metodología estándar en lugar de un conjunto de técnicas y herramientas
de software de forma automática. Además de CRISP-DM, existe otra metodología conocida desarrollada por el SAS Institute que se llama SEMMA. La sigla SEMMA significa
muestra, explora, modifica, modela y evalúa.
A partir de las muestras de datos que se consideran estadísticamente representativos, SEMMA facilita la aplicación de técnicas de visualización y estadísticas que buscan o
exploran, eligen y transforman las variables de predicción más significativas, modelan variables para predecir diversos resultados y descargan una confirmación de la precisión
de los resultados. La presentación de SEMMA en forma de imágenes puede verse a continuación:
Figura 2. Data/conocimiento
Fuente: [Imagen sin título sobre Data/conocimiento], 2013, https://bit.ly/2KGOOWF
Al evaluar los resultados en cada etapa del proceso SEMMA, el modelador puede determinar cómo se modelan nuevas preguntas desencadenadas por los resultados del proceso
anterior y, por lo tanto, retornan a la fase de exploración, a la detección avanzada de los datos. Al igual que el CRISP -DM, SEMMA es un ciclo altamente iterativo de
experimentación. La principal diferencia entre CRISP-DM y SEMMA es que el primero tiene un enfoque de proyecto DM para una comprensión más completa del negocio e
incluye datos relevantes, mientras que el segundo supone implícitamente que las metas y objetivos del proyecto DM y sus fuentes de datos ya fueron definidas con anterioridad.
Metodología KDD (Knowledge Discovery and Data Mining)
El término knowledge discovery in data bases, o KDD para abreviar, se refiere al amplio proceso de búsqueda de conocimiento en datos y enfatiza la aplicación de "alto nivel"
de métodos particulares de extracción de datos. Es de interés para los investigadores en aprendizaje automático, reconocimiento de patrones, bases de datos, estadísticas,
inteligencia artificial, adquisición de conocimiento para sistemas expertos y visualización de datos (Turmero, 2011).
El objetivo unificador del proceso KDD es extraer conocimiento de los datos en el contexto de grandes bases de datos.
Lo hace mediante el uso de métodos de extracción de datos (algoritmos) para extraer (identificar) lo que se considera conocimiento, de acuerdo con las especificaciones de
medidas y umbrales, utilizando una base de datos junto con cualquier preprocesamiento requerido, submuestreo y transformaciones de esa base de datos.
El proceso general de encontrar e interpretar patrones a partir de datos implica la aplicación repetida de los siguientes pasos (Molina López y García Herrero, 2004):
1 Desarrollar una comprensión de:
el dominio de la aplicación;
el conocimiento previo relevante;
y los objetivos del usuario final.
2 Crear un conjunto de datos de destino: seleccionar un conjunto de datos o concentrarse en un subconjunto de variables o muestras de datos en las que se
realizará el descubrimiento.
3 Limpiar datos y preprocesar incluye:

eliminar ruido o valores atípicos;
recopilar información necesaria para modelar o explicar el ruido;
elaborar estrategias para manejar los campos de datos faltantes;
y contabilizar información de secuencia de tiempo y cambios conocidos.
4 Reducir datos y proyectar implica:
encontrar funciones útiles para representar los datos según el objetivo de la tarea;
y usar métodos de reducción o transformación de dimensionalidad para reducir el número efectivo de variables bajo
consideración, o para encontrar representaciones invariantes para los datos.
5 Elegir la tarea de minería de datos: significa decidir si el objetivo del proceso de KDD es la clasificación, regresión, agrupación, etcétera.
6 Elegir el/los algoritmo/s de minería de datos:
seleccionar método/s que se usará/n para buscar patrones en los datos;
decidir qué modelos y parámetros pueden ser apropiados;
y hacer coincidir un método de minería de datos en particular con los criterios generales del proceso de KDD.
7 Minería de datos: buscar patrones de interés es una forma de representación particular o un conjunto de representaciones tales como reglas de clasificación
o árboles, regresión, agrupación, etcétera.
8 Interpretar patrones minados.
9 Consolidar el conocimiento descubierto.
Por último, pero no menos importante, hay una diferencia importante entre los términos descubrimiento de conocimiento y extracción de datos.
KDD se refiere al proceso general de descubrimiento de conocimiento útil a partir de datos. Implica la evaluación y posiblemente la interpretación de los patrones para tomar la
decisión de lo que califica como conocimiento. También incluye la elección de esquemas de codificación, preprocesamiento, muestreo y proyecciones de los datos antes del
paso de extracción de datos (Molina López y García Herrero, 2006).
La extracción de datos se refiere a la aplicación de algoritmos para extraer patrones de datos sin los pasos adicionales del proceso KDD.
Figura 3. KDD process

Fuente: [Imagen sin título sobre KDD process], s. f., https://bit.ly/2VDv6kX
Ahora ya puedes transformar los datos de entrada en información y, con esta información, puedes realizar acciones para mejorar el negocio en el que te desempeñas.
LECCIÓN 2 de 2
Referencias
[Imagen sin título sobre diagrama de proceso del modelo CRISP-DM]. (2012). Recuperada de https://commons.wikimedia.org/wiki/File:CRISP-DM_Process_ Diagram.png
[Imagen sin título sobre data/conocimiento]. (2013). Recuperada de https:// decisionstats.com/tag/semma/
[Imagen sin título sobre KDD process]. (s.f.). Recuperada de http://smlsolutions. blogspot.com.ar/p/methodology.html
Molina López, J. M., García Herrero, J. (2006). Técnicas de Análisis de Datos, Aplicaciones prácticas usando Microsoft Excel y WEKA. Madrid, España: Universidad
Carlos III
Turmero, I. (2011). Minería de datos. El arte de sacar conocimiento de grandes volúmenes de datos. Recuperado de https://docplayer.es/851569-Mineria-de-datos-el-arte-de-
sacar-conocimiento-de-grandes-volumenes-de-datos-puerto-ordaz-marzo-del-2011-elaborado-por.html
Tipos de análisis
Te contratan desde una empresa de telefonía para hacer campañas de fidelización y retención por
segmento. Además, antes de comenzar el trabajo, te piden que colabores en la partición de estos
segmentos.
Para armar la segmentación debes tener en cuenta las características de los clientes y los atributos que se
les asocian.
Tipos de análisis en customer analytics
Referencias
LECCIÓN 1 de 2
Tipos de análisis en customer analytics
¿Qué tipos de análisis existen?
Creación de una vista de cliente 720º
Este análisis se refiere a la disponibilidad de acceso completo a un cliente desde todos los aspectos (en línea y en la
tienda). Aunque es difícil obtener acceso completo a todos los canales, una selección que comprende los puntos de
contacto principales que unen los almacenes de datos permite que una organización represente los atributos del
cliente bajo una única entidad, y forme una conexión virtual. Este subconjunto selectivo comprende datos internos
generados a través de la aplicación y forman la primera vista 360º, asimismo la disponibilidad de información de
usuario enriquecida de las redes sociales se abre camino para el otro 360º. Combinar datos estructurados,
semiestructurados y no estructurados disponibles gracias a las aplicaciones CRM, las órdenes y facturas, los registros
de servicio al cliente y de llamadas, calificaciones y comentarios proporcionados en la compra, publicaciones y
tweets a través de las redes sociales, la ubicación demográfica y los detalles del censo, presentan una imagen general
del cliente. La expansión de cada canal ofrece una mejor perspectiva.
Figura 1. Segmentación de clientes

Fuente: [imagen sin título sobre segmentación de clientes], 2017, https://bit.ly/2XV60zK
Se puede acceder a un cliente conectado a través de las aplicaciones actualmente suscritas, lo que promueve
estrategias como anuncios publicitarios que son comunes en los sitios de redes sociales. Esta conexión también
aumenta la posibilidad de realizar ventas cruzadas de productos de interés que el mismo cliente expresó por otros
medios. El uso de técnicas de procesamiento del lenguaje natural (PNL) ayuda a identificar los términos clave y los
puntajes de similitud con el enfoque de la organización. Asimismo, el análisis de sentimiento brinda una opinión de
la expresión de interés del cliente. Puede ser a través de reseñas o incluso de una publicación social después de la
compra.
Segmentación de clientes
La segmentación de clientes tiene como objetivo tratar a cada cliente por separado y proporcionar
una vista personalizada de las ofertas. Uno de los enfoques más comunes incluye la agrupación de
la población del cliente en diferentes niveles según sus acciones (Hidalgo Solís, 2011,
https://bit.ly/3bvYgZ0).
En un entorno big data donde hay miles de millones de clientes, se prefieren los modelos de propensión porque
pueden manejar grandes cantidades de datos y ser precisos. Se logra un sentido de categorización de alto nivel
agrupando los datos en subconjuntos más pequeños. Las recomendaciones de productos (basadas en
Collaborative/Content filtering o un enfoque híbrido) son más efectivas cuando se conoce una imagen clara en la
segmentación. Con la información obtenida se puede proporcionar una mejor elección de preferencias.
Figura 2. Segmentación de mercados
Fuente: Hidalgo Solís, 2013, https://bit.ly/3eHmm51
También es posible identificar a los clientes a medida que llegan a la puerta. De este modo, se puede hacer un
seguimiento de los nuevos clientes para lograr la segmentación en tiempo real.
Compromiso y retención de clientes
El mejor ejemplo de compromiso proviene de los juegos. La encuesta de Boston Retail Partners sugiere que
alrededor del 87 % de los encuestados optaron por el plan de emplear la gamificación para mejorar la participación
de los clientes. Las comparaciones dinámicas de productos también harán que los clientes obtengan una sensación de
satisfacción en las compras.
Al igual que los modelos de propensión, los modelos de elevación ayudan a determinar si es probable que un cliente
vuelva si se envían cupones de descuento u ofertas especiales (el típico buy-3-get-1-free). El análisis de la población
y la selección de los clientes están dirigidos a aquellos que tienen la máxima probabilidad de estar interesados. Esto
también puede ayudar a los minoristas a impulsar la relación con el cliente si lanzan esquemas únicos una semana
antes de eventos especiales (como cumpleaños, aniversarios, festivales, etcétera).
Otro factor que es crucial para las empresas es el cálculo de la rotación. El churn/predicción de desgaste determina si
es probable que el cliente se agote (es decir, deje). Las decisiones sucesivas tomadas por un cliente (acción/inacción)
se modelan y en el siguiente paso se puede predecir si es probable que el cliente sea retenido o perdido.
Figura 3. Compromiso y retención de clientes
Fuente: elaboración propia

Casi todas las organizaciones tienen como objetivo maximizar sus ganancias y, para lograrlo, un factor esencial es la
atención positiva del cliente. Una forma destacada de obtener esto es garantizar un aumento continuo en la
participación del cliente, lo que a su vez hace que la tasa de desgaste disminuya, como se representó anteriormente.
Gestión de inventario inteligente
La vinculación de los datos generados a través de las interacciones cliente-producto (pedidos, revisiones, clics a
páginas, etcétera) y las transacciones generadas por proveedores pueden ser utilizadas por los sistemas de gestión
para controlar el pedido y la distribución de productos a lo largo de la cadena de suministro extendida de una
compañía. Por medio de los análisis predictivos es posible observar las correlaciones y las relaciones entre los
elementos de datos y las decisiones de la cadena de suministro. De esta manera, se pueden tomar decisiones en base a
la demanda actual de un producto, la localidad de compras frecuentes, etcétera.
Los modelos que se crean mediante entrenamiento supervisado, generalmente, predicen la incertidumbre de la
demanda futura. Los modelos se mejoran de manera iterativa al reducir las tasas de error entre las realizaciones
predichas y reales de las demandas de los clientes. Las técnicas de reglamentos de asociación conducen a un mejor
control de inventario.
¿Qué hace que toda la idea sea factible?
Los datos ya recopilados a lo largo de los años (o incluso, actualmente, en segundos) están a la espera de ser
analizados.
La disponibilidad de marcos y paquetes, tanto de propiedad como de código abierto, cuyo enfoque está aumentando
actualmente, proporciona una gestión y análisis eficientes de las cantidades masivas de datos. Esto implica:
Simplificación y desarrollo rápido de soluciones analíticas avanzadas utilizando tecnologías modernas
de generación de informes y aprendizaje automático / modelos;
Escalabilidad elástica en la nube que supera los límites de la computación y el almacenamiento;
La necesidad de más analistas de datos y científicos que ha llevado a muchos individuos a tomar
cursos de ciencias de datos, y que ahora están lo suficientemente equipados para la tarea;
Evolución en la próxima fase principal de los estándares de telecomunicaciones móviles.
Hasta hace una década, en las organizaciones la mayor parte del tiempo era dedicado al desarrollo del producto, la
configuración y el mantenimiento de la infraestructura para la implementación de aplicaciones y la recopilación de
datos. Sin embargo, actualmente la infraestructura está disponible en un minuto (gracias a los servicios basados en la
nube), el desarrollo y la implementación tienen un tiempo mínimo y los datos generados constantemente por los
clientes ahora se almacenan de forma segura.
Expandir y acomodar terabytes de datos ya no es una preocupación de costos debido a la disminución de los precios
de almacenamiento. Muchas organizaciones prefieren migrar a la arquitectura distribuida para que la velocidad
supere el almacenamiento.
LECCIÓN 2 de 2
Referencias
[Imagen sin título sobre segmentación de clientes], (2017). Recuperado de

https://blog.teamleader.es/segmentacion-de-clientes [Imagen sin título sobre
[Imagen sin título sobre segmentación de mercados], (2013). Recuperado de

https://marcandoanalisis.com/2013/11/20/que-es-segmentacion-de-mercados/
Hidalgo Solís, J. (2013). ¿Qué es segmentación de mercados? Recuperado de

https://marcandoanalisis.com/2013/11/20/que-es-segmentacion-de-mercados/
Visualización de la información
A lo largo de esta lectura se analizarán todos los aspectos relativos a la visualización de la información.
Para ello, será necesario que antes imagines la siguiente situación hipotética.
Una gran cadena de supermercados solicita tus servicios para crear todo el sistema de gestión de
informes necesario para llevar adelante sus tareas. Se necesitan tanto informes gerenciales como reportes
del nivel operativo. Debes tener en cuenta que la información se debe llevar en tiempo y formato
necesarios, según el nivel organizacional al que va dirigido.
Visualización de la información del cliente
Referencias
Revisión de Módulo 3: Técnicas y herramientas de última generación para big data

LECCIÓN 1 de 3
Visualización de la información del cliente
Visualización
Cada área de una empresa querrá acreditarse los logros cuando los cambios implementados den como resultado
mayores ventas, mayores tasas de conversión y clientes más felices. El equipo de marketing atribuirá el crédito a su
reciente campaña, el equipo de I+D a los nuevos productos que acaban de lanzar, y los ingenieros de redes sociales
creerán firmemente que su éxito se relaciona de manera directa con sus esfuerzos de desarrollo.
El examen, los resultados y el determinar quién realmente está contribuyendo al éxito del negocio, es información
importante si se quiere mantener la racha. Al descubrir quién contribuye más a los objetivos y cuáles de las campañas
está haciendo el truco, se podrán concentrar los esfuerzos en los equipos que obtienen mejores resultados y otorgarles
un trato preferencial sobre los recursos que necesitan.
Antes de los días de Internet, era muy difícil determinar qué funcionaba y qué no funcionaba en el negocio, y eso se
debía a que no se podían aislar variables al medir el éxito. No se podría decir, con la máxima seguridad, que la
"campaña de marketing X" resultó en un aumento del 30 % en las ventas o el "lanzamiento del producto Y" fue 50 %
mejor de lo que esperábamos debido a su nueva "característica Z".
Ahora, con Internet, se pueden aislar variables utilizando este nivel de precisión, ya que la web permite recopilar una
cantidad masiva de datos analíticos del cliente que pueden desglosarse, segmentarse y aislarse de acuerdo a cualquier
variable. Utilizando datos de análisis de clientes en línea, ampliamente disponibles y de bajo costo adquiridos, se
podrá:
Comparar rápidamente los datos acumulados con los datos históricos para identificar tendencias y
ubicar nuevos datos en contexto. Los números en bruto no cuentan toda la historia: sin datos históricos
nunca se sabrá si las ventas representan buenas o malas noticias, o si están alineadas con las
proyecciones de la empresa.
Determinar de dónde provienen los datos. Por ejemplo, definir si las ventas se distribuyen de manera
bastante uniforme entre un gran número de clientes, o si la mayor parte de las ventas se derivan de un
pequeño puñado de grandes consumidores. Al identificar a los principales clientes, no solo es posible
centrar los esfuerzos en retenerlos, sino que también se puede hacer un perfil de sus datos
demográficos y cambiar los esfuerzos de marketing para atraer a más personas como ellos.
Saber si una campaña de marketing particular produjo una tasa de conversión desproporcionadamente
grande (o pequeña) en comparación con otras. Una vez que se sepa cuál de los mensajes de marketing
produce el mayor rendimiento de la inversión, se pueden canalizar todos los recursos a esa campaña en
lugar de perder el tiempo, el dinero y la atención, impulsando los esfuerzos de bajo rendimiento.
Determinar si pequeñas variaciones en una campaña de marketing ya exitosa aumentarán o

disminuirán sus efectos. A través de la utilización de datos de análisis de clientes, encontraremos que,
a menudo, alterar un elemento de un mensaje de marketing (como solo una palabra de su copia o la
imagen que lo acompaña) puede producir cambios inesperadamente grandes en el rendimiento de ese
mensaje.
Saber en qué punto se pierden clientes durante el embudo de ventas. Si se descubre que la mayoría de
los clientes potenciales perdidos están en la misma página de nuestro sitio web, se sabrá que la
optimización de esa página aumentará la tasa de conversión general.
Conocer si ciertas campañas de mercadeo resultan en mayores ventas de un producto sobre otro. Por
ejemplo, a menudo, una campaña de marketing atraerá a clientes que buscan comprar el producto X
pero no el producto Y. Esta forma de datos de análisis de clientes permitirá enfocar aun más las
campañas de marketing y embudos de ventas para maximizar la producción
Recolectados y utilizados adecuadamente, los datos, y el posterior análisis de clientes, permiten administrar y
desarrollar los esfuerzos de marketing con una gran cantidad de precisión. De este modo, se podrá conocer qué área
contribuye al éxito del negocio. Sino también a mejorar la salida del empleado de una manera previamente
impensable.
Figura 1. Customer analytics
Fuente: [Imagen sin título sobre customer analytics], 2013, https://bit.ly/2KsiPJW
Visualización de big data en customer analytics: convirtiendo big

data en big insights
Las herramientas de descubrimiento de datos basadas en la visualización permiten a los usuarios empresariales
mezclar fuentes de datos dispares para crear vistas analíticas personalizadas, con flexibilidad y facilidad de uso que,
simplemente, no existían antes. Los análisis avanzados se integran en las herramientas para respaldar la creación de
procesos interactivos, gráficos animados, así como en dispositivos móviles potentes como teléfonos inteligentes y
computadoras portátiles.
Los usuarios finales pueden ver los gráficos en los mismos dispositivos o, incluso, en dispositivos móviles más
pequeños como tabletas o, en casos limitados, teléfonos inteligentes.
Debido a su facilidad de uso e interfaces intuitivas, las herramientas de descubrimiento de datos, basadas en la
visualización, tienen como efecto facilitar el acceso a la información de las empresas.
El análisis y la visualización, anteriormente pertenecientes a un puñado limitado de analistas de datos altamente

capacitados, pueden lograrse mediante una multitud de usuarios con entrenamiento mínimo.
Avanzar hacia un modelo de autoservicio para BI (business inteligence) puede reducir los costos y permitir que TI
(tecnología informática) pase más tiempo enfocándose en la construcción de soluciones innovadoras y desafíos
complejos de datos.
El autoservicio BI también permite a las empresas aprovechar las fuerzas de trabajo cada vez más móviles. Por
ejemplo, miembros de un equipo de desarrollo de productos pueden trabajar en remoto, y en el sitio pueden ver y
compartir fácilmente visualizaciones que exploran posibles defectos de productos o preferencias de los clientes.
La tendencia de trabajar con dispositivos propios permite que los usuarios puedan explorar fácilmente los datos,
descubrir tendencias y patrones y comunicar sus hallazgos a otros miembros del equipo y otras audiencias.
Figura 2. Diseño elegante e intuitivo

Fuente: [imagen sin título sobre diseño elegante e intuitivo], 2013, https://bit.ly/2VR4Dzf
Características principales de las herramientas de detección de

datos basadas en la visualización
Las herramientas de detección de datos basadas en la visualización:
Habilitan el análisis de datos en tiempo real;
Apoyan la creación en tiempo real de presentaciones e informes dinámicos e interactivos;
Permiten a los usuarios finales interactuar con los datos, a menudo en dispositivos móviles;
Retienen datos en memoria, donde son accesibles para múltiples usuarios;
Permiten a los usuarios compartir y colaborar de forma segura.

Características adicionales de las herramientas de detección de
datos basadas en la visualización
Las características adicionales son las siguientes:
Capacidad de visualizar y explorar datos tanto en la base de datos como en la memoria.
Tablero de control que muestra la actividad del usuario y la procedencia de datos.
Compresión de datos en la memoria para permitir el manejo de grandes conjuntos de datos sin
aumentar los costos de hardware.
Optimización de soluciones para usar con dispositivos móviles con capacidad táctil.
LECCIÓN 2 de 3
Referencias
[Imagen sin título sobre customer analytics], (2013). Recuperado de http://www. coveridapp.com/?page_id=93
[Imagen sin título sobre diseño elegante e intuitivo], (2013). Recuperado de http:// www.coveridapp.com/?
page_id=93
LECCIÓN 3 de 3
Revisión de Módulo 3: Técnicas y herramientas de

última generación para big data
01- Customer analytics: origen y definición

–
La analítica de clientes es el proceso que brinda a las organizaciones un conocimiento más profundo sobre el
comportamiento del cliente y puede usarse para tomar decisiones comerciales. La analítica de clientes llevará a una
mayor lealtad de los clientes y, por lo tanto, aumentará el retorno de la inversión. Además, reduce los costos de la
campaña de la organización al dirigirse a los clientes adecuados en el momento indicado.
02 - Metodologías customer analytics

–
Metodologías en proyectos de customer analytics están vinculadas a las metodologías de proyectos de minería de
datos: Metodología CRISP-DM (Cross Industry Standard Process for Data Mining); Metodología SEMMA
(Sample, Explore, Modify, Model,Assess) y Metodología KDD (Knowledge Discovery and Data Mining). Con ellas
podrás transformar los datos de entrada en información y, con esta información, puedes realizar acciones para
mejorar el negocio en el que te desempeñas.
03- Tipo de análisis

–
Tipos de análisis en customer analytics: Creación de una vista de cliente 720º (que permite acceso completo a un
cliente desde todos los aspectos (en línea y en la tienda); Segmentación de clientes (tiene como objetivo tratar a
cada cliente por separado y proporcionar una vista personalizada de las ofertas; Compromiso y retención de clientes
(haciendo hincapié sobretodo en la participación del cliente).
04- Visualización de la información
–
Las herramientas de descubrimiento de datos basadas en la visualización permiten a los usuarios empresariales
mezclar fuentes de datos dispares para crear vistas analíticas personalizadas, con flexibilidad y facilidad de uso que,
simplemente, no existían antes.
Conceptos básicos de visualización
Si tú eres el analista de front end y tu función es la de preparar una serie de informes para la
alta dirección debes conocer que ésta no tiene tiempo para ver tablas con números y analizar
su comportamiento. Debe ver información resumida, gráfica, altamente intuitiva.
Esta lectura es una introducción a la presentación de información.
Referencias
LECCIÓN 1 de 2
¿Qué es la visualización de datos?
La visualización de datos es la presentación de información en un formato gráfico o pictórico. Permite a los

responsables de la toma de decisiones ver los análisis presentados visualmente, para que puedan captar conceptos
difíciles o identificar nuevos patrones. Con la visualización interactiva, se puede llevar el concepto un paso más allá;
mediante el uso de la tecnología se puede profundizar en cuadros y gráficos para obtener así más detalles y cambiar
de forma interactiva qué datos se ven y cómo se procesan.
Historia de la visualización de datos
La idea de utilizar imágenes para comprender datos ha existido durante siglos, desde mapas y gráficos en el siglo
XVII hasta la invención del gráfico circular a principios del siglo XIX. Varias décadas más tarde, uno de los ejemplos
más citados de gráficos estadísticos es el que tuvo como protagonista a Charles Minard cuando trazó un mapa de la
invasión de Napoleón a Rusia. El mapa mostraba el tamaño del ejército, así como el camino de la retirada de
Napoleón de Moscú, y relacionaba esa información con las escalas de temperatura y tiempo para una comprensión
más profunda del evento.
Sin embargo, fue la tecnología la que realmente transformó la visualización de datos. Las computadoras permitieron
procesar grandes cantidades de datos a velocidades vertiginosas. Hoy en día, la visualización de datos se ha
convertido en una ciencia de rápida evolución que seguramente cambiará el panorama corporativo en los próximos
años.
¿Por qué es importante la visualización de datos?
Debido a la forma en que el cerebro humano procesa la información, usar diagramas o gráficos para visualizar
grandes cantidades de datos complejos es más fácil que leer detenidamente hojas de cálculo o informes.
La visualización de datos es una manera rápida y sencilla de transmitir conceptos de forma universal; se puede
experimentar con diferentes escenarios haciendo pequeños ajustes.
La visualización de datos también puede:
identificar las áreas que necesitan atención o mejora;
aclarar qué factores influyen en el comportamiento del cliente;
ayudar a entender qué productos colocar y dónde;
predecir volúmenes de ventas.
Visualización de datos en el mundo de hoy
¿Cuál es el impacto que la visualización de datos ha tenido en el mundo corporativo y qué está reservado para el
futuro?
La visualización de datos va a cambiar la forma en que nuestros analistas trabajan con los datos. Se espera que a
través de ella se pueda responder a los problemas más rápidamente. Los analistas tendrán que ser capaces de buscar
más información: ver los datos de forma diferente, con más imaginación. La visualización de datos promoverá esa
exploración de datos creativos.
Figura 1: Visualización de datos.
Fuente: Ingeniero virtual, 2016a, http://www.ingeniovirtual.com/wp-content/uploads/varios-tipos-de-

diagramas.jpg
¿Cómo se usa la visualización de datos?
Independientemente de la industria o el tamaño, todos los tipos de empresas están utilizando la visualización de datos
para ayudar a dar sentido a su información.
Figura 2: Equipo de BI trabajando en visualización de datos.

Fuente: Ingeniero virtual, 2016b, http://www.ingeniovirtual.com/wp-content/uploads/trabajando-con-
datos.jpg
Comprender información rápidamente

–
Mediante el uso de representaciones gráficas de información comercial, las empresas pueden ver grandes cantidades
de datos de forma clara y cohesiva, y sacar conclusiones de esa información. Dado que es mucho más rápido
analizar información en formato gráfico (en lugar de analizar información en hojas de cálculo), las empresas pueden
abordar problemas o responder preguntas de manera más puntual.
Identificar tendencias emergentes

–
Usar la visualización de datos para descubrir las tendencias, tanto en el negocio como en el mercado, puede dar a las
empresas una ventaja sobre la competencia y, en última instancia, modificar el resultado final. Es fácil detectar
valores atípicos que afectan la calidad del producto o la rotación de clientes y abordar problemas simples antes de
que se conviertan en problemas mayores.
Identificar relaciones y patrones

–
Incluso, grandes cantidades de datos complicados comienzan a tener sentido cuando se presentan gráficamente. Así,
las empresas pueden reconocer parámetros altamente correlacionados. Algunas de las correlaciones serán obvias,
pero otras no tanto. Identificar esas relaciones ayuda a las organizaciones a enfocarse en las áreas con más
probabilidades de influir en sus objetivos más importantes.
Comunica la historia a otros

–
Una vez que una empresa ha descubierto nuevas perspectivas del análisis visual, el siguiente paso es comunicar esas
ideas a los demás. Usar diagramas, gráficos u otras representaciones de datos visualmente impactantes es
importante, en este paso, porque es atractivo y transmite el mensaje rápidamente.
Figura 3: Serie de iconografías representativas de diferentes tipos de

diagramas.
Fuente: Ingeniero virtual, 2016c, http://www.ingeniovirtual.com/wp-content/uploads/iconografias-
de-diagramas.jpg
LECCIÓN 2 de 2
Referencias
[Imagen sin título sobre Visualización de datos]. (2016a). Recuperada de http://www.ingeniovirtual.com/wp-

content/uploads/varios-tipos-de-diagramas.jpg
[Imagen sin título sobre Equipo de BI trabajando en visualización de datos]. (2016b). Recuperada de
http://www.ingeniovirtual.com/wp-content/uploads/trabajando-con-datos.jpg
[Imagen sin título sobre Una serie de iconografías representativas de diferentes tipos de diagramas]. (2016c).
Recuperada de http://www.ingeniovirtual.com/wp-content/uploads/iconografias-de-diagramas.jpg
SAS. (s.f.). Visualización de datos. Qué es y por qué es importante. Recuperada de

https://www.sas.com/es_ar/insights/big-data/data-visualization.html
Visualización de la información y tableros de control
Te estas desempeñando como analista de monitoreo en el área de sistemas de una empresa

que se dedica a vender servicios de base de datos. Se necesita una herramienta de
visualización donde se pueda reflejar el estado de las bases de datos, las conexiones y tickets
de reclamos.
Esta lectura orientará cómo resolver la problemática planteada.
Ejemplos de visualización de datos
BI Dashboard. Cuadros de mando
Referencias
LECCIÓN 1 de 4
Importancia de la visualización de datos
La visualización de datos es un término general que describe cualquier esfuerzo para ayudar a las
personas a comprender la importancia de los datos, colocándolos en un contexto visual. Los
patrones, las tendencias y las correlaciones que pueden pasar desapercibidos en los datos basados
en texto pueden exponerse y reconocerse más fácilmente con el software de visualización de
datos.
Las herramientas de visualización de datos actuales van más allá de los gráficos y cuadros
estándares utilizados en las hojas de cálculo de Microsoft Excel, y muestran los datos de formas
más sofisticadas con infografías, tacómetros, mapas geográficos, mapas de calor y gráficos
detallados de barra o torta. Las imágenes pueden incluir capacidades interactivas, lo que le
permite a al usuario manipularlas o profundizar en los datos para consultas y análisis. También se
pueden incluir indicadores diseñados para alertar al usuario cuando se actualizan los datos o se
producen condiciones predefinidas.
La visualización de datos se ha convertido en el estándar para la inteligencia empresarial moderna

(BI). El éxito de los dos proveedores líderes en el espacio BI, que enfatizan la visualización, ha
llevado a otros proveedores a un enfoque más visual en su software. Prácticamente, todo el
software BI tiene una sólida funcionalidad de visualización de datos.
Las herramientas de visualización de datos han sido importantes para democratizar los datos y el
análisis, y poner a disposición de los trabajadores las ideas basadas en datos para toda la
organización. Por lo general, son más fáciles de usar que el software de análisis estadístico
tradicional.
El software de visualización de datos también juega un papel importante en Big Data y en

proyectos avanzados de análisis. En la medida en que las empresas comenzaron a acumular
grandes cantidades de datos, necesitaron una forma rápida y fácil de obtener una visión general de
sus datos por lo que las herramientas de visualización sufrieron un ajuste natural. (BDO, 2018,
https://www.bdo.com.do/en-gb/blogs/articulos-en/marzo-2018/%C2%BFque-es-el-data-
visualization).
La visualización es fundamental para el análisis avanzado por razones similares. Cuando un

científico de datos escribe algoritmos avanzados de análisis predictivos o aprendizaje automático,
se vuelve importante visualizar los resultados para monitorearlos y garantizar que los modelos
funcionen según lo previsto. Esto se debe a que las visualizaciones de algoritmos complejos son
generalmente más fáciles de interpretar que las salidas numéricas. (Rouse, 2020,
https://searchdatacenter.techtarget.com/es/definicion/Visualizacion-de-datos).
LECCIÓN 2 de 4
Ejemplos de visualización de datos
Las herramientas de visualización de datos se pueden usar de varias formas. El uso más común
hoy en día es como herramienta de informes de inteligencia empresarial (Business Intelligence,
BI). Los usuarios pueden configurar herramientas de visualización para generar paneles de control
automáticos que rastrean el rendimiento de la empresa a través de indicadores clave de
rendimiento (Key Performance Indicators o KPIs) e interpreten visualmente los resultados.
(Rouse, 2020, https://searchdatacenter.techtarget.com/es/definicion/Visualizacion-de-datos).

Fuente: Pablo, 2012, https://www.kabytes.com/wp-content/uploads/2012/07/graficos-estadisticos-con-
d3.png
Muchos departamentos comerciales implementan software de visualización de datos para rastrear

sus propias iniciativas. Por ejemplo, un equipo de marketing podría implementar el software para
supervisar el rendimiento de una campaña de correo electrónico, siguiendo las métricas, como la
tasa de apertura, la tasa de clics y la tasa de conversión.
A medida que los proveedores de visualización de datos amplían la funcionalidad de estas

herramientas, se utilizan cada vez más como interfaces para entornos de Big Data más
sofisticados. En esta configuración, el software de visualización de datos ayuda a los ingenieros
de datos y científicos a realizar un seguimiento de las fuentes de datos y hacer un análisis
exploratorio básico de los conjuntos de datos, antes o después de análisis avanzados más
detallados. (Rouse, 2020b, https://searchdatacenter.techtarget.com/es/definicion/Visualizacion-de-
datos).
LECCIÓN 3 de 4
BI Dashboard. Cuadros de mando
Un panel de inteligencia empresarial es una herramienta de visualización de datos que muestra el estado actual de las
métricas y los indicadores claves de rendimiento (KPI) para una empresa. Los paneles consolidan y organizan
números, métricas y, en ocasiones, tablas de puntuación de rendimiento en una sola pantalla. Se pueden adaptar para
un rol específico y mostrar métricas dirigidas a un único punto de vista o departamento. Las características esenciales
de un producto de tablero de BI incluyen una interfaz personalizable y la capacidad de extraer datos en tiempo real
de múltiples fuentes.
SAP, Oracle y Microsoft se encuentran entre los proveedores de paneles de inteligencia empresarial. Los paneles de
BI también se pueden crear a través de otras aplicaciones comerciales como Excel.
Los paneles de inteligencia empresarial a veces se denominan cuadros

de mando empresariales o dashboard (Rouse, M. (2020a,
https://searchdatacenter.techtarget.com/es/definicion/Panel-de-
Inteligencia-Empresarial-BI)

Fuente: Ferrer, 2017, https://www.analiticaweb.es/wp-content/uploads/2017/02/analitica_web.jpg
LECCIÓN 4 de 4
Referencias
BDO. (2018) ¿Qué es el Data Visualization? Recuperado de https://www.bdo.com.do/en-gb/blogs/articulos-

en/marzo-2018/%C2%BFque-es-el-data-visualization
Ferrer, M. (2017). Visualización de datos [imagen]. Recuperado de http://www.analiticaweb.es/tag/visualizacion-de-

datos/
Pablo. (2012). Visualización de datos [imagen]. Recuperado de http://www.kabytes.com/programacion/graficos-

estadisticos-para-d3-js/
Rouse, M. (2020a). Panel de inteligencia empresarial (BI). Recuperado de

https://searchdatacenter.techtarget.com/es/definicion/Panel-de-Inteligencia-Empresarial-BI
Rouse, M. (2020b). Visualización de datos. Recuperado de

https://searchdatacenter.techtarget.com/es/definicion/Visualizacion-de-datos.
Visual discovery
En las compañías se está democratizando la información, cada área puede utilizar la

información que necesita y hacer los análisis que le sean útiles.
Una vez que tiene los datos, los puede y debe presentar, y analizar para poder sacar sus
conclusiones, para a partir de aquí, tomar las acciones necesarias que la acerquen más a los
objetivos corporativos.
Visual discovery
El descubrimiento de datos se encuentra actualmente entre las mejores tendencias de BI
¿Por qué el descubrimiento de datos crea tanto revuelo?
Referencias
LECCIÓN 1 de 4
Visual discovery
¿Qué es data discovery?
La visualización y el análisis exploratorio de datos para usuarios empresariales (conocido como descubrimiento de
datos) se han convertido en el tema de inteligencia empresarial y análisis más novedoso en el mercado actual.
Los profesionales de BI califican la importancia de esta tendencia y su creciente adopción en los últimos años.
El descubrimiento de datos no es una herramienta; se constituye como un proceso empresarial orientado al usuario
que permite detectar valores y patrones atípicos a través de la navegación visual de datos o de la aplicación de
análisis avanzados guiados. El descubrimiento es un proceso iterativo que no requiere una amplia creación de
modelos iniciales. Lo agrupamos en tres categorías principales:
preparación de datos;
análisis visual;
análisis avanzados.
El descubrimiento de datos requiere habilidades para comprender las relaciones de datos y el modelado de datos, así
como también para utilizar el análisis de datos y las funciones de análisis avanzadas guiadas para revelar ideas.
La integración de datos y la preparación de datos (es decir, la integración de datos para usuarios comerciales) ayudan
a los usuarios empresariales a conectarse a fuentes de datos externas y empresariales relevantes (por ejemplo, las
proporcionadas por los socios). Como los datos se vuelven cada vez más complejos, los usuarios requieren funciones
flexibles para poder acceder de manera eficiente y preparar los datos para su análisis.
Los tipos de visualización interactiva y nueva permiten a los responsables

de la toma de decisiones ver, en un instante, las principales tendencias, así
como detectar los valores atípicos.
Las visualizaciones hacen uso de las capacidades de reconocimiento de patrones de nuestro cerebro para digerir
información de un vistazo o, incluso, de manera previa. Los usuarios son mejores para encontrar ideas y detectar
valores atípicos si los datos se presentan en cuadros, y gráficos en una página, en lugar de enterrarse en tablas de
datos que abarcan varias páginas.
El análisis visual es una característica importante que buscan cada vez más las empresas que requieren formas más
eficientes para que los responsables de la toma de decisiones puedan absorber y actuar sobre los datos.
Además, las funciones analíticas avanzadas guiadas proporcionan información estadística sobre los datos que los
usuarios pueden emplear para un análisis de datos más sofisticado y orientado a patrones. Es un desafío proporcionar
funciones estadísticas avanzadas listas para usar para usuarios comerciales y ofrecer resultados adecuados sin la
necesidad de escribir código.
La guía que los usuarios pueden esperar de las principales herramientas de descubrimiento de datos actuales no solo
ha permitido el acceso a funciones avanzadas, sino también a sugerencias automáticas de algoritmos adecuados para
abordar ciertos problemas de negocios y evaluaciones de los resultados de diferentes algoritmos.
Esta área ha recibido mucha inversión, tanto de vendedores como de clientes, en los últimos años. Los resultados de
investigación de mercado confirman la importancia del descubrimiento de datos.
Figura 1: Data Discovery.
Fuente: Information Builders, 2017, https://www.informationbuilders.com/products/bi-and-analytics-

platform
LECCIÓN 2 de 4
El descubrimiento de datos se encuentra actualmente

entre las mejores tendencias de BI
Sorprendentemente, los usuarios de TI, los consultores y los proveedores otorgan más importancia al descubrimiento
de datos que los usuarios comerciales reales.
El porcentaje de encuestados que dijo usar el descubrimiento de datos experimentó un aumento significativo entre
2012 y 2016. Otro porcentaje planea implementar casos de uso de descubrimiento de datos en el futuro, lo que lleva a
la conclusión de que un gran porcentaje del mercado dependerá de su herramienta de inteligencia comercial para
abordar este caso de uso en los próximos años.
La segmentación de clientes tiene como objetivo tratar a cada cliente por separado y proporcionar una vista
personalizada de las ofertas. Uno de los enfoques más comunes incluye la agrupación de la población del cliente en
diferentes niveles según sus acciones.
Figura 2: PLATFORA. Big Data Discovery.

Fuente: Schlampp, 2015, https://www.platfora.com/wp-content/uploads/2015/06/Top-Panel-image-1.png
LECCIÓN 3 de 4
¿Por qué el descubrimiento de datos crea tanto revuelo?
Comúnmente, se cree que el descubrimiento de datos es el petróleo del futuro ya que proporciona un alto valor para
la innovación y el éxito.
Este nuevo enfoque basado en datos pretende ir más allá de la mera presentación de informes y la supervisión del
rendimiento de la organización, que ha sido el núcleo de las iniciativas tradicionales de BI. El objetivo es explotar el
valor total de los datos para no solo mejorar la toma de decisiones, sino también para tener un impacto directo en la
optimización de los procesos comerciales y para alimentar nuevos modelos comerciales.
La gran demanda de herramientas de descubrimiento de datos refleja un gran cambio en el mundo de BI hacia un
mayor uso de datos y la extracción de conocimientos, y patrones a partir de los datos.
Esto significa que las decisiones operativas y la planificación a largo plazo se basan en datos y perspectivas. Para que
esto funcione, los empleados necesitan información relevante y confiable de manera oportuna.
La digitalización exige la democratización del uso de datos para permitir que tantos empleados como sea posible
revelen información sobre datos corporativos o externos. Para garantizar un ciclo cerrado de uso de la información,
las herramientas de descubrimiento de datos deben considerarse, en primer lugar, como complementarias del BI
tradicional.
Conceptos tales como la gobernanza son importantes para garantizar la reutilización de los conocimientos adquiridos
a partir del proceso de descubrimiento de datos y las soluciones orientadas al usuario son necesarias para
proporcionar a los usuarios comerciales un kit de herramientas adecuado para el análisis de datos.
Debido a que el software de descubrimiento de datos cumple estas
demandas mucho mejor que la mayoría de los paquetes de software de
inteligencia de negocios tradicionales, no sorprende que actualmente
esté captando la atención de los profesionales de BI y que las
principales suites de BI ahora se estén ampliando para satisfacer estos
requisitos.
LECCIÓN 4 de 4
Referencias
Information Builders (2017). Data Discovery [Imagen]. Recuperado de
http://www.informationbuilders.com/products/webfocus/data-discovery
Schlampp, P. (2015). PLATFORA. Big data discovery [imagen]. Recuperado de
https://www.platfora.com/wp-content/uploads/2015/06/Top-Panel-image-1.png
Visual analytics y big data
La empresa en la que te desempeñas como analista de datos contrata a un proveedor para que
haga predicciones acerca del comportamiento de sus clientes. El proveedor te devolverá un
set de datos con las probabilidades de que el cliente regrese y efectúe una compra. Es tu tarea
segmentar las bases y presentar esta información gráficamente para que los altos mandos de
la compañía tomen las acciones adecuadas.
Visual analytics y Big Data
Big Data es inútil sin análisis visuales
El análisis visual es perfecto para Big Data
Los informes clásicos son demasiado pesados para Big Data
Excel es demasiado restrictivo para Big Data
Referencias
Revisión del Módulo 4: Visualización de la información

LECCIÓN 1 de 7
Visual analytics y Big Data
Visualización
Nunca antes en la historia del mundo se han producido tantos datos en tan poco tiempo. Los teléfonos inteligentes,
las redes sociales y los dispositivos móviles son responsables de gran parte de esta producción, pero también el
número, cada vez mayor, de cámaras de seguridad, satélites, etiquetas, sensores y redes inalámbricas. Se necesitan
nuevas formas de almacenar datos y nuevas arquitecturas de indexación como una cuestión urgente. Bajo el liderazgo
de los principales jugadores de Internet (Google, Facebook, Amazon, Twitter, etc.), los procesos de almacenamiento
de datos se han adaptado al crecimiento de los volúmenes de datos que se almacenarán. Las técnicas de
administración de bases de datos NoSQL (no solo SQL) superan las actuales soluciones de administración de bases
de datos SQL y están impulsando el surgimiento de un enfoque completamente nuevo para las arquitecturas de bases
de datos.
Big Analytics se basa en algoritmos, es importante tener en cuenta que se

necesitan diferentes algoritmos para datos estructurados, no estructurados y
parcialmente estructurados.
Si sabemos cómo se estructuran los datos, los procesos estadísticos se pueden utilizar para muestrear los conjuntos de
datos y sacar conclusiones de una población más pequeña sin la necesidad de un análisis exhaustivo de las
cantidades, a menudo significativas, de datos disponibles. Esto podría denominarse análisis impulsado por hipótesis,
ya que se supone que ciertos aspectos de la población analizada son verdaderos desde el principio.
Figura 1: Elementos de una infografía.
Fuente: Dreamstime. (2020) Elementos de una infografía [imagen]. Recuperado de

https://es.dreamstime.com/fotograf%C3%ADa-de-archivo-libre-de-regal%C3%ADas-conjunto-de-los-
elementos-de-infographic-image22017387
LECCIÓN 2 de 7
Big Data es inútil sin análisis visuales
Big Data, con sus vastos volúmenes de datos, es en gran medida inútil sin la funcionalidad de análisis y presentación
de datos que se encuentra en las herramientas de análisis visual. Piensa en lo difícil que es detectar anomalías o
tendencias en filas y columnas interminables de datos de hoja de cálculo. Las herramientas analíticas visuales
resuelven ese problema de sobrecarga de datos.
Big Data es un tema de moda en la tecnología de la información en este momento. Muchos, en la suite ejecutiva,
están empezando a ver que Big Data abre posibilidades transformadoras para productos, servicios y mercados. Esta
comprensión ha provocado inversiones masivas en software para análisis visual e inteligencia de negocios, así como
servicios relacionados que, a menudo, están basados en la nube. Las ventas de este software crecerán
significativamente en el futuro.
Debido a su gran volumen, Big Data es difícil de analizar de manera

significativa para el valor comercial.
LECCIÓN 3 de 7
El análisis visual es perfecto para Big Data
El análisis visual es un componente del software de inteligencia empresarial que hace hincapié en:
visualizaciones o gráficos como salida;
una interfaz gráfica notablemente fácil.
Las visualizaciones son valiosas porque muestran una gran cantidad de datos en un formato visual fácil de entender
que funciona bien para nuestras mentes visuales.
El software de inteligencia empresarial es un conjunto de herramientas para la adquisición y transformación de datos

brutos en información significativa y útil para fines de análisis, y mejora del negocio.
Sin embargo, la inteligencia empresarial se ve afectada por la falta de:
calidad de datos como valores incorrectos o faltantes;
datos secundarios o de apoyo;
mano de obra de análisis;
apertura organizacional a nuevos resultados.

Figura 2: Mapa de calor.
Fuente: Shutterstock. (2020) Mapa de calor [imagen]. Recuperado de

https://www.shutterstock.com/es/image-illustration/world-map-mercator-projection-15180871
LECCIÓN 4 de 7
Los informes clásicos son demasiado pesados para Big

Data
Algunas organizaciones han creado una importante herramienta de software y realizado inversiones de desarrollo
para desplegar una rica biblioteca de informes de análisis de datos reutilizables, donde el usuario final puede variar
dinámicamente los criterios de selección de datos. Los principales ejemplos son SAP Crystal Reports y Oracle
Reports.
En general, los informes reutilizables:
producen un excelente resultado para consultas rutinarias;
ofrecen resultados confiables y consistentes ya que los informes son cuidadosamente desarrollados y
probados;
se pueden producir de manera eficiente cuando el volumen de datos es modesto y la cantidad de

fuentes de datos es baja.
Sin embargo:
no son de autoservicio;
requieren habilidades de desarrollo de software para mejorar. Por lo tanto, su éxito depende
completamente de la capacidad de respuesta del departamento de TI;
requieren mantenimiento de software cuando se actualizan las versiones de las aplicaciones
subyacentes;
no son compatibles con la exploración de los datos;
pueden o no proporcionar funcionalidad básica de gráficos;
se ahogarán cuando haya grandes volúmenes de datos o crezca la cantidad de fuentes de datos;
tienden a proliferar con el tiempo, ya que se crean muchas versiones con pequeñas diferencias.
LECCIÓN 5 de 7
Excel es demasiado restrictivo para Big Data
Todos hemos escuchado que Excel es la herramienta líder para el análisis de datos. Se usa ampliamente y con éxito
en organizaciones pequeñas con aplicaciones generalmente primitivas, herramientas simples y volúmenes de datos
modestos. Excel también se usa ampliamente como una poderosa herramienta de productividad personal dentro de
muchas organizaciones más grandes donde la capacidad de respuesta del departamento de TI es un problema.
Sin embargo, Excel:
limita severamente el volumen de datos que se puede consultar con éxito;
restringe la cantidad de fuentes de datos a las que se puede acceder;
utiliza la sintaxis que dificulta la programación y la depuración;
produce salida primitiva;
no es escalable para múltiples usuarios finales;
está desprovisto de características de gestión de nivel empresarial.

LECCIÓN 6 de 7
Referencias
Dreamstime. (2020) Elementos de una infografía [imagen]. Recuperado de
https://es.dreamstime.com/fotograf%C3%ADa-de-archivo-libre-de-regal%C3%ADas-conjunto-de-los-elementos-de-
infographic-image22017387
Shutterstock. (2020) Mapa de calor [imagen]. Recuperado de
https://www.shutterstock.com/es/image-illustration/world-map-mercator-projection-15180871
LECCIÓN 7 de 7
Revisión del Módulo 4: Visualización de la información
01 - Conceptos básicos de visualización

–
La visualización de datos es la presentación de información en un formato gráfico o pictórico permite a los
responsables de la toma de decisiones ver los análisis presentados visualmente, para que puedan captar conceptos
difíciles o identificar nuevos patrones.
02- Visualización y tableros de información

–
Las herramientas de visualización de datos se pueden usar de varias formas. El uso más común hoy en día es como
herramienta de informes de inteligencia empresarial (Business Intelligence, BI). Los usuarios pueden configurar
herramientas de visualización para generar paneles de control automáticos que rastrean el rendimiento de la
empresa a través de indicadores clave de rendimiento.
03- Visual discovery

–
El descubrimiento de datos no es una herramienta; se constituye como un proceso empresarial orientado al usuario
que permite detectar valores y patrones atípicos a través de la navegación visual de datos o de la aplicación de
análisis avanzados guiados. El descubrimiento es un proceso iterativo que no requiere una amplia creación de
modelos iniciales.
04- Visual analytics
–
Big Data, con sus vastos volúmenes de datos, es en gran medida inútil sin la funcionalidad de análisis y
presentación de datos que se encuentra en las herramientas de análisis visual. Piensa en lo difícil que es detectar
anomalías o tendencias en filas y columnas interminables de datos de hoja de cálculo. Las herramientas analíticas
visuales resuelven ese problema de
sobrecarga de datos.

Lecturas Big Data C

Cargado por

Copyright:

Formatos disponibles

Lecturas Big Data C

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Lecturas Big Data C

Cargado por

Copyright:

Formatos disponibles

¿Qué es big data?

¿Qué es big data?

¿Qué es big data?

“Big data es el término empleado para referirse a toda aquella cantidad

 Gigabyte = 1 000 000 000

Terabyte = 1 000 000 000 000

Petabyte = 1 000 000 000 000 000

Exabyte = 1 000 000 000 000 000 000

Figura 1. Definición de big data – Las V del big data

Figura 2. Proceso de digitalización de big data

Fuente: Linkeit, s.f., https://bit.ly/34XBiHN

La acumulación masiva de datos se la puede encontrar en diversas industrias, las compañías

Barranco Fragoso, R. (2012). ¿Qué es Big Data? Recuperado de https://www.ibm.

Tech BI. (2016). Big Data. Recuperado de http://www.tech-bi.com/es/servicios/ bigdata/

Este bloque se crea al final de la carga, luego de haber exportado la lectura

File Attachment Block

Principales características y conceptos del big data

Principales características y conceptos del big data

Las 3V de big data

Principales tipos de datos

A continuación se presenta una lista de los tipos de datos.

Figura 1. Tipos de datos

Fuente: Barranco Fragoso, 2012, https://ibm.co/3eQdfiD

¿Qué ventajas aporta el big data a la empresa?

Las nuevas 3V del big data

Las cinco aplicaciones principales del big data

La exploración de grandes datos

360º de visión sobre el cliente

Aumentar el almacén de datos o Data Warehouse

Barranco Fragoso, R. (2012). ¿Qué es Big Data? Recuperado de https://www.ibm. com/developerworks/ssa/local/im/que-es-big-data/

En la empresa en la cual estás trabajando ya se decidió la implementación de big data.

Per les profesionales del big data

Perfiles profesionales del big data

Los perfiles profesionales más buscados de big data

Siguiendo a Juan (2016):

¿Por qué las empresas buscan diferentes perfiles de big data?

Figura 1. El experto en big data

Los 7 perfiles clave de los profesionales del big data

De acuerdo con Eurecat (2016):

Figura 2. Perfiles profesionales del big data

Fuente: IEBS, 2016, https://bit.ly/2XRa04i.

Presente y futuro del big data

Revisión del Módulo 1: Introducción general y ecosistema big data

Presente y futuro del big data

Siguiendo a IDHATA (2014), podemos observar diversos ejemplos de uso:

Planeamiento Urbano: el MIT (Instituto Tecnológico de Massachusetts) está utilizando información

Policía de Los Ángeles: el departamento de policía de Los Ángeles y la Universidad de California

La Evolución de big data en la empresa

Siguiendo a ABC (2013):

En este sentido, Merco (citado en Godino, 2013) sostiene:

Por su parte, Merco (citado en Godino, 2013) menciona:

Respecto al párrafo anterior, Godino (2013) señala:

Según lo establece Merco (citado en Godino, 2013):

Siguiendo a Godino (2013):

La clave del éxito

Godino, I. (s. f.). Documentación y empresas. Recuperado de https://www.scoop.it/t/ documentacion-y-empresa

IDATHA. (2014). BIG DATA – Conceptos Generales. Recuperado de https://docplayer. es/884856-We-are-experts-

I'm not a robot

VC- Big Data - Módulo 1