Capítulo 6
Capítulo 6
Capítulo 6
Fundamentos de inteligencia
de negocios: bases de datos y C A P Í T U L O
administración de la información
214
© Semisatch/Shutterstock
215
desde un solo lugar. Con los datos esparcidos en tantos sistemas distintos en toda la
empresa, era muy difícil contrastar los suscriptores con los prospectos a la hora de desa-
rrollar la lista de correo para una campaña de marketing. También estaban las cuestiones
de seguridad: The Globe and Mail recolecta y almacena la información de pago de los
clientes; alojar estos datos confidenciales en varios lugares hace aún más difícil el poder
asegurar que se implementen los controles de seguridad de datos correctos.
En 2002 el periódico comenzó a lidiar con estos problemas al implementar un sis-
tema empresarial SAP con un almacén de datos SAP NetWeaver BW, el cual contendría
todos los datos de la empresa provenientes de sus diversos orígenes de datos en una sola
ubicación donde los usuarios de negocios pudieran acceder a ellos y analizarlos de una
manera fácil.
Los primeros datos que ocuparon el almacén de datos fueron los de ventas por publi-
cidad, que son una de las principales fuentes de ingresos. En 2007 The Globe and Mail
agregó datos de circulación al almacén, incluyendo los detalles sobre los datos de
entrega como el tiempo restante en la suscripción de un cliente y los datos sobre pros-
pectos de marketing de fuentes independientes. También se agregaron al almacén los
datos sobre los prospectos.
Con todos estos datos en un solo lugar, el periódico puede relacionar fácilmente los
datos de los prospectos y de los clientes para no dirigirse a los clientes existentes con pro-
mociones de suscripción. También puede asociar los datos con los que “no deben contac-
tarse” y los datos sobre el área de entregas para determinar si es posible entregar o no un
periódico, o si hay que dirigirse a un cliente con una promoción de suscripción digital.
A pesar de los beneficios obvios del nuevo almacén de datos, no todos los usuarios de
negocios de The Globe and Mail se incorporaron de inmediato. Las personas que solían
extraer los datos del sistema mainframe y manipularlos en sus propias bases de datos o
archivos siguieron haciendo lo mismo después de que el almacén de datos entró en ope-
ración. No entendían el concepto de un almacén de datos ni la necesidad de trabajar en
torno a la gestión de datos a nivel empresarial. La gerencia de The Globe and Mail decidió
atacar este nuevo problema educando a sus usuarios, en especial a los profesionales de
marketing, con el valor de tener todos los datos de la organización en un almacén
de datos y las herramientas disponibles para acceder a estos datos y analizarlos.
Las nuevas capacidades de análisis de datos de The Globe and Mail produjeron aho-
rros gracias a las eficiencias y los procesos modernizados que pagaron la inversión en
un año. Las campañas de marketing que anteriormente tardaban dos semanas en com-
pletarse ahora sólo requieren un día. El periódico puede determinar sus tasas de satura-
ción en cierta área para guiar sus planes de marketing. Y hay menos quejas de los sus-
criptores y suscriptores potenciales en cuanto a que se les contacte innecesariamente.
Para capitalizar aún más en cuanto a la gestión y el análisis de los datos, The Globe
and Mail recurrió a la nube. Una meta de negocios clave para la empresa era reforzar el
contenido en línea e incrementar la base de suscriptores digitales del periódico. The
Globe and Mail dedicó más recursos al contenido en línea digital, con distintas tarifas
de suscripción para los clientes que sólo accedían a través de Internet y para los clien-
tes que recibían el periódico impreso. Para cortejar de manera agresiva a los suscrip-
tores digitales, The Globe and Mail tenía que extraer sus datos sobre el flujo de clics
que registraban las acciones del usuario en Web, para enfocarse en los potenciales sus-
criptores digitales con base no sólo en sus intereses específicos, sino también en sus in-
tereses en un día en particular. El volumen de datos era demasiado grande como para
que lo pudiera manejar la base de datos convencional Oracle de la empresa. La solu-
ción era usar el software de computación “en memoria” (in-memory) SAP HANA ONE
y ejecutarlo en la plataforma de computación en la nube de Amazon Web Services, que
acelera el análisis de datos y el procesamiento al almacenar los datos en la memoria
principal de la computadora (RAM) en vez de hacerlo en dispositivos de almacena-
miento externos. Esta solución en la nube permite a The Globe and Mail pagar sólo por
las capacidades que usa cada hora.
Fuentes: www.theglobeandmail.com, visitado el 1 de marzo de 2014; “The Globe and Mail Uses
SAP HANA in the Cloud to row Its Digital Audience”, SAP Insider Profiles, 1 de abril de 2013, y
David Hannon, “Spread the News”, SAP Insider Profiles, octubre-diciembre de 2012.
Desafíos de
negocios
Q
Datos fragmentados en bases
de datos y archivos aislados
Q Centralizar la Q Procesos de informes que
administración Administración
ocupan mucho tiempo
de los datos Q
Tecnología obsoleta
de gestión de datos
Q Estandarizar las
definiciones de Sistema de Soluciones
Organización
los datos información de negocios
Q Organizar y reconciliar
los datos Q Monitorear rendimiento Q Reducir costos
Q
Educar a los usuarios a nivel empresarial Q
Incrementar servicio
Q Acelerar la toma al cliente
Q
Desplegar computadora de decisiones Q
Incrementar
mainframe Tecnología Q Mejorar el análisis participación
Q Implementar software de los clientes en el mercado
empresarial SAP y
almacén de datos
Q
Reducir uso de bases
de datos locales
Q Ejecutar SAP HANA en
nube de Amazon
U
n sistema eficaz de información proporciona a los usuarios información
precisa, oportuna y relevante. La información precisa está libre de errores.
La información es oportuna cuando está disponible para los encargados de
tomar decisiones en el momento en que la necesitan. Asimismo, es relevan-
te cuando es útil y apropiada tanto para los tipos de trabajo como para las decisiones que
la requieren.
Tal vez le sorprenda saber que muchas empresas no tienen información oportuna,
precisa o relevante debido a que los datos en sus sistemas de información han estado
mal organizados y se les ha dado un mantenimiento inapropiado. Esta es la razón por
la que la administración de los datos es tan esencial. Para comprender el problema,
veamos cómo los sistemas de información organizan los datos en archivos de compu-
tadora, junto con los métodos tradicionales de administración de archivos.
Archivo Archivo
Base de datos CURSO FINANCIERO
Archivo
PERSONAL
CURSO
Archivo ID_Estudiante Curso Fecha Calificación
Bit 0
Un sistema computacional organiza los datos en una jerarquía, la cual empieza con el bit, que representa 0 o 1. Los bits se
pueden agrupar para formar un byte que representa un carácter, número o símbolo. Los bytes se pueden agrupar para formar
un campo, y los campos relacionados para constituir un registro. Los registros relacionados se pueden reunir para crear un
archivo, y los archivos relacionados se pueden organizar en una base de datos.
Archivo maestro
Elementos de datos
De la A a la Z
Archivos derivativos
Programa de
CONTABILIDAD A B C D
aplicación 1
Y FINANZAS Usuarios
Programa de
RECURSOS A B D E
aplicación 2
HUMANOS Usuarios
VENTAS Programa de
Y MARKETING A B E G
aplicación 3
Usuarios
Programa de
MANUFACTURA A E F G
aplicación 4
Usuarios
El uso de una metodología tradicional para el procesamiento de archivos impulsa a cada área funcional
en una corporación a desarrollar aplicaciones especializadas. Cada aplicación requiere un archivo de
datos único que probablemente sea un subconjunto del archivo maestro. Estos subconjuntos producen
redundancia e inconsistencia en los datos, inflexibilidad en el procesamiento y desperdicio de los recursos
de almacenamiento.
De pe ndencia programa-datos
La dependencia programa-datos se refiere al acoplamiento de los datos almacenados
en archivos y los programas específicos requeridos para actualizar y dar mantenimiento
a esos archivos, de tal forma que los cambios en los programas requieran cambios en
los datos. Todo programa de computadora tradicional tiene que describir la ubicación y
naturaleza de los datos con que trabaja. En un entorno de archivos tradicional, cualquier
cambio en un programa de software podría requerir un cambio en los datos a los que
accede ese programa. Tal vez un programa se modifique de un código postal de cinco
dígitos a nueve. Si el archivo de datos original se cambiara para usar códigos postales
de nueve dígitos en vez de cinco, entonces otros programas que requirieran el código
postal de cinco dígitos ya no funcionarían apropiadamente. La implementación apro-
piada de dichos cambios podría costar millones de dólares.
sistema, pero tal vez sea demasiado costoso recuperarla. Quizá varios programadores
tengan que trabajar durante semanas para reunir los elementos de datos requeridos en
un nuevo archivo.
Nombre
NSS Vista de
Seguro_Medico beneficios
ID_Empleado
Nombre
NSS Sistema de
Posicion administración
Fecha_Contratacion de bases de datos
Sueldo_Bruto
Sueldo_Neto
Seguro_Vida
Beneficio_Pension
Seguro_Medico Nombre
NSS Vista de
Sueldo_Bruto nómina
Base de datos de Sueldo_Neto
recursos humanos
Una sola base de datos de recursos humanos provee muchas vistas distintas de los datos, dependiendo de
los requerimientos de información del usuario. Aquí se ilustran dos posibles vistas, una de interés para un
especialista de beneficios y otra de interés para un miembro del departamento de nómina de la compañía.
Oracle Database y Microsoft SQL Server son DBMS relacionales para las grandes main-
frames y las computadoras de rango medio. MySQL es un popular DBMS de código
fuente abierto.
Veamos ahora cómo organiza una base de datos relacional la información sobre pro-
veedores y piezas (vea la figura 6.4). La base de datos tiene una tabla separada para la en-
tidad PROVEEDOR y una para la entidad PIEZA. Cada tabla consiste en una cuadrícula
de columnas y filas de datos. Cada elemento individual de datos para cada entidad se al-
macena como un campo separado, y cada campo representa un atributo para esa entidad.
Los campos en una base de datos relacionales también se llaman columnas. Para la enti-
dad PROVEEDOR, el número de identificación de proveedor, nombre, calle, ciudad, estado
y código postal se almacenan como campos separados dentro de la tabla PROVEEDOR y
cada campo representa un atributo para la entidad PROVEEDOR.
La información real sobre un solo proveedor que reside en una tabla se denomina
fila. Por lo general, las filas se conocen como registros, o en términos muy técnicos,
como tuplas. Los datos para la entidad PIEZA tienen su propia tabla separada.
El campo para Nombre_Proveedor en la tabla PROVEEDOR identifica cada registro
en forma única, de modo que ese registro se pueda recuperar, actualizar u ordenar, y se
denomina campo clave. Cada tabla en una base de datos relacional tiene un campo que
se designa como su clave primaria. Este campo clave es el identificador único para toda
Una base de datos relacional organiza los datos en forma de tablas bidimensionales. Aquí se ilustran las tablas para las entidades PROVEEDOR y
PIEZA, las cuales muestran cómo representan a cada entidad y sus atributos. Numero_Proveedor es una clave primaria para la tabla PROVEEDOR
y una clave foránea para la tabla PIEZA.
PIEZA PROVEEDOR
Numero_Pieza Nombre_Pieza Precio_Unitario Numero_Proveedor Numero_Proveedor Nombre_Proveedor Calle_Proveedor Ciudad_Proveedor Estado_Proveedor CP_Proveedor
137 Cerrojo de puerta 22.00 8259 8259 CBM Inc. 74 5th Avenue Dayton OH 45220
145 Espejo lateral 12.00 8444 8261 B. R. Molds 1277 Gandolly Street Cleveland OH 49345
150 Moldura de puerta 6.00 8263 8263 Jackson Components 8233 Micklin Street Lexington KY 56723
152 Seguro de puerta 31.00 8259 8444 Bryant Corporation 4315 Mill Drive Rochester NY 11344
155 Compresor 54.00 8261
Unir por Numero_Proveedor
178 Manija de puerta 10.00 8259
M06_LAUDON_SISTEMAS-DE-INFORMACION-GERENCIAL_SE_14ED_C6_214-253_XXXX-X.indd 225
Numero_Pieza Nombre_Pieza Numero_Proveedor Nombre_Proveedor
Las operaciones seleccionar, unir y proyectar, permiten combinar datos de dos tablas distintas y mostrar solamente los atributos seleccionados.
Capítulo 6 Fundamentos de inteligencia de negocios: bases de datos y administración de la información
225
2/9/16 11:41 AM
226 Parte Dos Infraestructura de la tecnología de la información
Microsoft Access cuenta con una herramienta rudimentaria de diccionario de datos, la cual
muestra información sobre el tamaño, formato y otras características de cada campo en una
base de datos. Aquí se muestra la información que se mantiene en la tabla PROVEEDOR.
El pequeño icono a la izquierda de Numero_Proveedor indica que es un campo clave.
En Microsoft Access encontrará herramientas que permiten a los usuarios crear con-
sultas al identificar las tablas y campos que desean junto con los resultados, para des-
pués seleccionar las filas de la base de datos que cumplan con ciertos criterios específi-
cos. A su vez, estas acciones se traducen en comandos de SQL. La figura 6.8 ilustra cómo
se construiría la misma consulta que la de SQL para seleccionar piezas y proveedores,
pero ahora mediante las herramientas para crear consultas de Microsoft.
Microsoft Access y otros sistemas DBMS tienen herramientas para generación de
informes, de modo que se puedan mostrar los datos de interés en un formato más
estructurado y elegante que el de las consultas. Crystal Reports es un popular generador
de informes para los DBMS corporativos extensos, aunque también se puede utilizar con
Access, el cual, igualmente, cuenta con herramientas para desarrollar aplicaciones de
sistemas de escritorio. Ambos incluyen herramientas para crear pantallas de captura
de datos, generar informes y desarrollar la lógica de procesamiento de transacciones.
Aquí se ilustran las instrucciones de SQL para una consulta que selecciona los proveedores de las piezas
137 o 150. Se produce una lista con los mismos resultados que en la figura 6.5.
Aquí se ilustra cómo se construiría la consulta de la figura 6.7 usando las herramientas de Microsoft Access
para crear consultas. Muestra las tablas, los campos y los criterios de selección utilizados para la consulta.
de toda la compañía. La base de datos requiere tanto un diseño conceptual como uno
físico. El diseño conceptual o lógico de la base de datos es un modelo abstracto de la
base de datos desde una perspectiva de negocios, en tanto que el diseño físico muestra
la verdadera disposición de la base de datos en los dispositivos de almacenamiento de
acceso directo.
Numero_ Fecha_ Numero_ Nombre_ Precio_ Cantidad_ Numero_ Nombre_ Calle_ Ciudad_ Estado_ CP_
Pedido Pedido Pieza Pieza Unitario Pieza Proveedor Proveedor Proveedor Proveedor Proveedor Proveedor
Una relación sin normalizar contiene grupos repetitivos. Por ejemplo, puede haber muchas piezas y proveedores para cada pedido. Sólo
hay una correspondencia de uno a uno entre Numero_Pedido y Fecha_Pedido.
PIEZA ARTICULO_LINEA
Clave Clave
PROVEEDOR PEDIDO
Clave Clave
Después de la normalización, la relación original PEDIDO se ha dividido en cuatro relaciones más pequeñas. La relación PEDIDO se queda con sólo
dos atributos y la relación ARTICULO_LINEA tiene una clave combinada, o concatenada, que consiste en Numero_pedido y Numero_Pieza.
llamada PEDIDO con todos los campos que se incluyen aquí, tendríamos que repetir
el nombre y la dirección del proveedor para cada pieza del pedido, aun cuando éste
sea de piezas de un solo proveedor. Esta relación contiene lo que se denomina grupos
de datos repetitivos, ya que puede haber muchas piezas en un solo pedido para un
proveedor dado. Una manera más eficiente de ordenar los datos es dividir PEDIDO en
relaciones más pequeñas, cada una de las cuales describe a una sola entidad. Si avanza-
mos paso a paso y normalizamos la relación PEDIDO, obtendremos las relaciones que
se ilustran en la figura 6.10. Para averiguar más sobre la normalización, los diagramas
entidad-relación y el diseño de bases de datos, consulte las Trayectorias de aprendizaje
de este capítulo.
Los sistemas de bases de datos relacionales tratan de cumplir reglas de integridad
referencial para asegurar que las relaciones entre las tablas acopladas permanez-
can consistentes. Cuando una tabla tiene una clave foránea que apunta a otra no
es posible agregar un registro a la tabla con la clave foránea a menos que haya uno
correspondiente en la tabla vinculada. En la base de datos que examinamos antes
en el capítulo, la clave foránea Numero_Proveedor vincula la tabla PIEZA con la
tabla PROVEEDOR. No podemos agregar un nuevo registro a la tabla PIEZA para una
pieza con el Numero_Proveedor 8266 a menos que haya un registro correspondiente
en la tabla PROVEEDOR para el Numero_Proveedor 8266. También debemos elimi-
nar el registro correspondiente en la tabla PIEZA si quitamos el registro en la tabla
PROVEEDOR para el Numero_Proveedor 8266. Es decir, ¡no debemos tener piezas de
proveedores que no existen!
Los diseñadores de bases de datos documentan su modelo de datos con un diagra-
ma entidad-relación, el cual se ilustra en la figura 6.11. Este diagrama muestra la
relación entre las entidades PROVEEDOR, PIEZA, ARTICULO_LINEA y PEDIDO. Los
cuadros representan las entidades, y las líneas que conectan los cuadros, las relaciones.
El diagrama muestra las relaciones entre las entidades PROVEEDOR, PIEZA, ARTICULO_LINEA y PEDIDO que se podrían usar para modelar la base
de datos de la figura 6.10.
Una línea que conecta dos entidades que termina en dos marcas cortas designa una
relación de uno a uno. Una línea que conecta dos entidades y termina con una pata de
cuervo y una marca corta encima de ella indica una relación de uno a varios. La figura
6.11 muestra que un PEDIDO puede contener varios ARTICULO_LINEA. (Es posible
ordenar una PIEZA muchas veces y que aparezca otras tantas como artículo de línea en
un solo pedido.) Cada PIEZA solo puede tener un PROVEEDOR, pero muchos elemen-
tos PIEZA pueden ser proporcionados por el mismo PROVEEDOR.
No podemos enfatizarlo lo suficiente: si el modelo de datos de la empresa no es el
correcto, el sistema no podrá dar buen servicio a la empresa. Los sistemas de la com-
pañía no serán tan efectivos como podrían serlo debido a que tendrán que trabajar con
datos que tal vez sean imprecisos, incompletos o difíciles de recuperar. Comprender
los datos de la organización y la forma en que se deben representar en una base de datos
es tal vez la lección más importante que usted puede aprender de este curso.
Por ejemplo, Famous Footwear, una cadena de zapaterías con más de 800 sucursales
en 49 estados, no pudo lograr su objetivo de tener “el estilo correcto de zapato en la
tienda apropiada para venderse al precio adecuado”, ya que su base de datos no estaba
correctamente diseñada para ajustar con rapidez el inventario de las tiendas. La compa-
ñía tenía una base de datos relacional Oracle operando en una computadora de medio
rango, pero el objetivo primordial para el que se diseñó la base de datos era producir
informes estándar para la gerencia, en vez de reaccionar a los cambios en el mercado.
La gerencia no pudo obtener datos precisos sobre artículos específicos en el inventario
en cada una de sus tiendas. Para solucionar este problema, la compañía tuvo que crear
una nueva base de datos en la que se pudieran organizar mejor los datos de las ventas y
del inventario para realizar análisis y administrar el inventario.
todos de orígenes distintos. Los Big Data se producen en cantidades mucho mayores
y con mucha más rapidez que los datos tradicionales. Por ejemplo, un solo motor de
jet es capaz de generar 10 terabytes de datos en sólo 30 minutos, y hay más de 25,000
vuelos de aerolíneas a diario. Aun cuando los “tweets” se limitan a 140 caracteres cada
uno, Twitter genera más de 8 terabytes de datos por día. De acuerdo con la empresa de
investigación de tecnología International Data Center (IDC), los datos se duplican con
creces cada dos años, por lo que la cantidad de datos disponibles para las organizaciones
está aumentando en forma indiscriminada.
A las empresas les interesan los Big Data debido a que pueden revelar más patrones
y anomalías interesantes que los conjuntos de datos más pequeños, con el potencial de
proveer nuevas perspectivas en cuanto al comportamiento de los clientes, los patrones
de clima, la actividad del mercado financiero u otros fenómenos. Sin embargo, para de-
rivar un valor de negocios de estos datos, las organizaciones necesitan nuevas tecno-
logías y herramientas capaces de administrar y analizar datos no tradicionales junto con
sus datos empresariales tradicionales.
H ad oop
Los productos de DBMS relacionales y almacenes de datos no se adaptan bien para orga-
nizar y analizar Big Data o datos que no caben fácilmente en las columnas y filas utiliza-
das en sus modelos de datos. Para manejar datos no estructurados y semiestructurados
en grandes cantidades, así como datos estructurados, las organizaciones usan Hadoop,
que es un marco de trabajo de software de código abierto, administrado por la Fundación
de Software Apache, lo que permite el procesamiento paralelo distribuido de enormes
cantidades de datos a través de computadoras económicas. Descompone un problema de
Big Data en varios subproblemas, los distribuye entre miles de nodos de procesamiento
de computadoras económicas y luego combina el resultado en un conjunto de datos de
menor tamaño que es más fácil de analizar. Tal vez usted ya haya usado Hadoop para
encontrar la mejor tarifa aérea en Internet, obtener indicaciones para llegar a un restau-
rante, realizar una búsqueda en Google o conectarse con un amigo en Facebook.
Hadoop consta de varios servicios clave: el sistema de archivos distribuidos Hadoop
(HDFS) para almacenamiento de datos y MapReduce para procesamiento de datos en paralelo
de alto rendimiento. HDFS enlaza entre sí los sistemas de archivos en los numerosos nodos en
un clúster Hadoop para convertirlos en un gran sistema de archivos. MapReduce de Hadoop
se inspiró en el sistema MapReduce de Google para desglosar el procesamiento de enormes
conjuntos de datos y asignar trabajo a los diversos nodos en un clúster. HBase, la base de datos
no relacional de Hadoop, ofrece un acceso rápido a los datos almacenados en HDFS y una
plataforma transaccional para ejecutar aplicaciones en tiempo real de alta escala.
Hadoop puede procesar grandes cantidades de cualquier tipo de datos, incluyendo datos
transaccionales estructurados, datos poco estructurados como las fuentes de Facebook
y Twitter, datos complejos como los archivos de registro de servidor Web y datos de audio y
video no estructurados. Hadoop se ejecuta en un clúster de servidores económicos y pueden
agregarse o eliminarse procesadores según sea necesario. Las empresas usan Hadoop para
analizar volúmenes muy grandes de datos, así como para un área de concentración para da-
tos no estructurados y semiestructurados antes de cargarlos en un almacén de datos.
Facebook almacena gran parte de sus datos en un enorme clúster Hadoop, que contiene
cerca de 100 petabytes, alrededor de 10,000 veces más información que la Biblioteca del
Congreso estadounidense. Yahoo usa Hadoop para rastrear el comportamiento de los usua-
rios de modo que pueda modificar su página de inicio y adaptarla a sus intereses. La em-
presa de investigación de ciencias de la vida NextBio usa Hadoop y HBase para procesar
datos para empresas farmacéuticas que realizan investigación genómica. Los principales
distribuidores de bases de datos como IBM, Hewlett-Packard, Oracle y Microsoft tienen
sus propias distribuciones de software de Hadoop. Otros distribuidores ofrecen herramien-
tas para meter y sacar datos de Hadoop, o para analizarlos dentro de Hadoop.
S E S I Ó N I N T E R A C T I V A : T E C N O LO G Í A
IMPULSO DE LA GESTIÓN DE FLOTILLAS DE ARI CON ANÁLISIS
EN TIEMPO REAL
Automotive Resources International©, mejor conocida podía generar informes detallados sobre los gastos por parti-
como ARI©, es la empresa privada más grande del mundo das, las compras de vehículos, los registros de mantenimien-
para servicios de administración de flotillas de vehículos. to y demás información operacional, los cuales se presen-
ARI tiene sus oficinas generales en Mt. Laurel, Nueva taban como simples hojas de cálculo, tablas o gráficos, pero
Jersey, con 2,500 empleados y oficinas en Norteamérica, no era posible analizar todos los datos para detectar tenden-
Europa, el Reino Unido y Hong Kong. La empresa admi- cias y hacer recomendaciones. ARI podía analizar los datos
nistra más de 1’000,000 de vehículos en Estados Unidos, cliente por cliente, pero no era capaz de agregar esos da-
Canadá, México, Puerto Rico y Europa. tos en toda su base de clientes. Por ejemplo, si ARI admi-
Las empresas que necesitan vehículos para envíos (ca- nistraba la flotilla de vehículos de una compañía farmacéu-
miones, vans, automóviles, barcos y vagones de ferrocarril) tica, sus sistemas de información no podían marcar como
pueden optar por gestionar su propia flotilla de vehículos referencia el rendimiento de esa flotilla y compararlo con
o bien subcontratar la gestión de flotillas con empresas el resto de la industria. Ese tipo de problema requería dema-
como ARI, que se especializan en estos servicios. ARI se siado trabajo manual y tiempo, y de todas formas no ofrecía
encarga de todo el ciclo de vida y la operación de una el nivel de perspectiva que la gerencia consideraba posible.
flotilla de vehículos para sus clientes, desde la especifica- Además, para crear los informes ARI tenía que recurrir
ción inicial y la adquisición hasta la reventa, incluyendo a expertos internos en la materia, en varios aspectos de
servicios financieros, de mantenimiento, de gestión del operaciones de flotilla, a quienes se les conocía como “usua-
combustible y administración del riesgo como la capacita- rios avanzados de generación de informes”. Cada solicitud
ción de seguridad de los conductores y la administración de información se pasaba a estos usuarios avanzados. Una
de accidentes. ARI también mantiene seis call centers en solicitud de un informe tardaría 5 días en completarse. Si el
Norteamérica que operan 24/7, los 365 días del año para informe no era satisfactorio, regresaría a quien había escrito
dar soporte a las operaciones de flotillas de los clientes, el informe para que realizara modificaciones. El proceso de
brindando asistencia relacionada con reparaciones, des- ARI para analizar sus datos era demasiado prolongado.
composturas, respuesta a los accidentes, mantenimiento A mediados de 2011 ARI implementó SAP
preventivo y demás necesidades de los conductores. Estos BusinessObjects Explorer para dar a los clientes la capaci-
call centers manejan cerca de 3.5 millones de llamadas por dad mejorada de acceder a los datos y ejecutar sus propios
año de clientes, conductores y proveedores que esperan el informes. SAP BusinessObjects Explorer es una herra-
acceso a la información práctica en tiempo real. mienta de inteligencia de negocios que permite a los usua-
La acción de proporcionar esta información se ha con- rios de negocios ver, ordenar y analizar la información de
vertido en un desafío cada vez mayor. Al operar una sola inteligencia de negocios. Los usuarios realizan búsquedas
flotilla grande de vehículos comerciales se generan altos a través de los datos y los resultados se muestran con una
volúmenes de datos complejos, como la información sobre tabla que indica la mejor coincidencia de información. La
el consumo de combustible, mantenimiento, licencias y representación gráfica de los resultados cambia a medida
cumplimiento. Por ejemplo, una transacción de combustible que el usuario hace más preguntas de los datos.
requiere datos sobre los impuestos estatales que se pagan, A principios de 2012 integró SAP BusinessObjects
el grado del combustible, la venta total, el monto vendido Explorer con HANA, la plataforma de computación en
y tanto la hora como el lugar de la compra. Un trabajo sim- memoria de SAP que puede implementarse como aplica-
ple de frenos y una revisión de mantenimiento preventivo ción dentro de las premisas (hardware y software) o en
generan docenas de registros para cada componente al que la nube. HANA está optimizada para realizar análisis en
se da servicio. Cada pieza y servicio que se realiza sobre un tiempo real y manejar volúmenes muy altos de datos ope-
vehículo se rastrea mediante códigos de la Asociación esta- racionales y transaccionales en tiempo real. Los análisis
dounidense del transporte de carga. ARI recolecta y analiza en memoria de HANA consultan los datos almacenados en
más de 14,000 piezas de datos por vehículo. Después mul- la memoria de acceso aleatorio (RAM) en vez de usar un
tiplica los datos por cientos de flotillas, algunas con hasta disco duro o almacenamiento tipo flash.
10,000 vehículos, todos operando al mismo tiempo a nivel Después de eso, las cosas comenzaron a ocurrir con rapi-
mundial; así puede darse una idea del enorme volumen de dez. Cuando el controlador de ARI necesitaba un análisis de
datos que ARI necesita administrar, tanto para sus propias impacto de los mejores 10 clientes de la empresa, SAP HANA
operaciones como para sus clientes. produjo el resultado en un lapso de 3 a 3.5 segundos. En
ARI proporcionaba a sus clientes información detallada el antiguo entorno de sistemas de ARI, esta tarea se habría
sobre las operaciones de sus flotillas, pero el tipo de infor- asignado a un usuario avanzado especializado en el uso de
mación que podía ofrecer era muy limitado. Por ejemplo, herramientas de informes, habría que dibujar especificacio-
nes y diseñar un programa para esa consulta específica, un call centers representa el 40% de la sobrecarga directa
proceso que hubiera tomado 36 horas. de ARI, esa reducción en tiempo se traduce en grandes
Ahora, usando HANA, ARI puede extraer rápidamente ahorros en costo.
sus amplios recursos de datos y generar predicciones con ARI planea tener algunas de estas capacidades de gene-
base en los resultados. Por ejemplo, la empresa puede pro- ración de informes y análisis en tiempo real disponibles
ducir cifras precisas sobre los costos de operar una flotilla en dispositivos móviles, lo cual permitirá a los clientes
de cierto tamaño a través de determinada ruta en industrias aprobar al instante varios procedimientos operacionales,
específicas durante cierto tipo de clima y predecir el impacto como la autorización de reparaciones de mantenimiento.
de los cambios en alguna de esas variables. Y puede hacerlo Los clientes también podrán usar las herramientas móviles
casi con tanta facilidad como la de proveer a sus clientes un para una perspectiva instantánea de las operaciones de sus
historial simple de sus gastos de combustible. Con esta infor- flotillas, con un nivel de detalle como el historial de los
mación tan útil ARI provee más valor a sus clientes. neumáticos de un vehículo específico.
HANA también redujo el tiempo requerido para cada
transacción manejada por los call centers de ARI (desde el
Fuentes: “Driving 2 Million Vehicles with SAP Data”, www.sap.com,
momento en que un miembro del personal del call center visitado el 1 de febrero de 2014; www.arifleet.com, visitado el 1 de
toma una llamada hasta la recuperación y entrega de la febrero de 2014, y “ARI Fleet Management Drives Real-Time Analytics
información solicitada) en un 5%. Como el personal de los to Customers”, SAP InsiderPROFILES, 1 de abril de 2013.
P R E G U N TA S D E L CA S O D E E S T U D I O
1. ¿Por qué era tan problemática la administración de 3. ¿Fue SAP HANA una buena solución para ARI? ¿Por qué?
datos en ARI? 4. Describa los cambios en los negocios como resultado de
2. Describa las capacidades anteriores de ARI en cuanto a adoptar HANA.
análisis de datos y generación de informes, y su
impacto en el negocio.
Datos
RSHUDFLRQDOHV Mercado
([WUDHUWUDQVIRUPDU de datos
cargar
Datos
KLVWyULFRV
Usuarios casuales
Almacén &RQVXOWDV
Datos de
de datos ,QIRUPHV
PiTXLQD
7DEOHURVGHFRQWURO
'DWRV:HE Clúster
Hadoop
Datos de
DXGLRYLGHR Usuarios avanzados
3ODWDIRUPD &RQVXOWDV
DQDOtWLFD ,QIRUPHV
2/$3
Datos 0LQHUtDGHGDWRV
externos
Una infraestructura contemporánea de inteligencia de negocios cuenta con capacidades y herramientas para administrar
y analizar grandes cantidades y distintos tipos de datos provenientes de varias fuentes. Se incluyen herramientas de
consulta y generación de informes fáciles de usar para los usuarios de negocios casuales y conjuntos de herramientas
analíticas más sofisticadas para usuarios avanzados.
mismos datos de distintas formas mediante el uso de varias dimensiones. Cada aspecto
de información —producto, precios, costo, región o periodo de tiempo— representa una
dimensión distinta. Así, un gerente de productos podría usar una herramienta de análi-
sis de datos multidimensional para saber cuántas arandelas se vendieron en el Este en
junio, cómo se compara esa cifra con la del mes anterior y con la de junio del año ante-
rior, y cómo se compara con el pronóstico de ventas. OLAP permite a los usuarios obte-
ner respuestas en línea a preguntas ad hoc como éstas en un tiempo muy corto, incluso
cuando los datos se almacenan en bases de datos muy grandes, como las cifras de ventas
de varios años.
La figura 6.13 muestra un modelo multidimensional que podría crearse para repre-
sentar productos, regiones, ventas reales y ventas proyectadas. Una matriz de ventas
actuales se puede apilar encima de una matriz de ventas proyectadas para formar un
cubo con seis caras. Si gira el cubo 90º en un sentido, la cara que se muestre será la del
producto contra ventas actuales y proyectadas; si lo gira de nuevo 90º, verá la cara de la
región contra ventas actuales y proyectadas, y si lo gira 180º a partir de la vista original,
verá las ventas proyectadas y producto contra región. Se pueden anidar cubos dentro
de otros cubos para crear vistas complejas de datos. Una compañía podría utilizar una
base de datos multidimensional especializada, o una herramienta que cree vistas multi-
dimensionales de datos en las bases de datos relacionales.
M i ne rí a de datos
Las consultas en las bases de datos tradicionales responden a preguntas como: “¿cuántas
unidades del producto número 403 se enviaron en febrero de 2013?” El OLAP (análisis
multidimensional) soporta solicitudes mucho más complejas de información, como:
“comparar las ventas del producto 403 relativas con el plan por trimestre y la región
de ventas durante los últimos dos años”. Con OLAP y el análisis de datos orientados a
consultas, los usuarios necesitan tener una buena idea sobre la información que están
buscando.
La minería de datos está más orientada al descubrimiento, ya que provee perspecti-
vas hacia los datos corporativos que no se pueden obtener mediante OLAP, al encontrar
patrones y relaciones ocultas en las bases de datos grandes e inferir reglas a partir de
estos patrones y relaciones, para predecir el comportamiento a futuro. Los patrones y
Proyectadas
Actuales
Tuercas
PRODUCTO Pernos
Arandelas
Tornillos
Este
Oeste
Central
REGIÓN
La vista que se muestra es la de producto contra región. Si gira el cubo 90 grados, la cara mostrará la vista
de producto contra las ventas actuales y proyectadas; si lo gira 90 grados otra vez, verá la vista de región
contra ventas actuales y proyectadas. Es posible obtener otras vistas.
reglas se utilizan para guiar la toma de decisiones y pronosticar el efecto de esas deci-
siones. Los tipos de información que se pueden obtener de la minería de datos son:
asociaciones, secuencias, clasificaciones, agrupamientos y pronósticos.
• Las asociaciones son ocurrencias vinculadas a un solo evento. Por ejemplo, un estudio
de los patrones de compra en supermercados podría revelar que cuando se compran
frituras de maíz, el 65% de veces se compra un refresco de cola, pero cuando hay una
promoción, es el 85% de veces. Esta información ayuda a los gerentes a tomar mejo-
res decisiones debido a que descubren la rentabilidad de una promoción.
• En las secuencias, los eventos se vinculan en el transcurso del tiempo. Por ejemplo,
podríamos descubrir que si se compra una casa, el 65% de veces se compra un refri-
gerador nuevo dentro de las siguientes dos semanas, y el 45% se compra un horno
dentro del mes posterior a la compra de la casa.
• La clasificación reconoce los patrones que describen el grupo al que pertenece un ele-
mento, para lo cual se examinan los elementos existentes que hayan sido clasificados
y se infiere un conjunto de reglas. Por ejemplo, las empresas, como las compañías de
tarjetas de crédito o las telefónicas, se preocupan por la pérdida de clientes estables.
La clasificación ayuda a descubrir las características de los clientes con probabili-
dades de dejar de serlo y puede proveer un modelo para ayudar a los gerentes a
predecir quiénes son esos clientes, de modo que puedan idear campañas especiales
para retenerlos.
• El agrupamiento funciona de una manera similar a la clasificación cuando aún no se
han definido grupos. Una herramienta de minería de datos puede descubrir distintas
agrupaciones dentro de los datos, como el hecho de encontrar grupos de afinidad
para tarjetas bancarias o particionar una base de datos en grupos de clientes con base
en la demografía y los tipos de inversiones personales.
• Aunque estas aplicaciones implican predicciones, el pronóstico utiliza las predicciones
de una manera distinta. Se basa en una serie de valores existentes para pronosticar
cuáles serán los otros valores. Por ejemplo, el pronóstico podría encontrar patrones
en los datos para ayudar a los gerentes a estimar el futuro valor de variables conti-
nuas, como las cifras de ventas.
Estos sistemas realizan análisis de alto nivel de los patrones o tendencias, pero tam-
bién pueden profundizar para proveer más detalles cuando sean necesarios. Hay apli-
caciones de minería de datos para todas las áreas funcionales de negocios, y también
para el trabajo gubernamental y científico. Un uso popular de la minería de datos es el
de proveer análisis detallados de los patrones en los datos de los consumidores para las
campañas de marketing de uno a uno, o para identificar a clientes rentables.
Entertainment, anteriormente conocida como Harrah’s Entertainment, es la segunda
compañía de apuestas más grande del mundo. Analiza continuamente los datos sobre
sus clientes que se recopilan cuando las personas juegan en las máquinas tragamonedas
o utilizan sus casinos y hoteles. El departamento de marketing corporativo utiliza esta
información para crear un perfil de apuestas detallado, con base en el valor continuo
de un cliente específico para la compañía. Por ejemplo, la minería de datos permite a
Caesars conocer la experiencia de juego favorita de un cliente regular en uno de sus casi-
nos en los barcos, junto con las preferencias de esa persona en cuanto al alojamiento,
los restaurantes y el entretenimiento. Esta información guía las decisiones gerenciales
sobre cómo cultivar los clientes más rentables y animarlos a que gasten más, y tam-
bién sobre cómo atraer más clientes con un alto potencial de generación de ingresos.
La inteligencia de negocios mejoró tanto las ganancias de Caesars que se convirtió en la
pieza central de la estrategia de negocios de la empresa.
electrónico, los memorándums, las transcripciones de los call centers, las respuestas a las
encuestas, los casos legales, las descripciones de patentes y los informes de servicio son
todos elementos valiosos para encontrar patrones y tendencias que ayuden a los emplea-
dos a tomar mejores decisiones de negocios. En la actualidad hay herramientas de minería
de texto disponibles para ayudar a las empresas a analizar estos datos. Estas herramientas
pueden extraer elementos clave de los conjuntos de datos extensos no estructurados, des-
cubrir patrones y relaciones, así como sintetizar la información.
Las empresas podrían recurrir a la minería de texto para analizar las transcripcio-
nes de los call center de servicio al cliente para identificar las principales cuestiones
de servicio y reparación, o para medir el sentimiento de los clientes con respecto a su
empresa. El software de análisis de opiniones es capaz de extraer los comentarios de
texto en un mensaje de correo electrónico, blog, conversación de social media o formu-
lario de encuesta para detectar las opiniones favorables y desfavorables sobre temas
específicos.
Por ejemplo, el corredor de saldos Charles Schwab usa el software Attensity Analyze
para analizar cientos de miles de interacciones de sus clientes cada mes. El software
analiza las notas de servicio de los clientes de Schwab, los correos electrónicos, las res-
puestas de las encuestas y las discusiones en línea para descubrir señales de descon-
tento que puedan provocar que un cliente deje de usar los servicios de la empresa.
Attensity puede identificar automáticamente las diversas “voces” que usan los clientes
para expresar su retroalimentación (como una voz positiva, negativa o condicional) para
señalar la intención de una persona de comprar, su intención de abandonar, o la reac-
ción a un producto o mensaje de marketing específico. Schwab usa esta información
para tomar acciones correctivas como establecer una comunicación directa del corredor
con el cliente y tratar de resolver con rapidez los problemas que lo tienen descontento.
Web es otra fuente de datos extensos no estructurados para revelar patrones, tenden-
cias y perspectivas en relación con el comportamiento de los clientes. El descubrimiento
y análisis de los patrones útiles y la información proveniente de World Wide Web se
denominan minería Web. Las empresas podrían recurrir a la minería Web para que les
ayude a comprender el comportamiento de los clientes, evaluar la efectividad de un sitio
Web específico o cuantificar el éxito de una campaña de marketing. Por ejemplo, los
comerciantes utilizan los servicios Google Trends y Google Insights for Search, que ras-
trean la popularidad de varias palabras y frases utilizadas en las consultas de búsqueda
de Google para saber en qué están interesadas las personas y qué les interesa comprar.
La minería Web busca patrones en los datos a través de la minería de contenido, la
minería de estructura y la minería de uso. La minería de contenido Web es el proceso de
extraer conocimiento del contenido de páginas Web, lo cual puede incluir datos de texto,
imágenes, audio y video. La minería de estructura Web examina los datos relacionados
con la estructura de un sitio Web específico. Por ejemplo, los vínculos que apuntan a un
documento indican su popularidad, en tanto que los que salen de un documento indican
la riqueza, o tal vez la variedad de temas cubiertos en él. La minería de uso Web examina
los datos de interacción de los usuarios registrados por un servidor Web cada vez que se
reciben solicitudes relacionadas con los recursos de un sitio Web. Los datos de uso regis-
tran el comportamiento del usuario cuando navega o realiza transacciones en el sitio Web
y recolecta los datos en un registro del servidor. Al analizar esos datos, las compañías
pueden determinar el valor de ciertos clientes específicos, las estrategias de marketing
cruzado entre los diversos productos y la efectividad de las campañas promocionales.
El caso al final del capítulo describe las experiencias de las organizaciones al usar las
herramientas analíticas y las tecnologías de inteligencia de negocios que hemos descrito
para lidiar con los desafíos de los “big data”.
a una base de datos corporativa interna. Ahora muchas compañías utilizan Web para
poner parte de la información en sus bases de datos internas a disposición de los clien-
tes y los socios de negocios.
Suponga, por ejemplo, que un cliente con un navegador Web desea buscar informa-
ción de precios en la base de datos en línea de un vendedor minorista. La figura 6.14
ilustra la forma en que ese cliente podría acceder a la base de datos interna del vende-
dor a través de Web. El usuario accede al sitio Web del vendedor a través de Internet
mediante el software de navegador Web en su PC cliente. El software de navegador Web
del usuario solicita información a la base de datos de la organización, mediante coman-
dos de HTML para comunicarse con el servidor Web.
Dado que muchas bases de datos de procesamiento en segundo plano (back-end) no
pueden interpretar comandos escritos en HTML, el servidor Web pasa estas solicitudes
de datos al software que traduce los comandos de HTML en SQL, de modo que el DBMS
que trabaja con la base de datos pueda procesarlos. En un entorno cliente/servidor,
el DBMS reside en una computadora dedicada llamada servidor de bases de datos. El
DBMS recibe las solicitudes de SQL y provee los datos requeridos. El middleware trans-
forma la información de la base de datos interna y la devuelve al servidor Web para
que la ofrezca en forma de una página Web al usuario.
La figura 6.14 muestra que el middleware que trabaja entre el servidor Web y el
DBMS es un servidor de aplicaciones que se ejecuta en su propia computadora dedi-
cada (vea el capítulo 5). El software del servidor de aplicaciones maneja todas las ope-
raciones de la aplicación, entre ellas, el procesamiento de las transacciones y el acceso
a los datos entre las computadoras basadas en navegador y las aplicaciones o bases de
datos de negocios de procesamiento en segundo plano (back-end) de una compañía.
El servidor de aplicaciones recibe las solicitudes del servidor Web, ejecuta la lógica de
negocios para procesar las transacciones con base en esas solicitudes y provee conec-
tividad a los sistemas o bases de datos de procesamiento en segundo plano de la orga-
nización. De manera alternativa, el software para manejar estas operaciones podría ser
un programa personalizado o una secuencia de comandos CGI: un programa compacto
que utiliza la especificación Interfaz de puerta de enlace común (CGI) para procesar datos
en un servidor Web.
Hay varias ventajas en cuanto al uso de Web para acceder a las bases de datos inter-
nas de una organización. En primer lugar, el software de navegador Web es mucho más
fácil de usar que las herramientas de consulta propietarias. En segundo lugar, la interfaz
Web requiere pocos o ningún cambio en la base de datos interna. Es mucho menos cos-
toso agregar una interfaz Web frente a un sistema heredado que rediseñar y reconstruir
el sistema para mejorar el acceso de los usuarios.
El acceso a las bases de datos corporativas por medio de Web está creando nuevas
eficiencias, oportunidades y modelos de negocios. ThomasNet.com provee un directo-
rio en línea actualizado de más de 700,000 proveedores de productos industriales como
químicos, metales, plásticos, goma y equipo automotriz. Antes conocida como Thomas
Internet
Los usuarios acceden a la base de datos interna de una organización a través de Web, por medio de sus
equipos PC de escritorio y el software de navegador Web.
Register, la compañía solía enviar enormes catálogos en papel con esta información y
ahora la provee a los usuarios en línea a través de su sitio Web, gracias a lo cual se ha
convertido en una compañía más pequeña y eficaz.
Otras compañías han creado empresas totalmente nuevas con base en el acceso a
bases de datos extensas a través de Web. Un ejemplo de esto es el sitio de redes sociales
Facebook, que ayuda a los usuarios a permanecer conectados entre sí o conocer nuevas
personas. Facebook incluye “perfiles” con información suministrada por 1,300 millo-
nes de usuarios activos sobre sí mismos, incluyendo intereses, amigos, fotos y grupos
a los que están afiliados. Mantiene una base de datos masiva para alojar y administrar
todo su contenido. También hay muchas bases de datos habilitadas para Web en el sector
público que ayudan a los consumidores y ciudadanos a acceder a información útil.
reducirse al mínimo. Sin embargo, la mayoría de los problemas de calidad de los datos,
como los nombres mal escritos, los números traspuestos y los códigos incorrectos o fal-
tantes, se derivan de los errores durante la captura de los datos. La incidencia de dichos
errores aumenta a medida que las compañías pasan sus negocios a la Web y permiten
que los clientes y proveedores introduzcan datos en sus sitios Web para actualizar de
manera directa los sistemas internos.
Antes de implementar una nueva base de datos, las organizaciones necesitan identi-
ficar y corregir sus datos incorrectos y establecer mejores rutinas para editar los datos
una vez que su base esté funcionando. Con frecuencia, el análisis de la calidad de los
datos empieza con una auditoría de calidad de los datos, la cual es una encuesta
estructurada de la precisión y el nivel de su integridad en un sistema de información.
Las auditorías de calidad de los datos se pueden realizar mediante la inspección de los
archivos de datos completos, la inspección de muestras provenientes de los archi-
vos de datos, o por encuestas a los usuarios finales sobre sus percepciones en cuanto
a la calidad de los datos.
La limpieza de datos, conocida también en inglés como data scrubbing, consiste en
actividades para detectar y corregir datos en una base que estén incorrectos, incom-
pletos, que tengan un formato inadecuado o que sean redundantes. La limpieza de
datos no sólo corrige los errores, sino que también impone la consistencia entre los
distintos conjuntos de datos que se originan en sistemas de información separados. El
software especializado de limpieza de datos está disponible para inspeccionar auto-
máticamente los archivos de datos, corregir errores en los datos e integrarlos en un
formato consistente a nivel de toda la compañía.
Los problemas de calidad de los datos no son sólo problemas de negocios, también
representan serios problemas para los individuos, en cuanto a que afectan su condición
financiera e incluso sus empleos. Por ejemplo, la información imprecisa u obsoleta
sobre los historiales crediticios de los consumidores que mantienen los burós de cré-
dito pueden evitar que individuos solventes obtengan préstamos o se reduzca su proba-
bilidad de encontrar o conservar un empleo.
La Sesión interactiva sobre administración ilustra la experiencia de American Water
con la administración de datos como un recurso. Cuando lea este caso trate de identifi-
car las políticas, procedimientos y tecnologías que se requirieron para mejorar la admi-
nistración de datos en esta empresa.
herramientas para generar consultas, informes y tableros de tratamiento de agua tienen mediciones y medidores
de control interactivos. para revisar la calidad del agua a medida que recibe trata-
A la fecha, American Water se enfoca en promover la miento, la administración de los datos necesita asegurar la
idea de que los datos deben estar “limpios” para que sean calidad de los datos en cada paso para asegurarse de que el
eficientes y ha invertido una gran cantidad de esfuerzo en producto final sea genuinamente útil para la empresa.
su trabajo de limpieza de datos: identificando las piezas de
Fuentes: “SAP to Deliver Software Solution to American Water”, www.
datos incompletas, incorrectas, imprecisas e irrelevantes, y sap.com, visitado el 31 de enero de 2014; David Hannon, “Clean Smooth-
luego reemplazando, modificando o eliminando los datos Flowing Data at American Water”, SAP Insider Profiles, enero-febrero de
“sucios”. De acuerdo con Clarkson, así como las plantas 2013, y www.amwater.com, visitado el 2 de febrero de 2014.
P R E G U N TA S D E L C A S O D E E S T U D I O
1. Analice la función de la política de información, la 4. ¿Cómo fue que implementar un almacén de datos
administración de los datos y los esfuerzos por asegurar ayudó a American Water a volverse una organización
la calidad de los datos al mejorar la administración de más centralizada?
datos en American Water. 5. Dé algunos ejemplos de problemas que hubieran
2. Describa los roles que desempeñan los especialistas ocurrido en American Water si sus datos no estuvieran
en sistemas de información y los usuarios finales en el “limpios”.
proyecto de transformación de sistemas de American 6. ¿Cómo fue que el almacén de datos de American
Water. Water mejoró las operaciones y la toma de decisiones
3. ¿Por qué fue tan importante la participación de los gerenciales?
usuarios de negocios? Si no hubieran desempeñado
esta función, ¿qué habría ocurrido?
Resumen
1. ¿Cuáles son los problemas de administrar los recursos de datos en un entorno tradicional de archivos?
Las técnicas tradicionales de administración de archivos dificultan a las organizaciones el proceso de llevar el
registro de todas las piezas de datos que utilizan de una manera sistemática, y de organizarlos de modo que se
pueda tener un fácil acceso a ellos. Se permitió a las distintas áreas y grupos funcionales desarrollar sus propios
archivos de manera independiente. Con el tiempo, este entorno tradicional de administración de archivos crea
problemas como la redundancia e inconsistencia de los datos, la dependencia programa-datos, inflexibilidad,
mala seguridad, falta de compartición y disponibilidad de los datos. Un sistema de administración de bases de
datos (DBMS) resuelve estos problemas con un software que permite su centralización y administración, de modo
que las empresas tengan una sola fuente consistente para todas sus necesidades de datos. El uso de un DBMS
minimiza la cantidad de archivos redundantes e inconsistentes.
2. ¿Cuáles son las principales capacidades de los sistemas de administración de bases de datos (DBMS) y por qué
es tan poderoso un DBMS?
Las principales capacidades de un DBMS son: capacidad de definición de datos, capacidad de diccionario de
datos y lenguaje de manipulación de datos. La capacidad de definición de datos especifica la estructura y el con-
tenido de la base de datos. El diccionario de datos es un archivo automatizado o manual que almacena informa-
ción sobre los datos en la base; entre estos, nombres, definiciones, formatos y descripciones de los elementos de
datos. El lenguaje de manipulación de datos (como SQL) es un lenguaje especializado para acceder a los datos y
manipularlos en la base de datos.
La base de datos relacional ha sido el método primario para organizar y dar mantenimiento a los datos en los
sistemas de información, ya que es muy flexible y accesible. Organiza los datos en tablas bidimensionales cono-
cidas como relaciones con filas y columnas. Cada tabla contiene información acerca de una entidad y sus atribu-
tos. Cada fila representa un registro y cada columna representa un atributo o campo. Cada tabla contiene tam-
bién un campo clave para identificar en forma única cada registro para recuperarlo o manipularlo. Las tablas de
las bases de datos relacionales se pueden combinar fácilmente para ofrecer los datos que requieren los usuarios,
siempre y cuando dos tablas compartan un elemento común de datos. Las bases de datos no relacionales se
están volviendo populares para administrar tipos de datos que no se pueden manejar con facilidad por el modelo de
datos relacional. Hay productos de bases de datos tanto relacionales como no relacionales disponibles como servicios
de computación en la nube.
Para diseñar una base de datos se requieren tanto un diseño lógico como uno físico. El diseño lógico modela la base de
datos desde una perspectiva de negocios. El modelo de datos de la organización debe reflejar sus procesos de negocios
clave y los requerimientos para la toma de decisiones. El proceso de crear estructuras de datos pequeñas, estables, flexi-
bles y adaptativas a partir de grupos complejos de datos al momento de diseñar una base de datos relacional se denomina
normalización. Una base de datos relacional bien diseñada no debe tener relaciones de varios a varios, y todos los atribu-
tos para una entidad específica sólo se aplican a esa entidad. Esta base de datos trata de imponer las reglas de integridad
referencial para asegurar que las relaciones entre tablas acopladas permanezcan consistentes. Un diagrama entidad-rela-
ción describe gráficamente la relación entre las entidades (tablas) en una base de datos relacional.
3. ¿Cuáles son las principales herramientas y tecnologías para acceder a la información de las bases de datos y mejorar
tanto el desempeño de negocios como la toma de decisiones?
La tecnología de administración de datos contemporánea tiene varias herramientas para obtener información útil de
todos los tipos diferentes de datos que usan las empresas en la actualidad, incluyendo datos extensos (Big Data) semies-
tructurados y no estructurados en grandes cantidades. El OLAP representa las relaciones entre los datos como una
estructura multidimensional, que se puede visualizar en forma de cubos de datos y cubos dentro de cubos de datos, con
lo cual se permite un análisis más sofisticado. La minería de datos analiza grandes reservas de datos, incluyendo el
contenido de los almacenes de datos, para encontrar patrones y reglas que se puedan utilizar para predecir el comporta-
miento en un futuro y guiar la toma de decisiones. Las herramientas de minería de datos ayudan a las empresas a anali-
zar extensos conjuntos de datos no estructurados que constan de texto. Las herramientas de minería Web se enfocan en
el análisis de patrones e información útiles provenientes de World Wide Web; examinan la estructura de los sitios Web y
las actividades de los usuarios de esos sitios Web, así como el contenido de las páginas Web. Las bases de datos conven-
cionales se pueden vincular mediante middleware a Web o a una interfaz Web para facilitar el acceso de un usuario a los
datos internos de la organización.
4. ¿Por qué la política de información, la administración de datos y el aseguramiento de la calidad de los datos, son esen-
ciales para administrar los recursos de datos de la empresa?
Para desarrollar un entorno de bases de datos se requieren políticas y procedimientos que ayuden a administrar los
datos organizacionales, así como un buen modelo de datos y una tecnología de bases de datos eficiente. Una política de
información formal gobierna el mantenimiento, la distribución y el uso de la información en la organización. En las gran-
des corporaciones, una función de administración de datos formal es responsable de la política de la información, así
como de la planificación de los datos, el desarrollo del diccionario de datos y el monitoreo del uso de los datos en la
empresa.
Los datos imprecisos, incompletos o inconsistentes crean graves problemas operacionales y financieros para las
empresas, ya que pueden crear imprecisiones en los precios de los productos, las cuentas de los clientes y los datos del
inventario, además de que conducen a decisiones imprecisas sobre las acciones que debe tomar la empresa. Las empre-
sas deben realizar acciones especiales para asegurarse de tener un alto nivel de calidad en la información. Estas acciones
incluyen el uso de estándares de datos a nivel empresarial, bases de datos diseñadas para minimizar los datos inconsis-
tentes y redundantes, auditorías de calidad de los datos y software de limpieza de datos.
Términos clave
Administración de bases de datos, 241 Gobernanza de datos, 240
Administración de datos, 240 Hadoop, 232
Almacén de datos, 231 Inconsistencia de datos, 219
Análisis de opiniones, 238 Integridad referencial, 229
Archivo, 218 Lenguaje de consulta estructurado (SQL), 226
Atributo, 218 Lenguaje de manipulación de datos, 226
Auditoría de calidad de los datos, 242 Limpieza de datos, 242
Base de datos, 221 Mercado de datos, 231
Big Data, 230 Minería de datos, 236
Bit, 218 Minería de texto, 238
Byte, 218 Minería Web, 238
Campo, 218 Normalización, 228
Campo clave, 223 Plataforma analítica, 234
Clave foránea, 224 Política de información, 240
Clave primaria, 223 Procesamiento analítico en línea (OLAP), 235
Computación en memoria, 232 Redundancia de los datos, 219
DBMS relacional, 222 Registro, 218
Definición de datos, 226 Servidor de bases de datos, 239
Dependencia programa-datos, 220 Sistema de administración de bases de datos (DBMS), 221
Diagrama entidad-relación, 229 Sistemas de administración de bases de datos no
Diccionario de datos, 226 relacionales, 224
Entidad, 218 Tupla, 223
Preguntas de repaso
6-1 ¿Cuáles son los problemas de administrar los recur- 6-3 ¿Cuáles son las principales herramientas y tecnolo-
sos de datos en un entorno tradicional de archivos? gías para acceder a la información de las bases de
• Liste y describa cada uno de los componentes en datos y mejorar tanto el desempeño de negocios
la jerarquía de datos. como la toma de decisiones?
• Defina y explique el significado de entidades, • Defina Big Data y describa las tecnologías para
atributos y campos clave. administrarlos y analizarlos.
• Liste y describa los problemas del entorno tradi- • Liste y describa los componentes de una infra-
cional de archivos. estructura de inteligencia de negocios contem-
poránea.
6-2 ¿Cuáles son las principales capacidades de los siste-
mas de administración de bases de datos (DBMS) y • Describa las capacidades del procesamiento ana-
por qué es tan poderoso un DBMS relacional? lítico en línea (OLAP).
• Defina una base de datos y un sistema de admi- • Defina minería de datos; describa cómo difiere de
nistración de bases de datos. OLAP y los tipos de información que proporciona.
• Nombre y describa brevemente las capacidades • Explique cómo difieren la minería de texto y la
de un DBMS. minería Web de la minería de datos convencional.
• Defina un DBMS relacional y explique cómo • Describa cómo pueden acceder los usuarios a la
organiza los datos. información de las bases de datos internas de
una compañía por medio de Web.
• Liste y describa las tres operaciones de un DBMS
relacional. 6-4 ¿Por qué la política de información, la administra-
• Explique por qué son útiles las bases de datos no ción de datos y el aseguramiento de la calidad de los
relacionales. datos, son esenciales para administrar los recursos
• Defina y describa la normalización y la integri- de datos de la empresa?
dad referencial; explique cómo contribuyen a • Describa los roles de la política de la información
una base de datos relacional bien diseñada. y la administración de datos en cuanto a la admi-
• Defina y describa un diagrama entidad-relación; nistración de la información.
explique su función en el diseño de bases de • Explique por qué son esenciales las auditorías de
datos. calidad de los datos y su limpieza.
6-9 Este proyecto desarrolla habilidades en cuanto a cómo realizar búsquedas en bases de datos habilitadas para Web, con
información sobre servicios y productos en ubicaciones distantes.
Suponga que su compañía está ubicada en Greensboro, Carolina del Norte, y que fabrica muebles de oficina de
diversos tipos. Está considerando abrir unas instalaciones para fabricar y vender sus productos en Australia. Le gustaría
ponerse en contacto con organizaciones que ofrezcan los diversos servicios necesarios para que usted pueda abrir su
oficina e instalaciones de fabricación en Australia como abogados, contadores, expertos en importación-exportación,
equipo y soporte de telecomunicaciones, y una empresa de apoyo. Acceda a las siguientes bases de datos en línea
para localizar compañías con las que le gustaría reunirse durante su próximo viaje: el Registro australiano de empre-
sas (abr.business.gov.au/), Australia Trade Now (australiatradenow.com/), y el Directorio nacional de empresas de
Australia (www.nationwide.com.au). Si es necesario, use motores de búsqueda como Yahoo y Google.
• Muestre una lista de compañías con las que quisiera ponerse en contacto para entrevistarlas en su viaje y determi-
nar si le pueden ayudar con estas y otras funciones que piense que son vitales para establecer su oficina.
• Clasifique las bases de datos que utilizó en cuanto a la precisión en el nombre, integridad, facilidad de uso y
utilidad en general.
¿ Ac as o Bi g D a t a t r a e c on si g o g r a n d e s r e c om p e n sa s?
CASO DE ESTUDIO
el 11% de la población de Estados Unidos debería tener manera) promete a los clientes generosas ofertas gratuitas
influenza en el punto máximo de la temporada de gripe a por compras repetidas si aceptan compartir sus datos de
mediados de enero de 2013. Sin embargo, un artículo en la compras personales con la empresa. Sears no divulga cuán-
publicación de ciencias Nature indicó que los resultados de tos clientes se han inscrito en Shop Your Way Rewards,
Google eran el doble de la cantidad real estimada por los pero la empresa de marketing de lealtad Colloquy estima
Centros para el Control y la Prevención de Enfermedades que hay alrededor de 50 millones de miembros.
de Estados Unidos, donde el 6% de la población estaba Sears deseaba personalizar las campañas de marketing,
contrayendo la enfermedad. ¿Por qué ocurrió esto? Varios los cupones y ofertas para cada cliente individual, pero sus
científicos sugirieron que Google había sido “engañado” por sistemas heredados no eran capaces de soportar ese nivel
la amplia cobertura de los medios de la severa temporada de actividad. Para poder usar modelos extensos en conjun-
de gripe del año en Estados Unidos, la cual se amplificó tos de datos grandes, Sears recurrió a Apache Hadoop y a
todavía más gracias a la cobertura de los social media. la tecnología Big Data. A Sears le solía tomar seis semanas
El algoritmo de Google sólo analizaba las cifras y no el analizar las campañas de marketing para los miembros
contexto de los resultados de búsquedas. del club de lealtad mediante el uso de una mainframe, el
Sears Holdings, la empresa matriz de Sears y Kmart, software de almacén de datos Teradata y servidores SAS.
ha estado tratando de usar Big Data para acercarse más Utilizando Hadoop, el procesamiento puede completarse
a sus clientes. Sears solía ser el minorista más grande de en forma semanal. Ciertos análisis de comercio en línea
Estados Unidos, pero por muchos años ha perdido terreno y móvil pueden realizarse a diario y la segmentación es
de manera continua ante las tiendas de descuento como mucho más precisa; en algunos casos, hasta por cliente
Walmart y Target, y con los minoristas especializados de individual. Los modelos anteriores de Sears podían usar
precios competitivos como Home Depot y Lowe’s. La el 10% de los datos disponibles, pero los nuevos modelos
empresa se ha tardado en reducir sus costos de operación, pueden trabajar con el 100%. En el pasado, Sears sólo
mantener el ritmo con las tendencias de comercialización podía conservar datos desde 90 días hasta dos años, pero
actuales y remodelar sus 2,429 tiendas, muchas de las cua- con Hadoop puede conservarlo todo, lo cual incrementa
les están deterioradas y en ubicaciones indeseables. sus oportunidades de encontrar más patrones significativos
A través de los años, Sears ha invertido mucho en tec- en los datos.
nología de la información. En una ocasión invirtió más en Además, el procesamiento de Hadoop es mucho menos
tecnología de la información y redes que todas las demás costoso que las bases de datos relacionales convencio-
empresas que no eran de cómputo en Estados Unidos, nales. Un sistema Hadoop que maneja 200 terabytes de
excepto Boeing Corporation. Sears utilizó sus enormes datos tiene un costo de operación aproximado de una ter-
bases de datos de clientes de 60 millones de tarjetahabien- cera parte del costo de una plataforma relacional de 200
tes pasados y presentes de Sears, para enfocarse en grupos terabytes. Con el enorme poder de procesamiento paralelo
como compradores de herramientas, compradores de apa- de Hadoop, procesar 2 mil millones de registros toma a
ratos electrodomésticos y fanáticos de la jardinería con pro- Sears un minuto o un poco más de tiempo que procesar
mociones especiales. Estos esfuerzos no le brindaron una 100 millones de registros.
ventaja competitiva debido a que la estructura de costos de Hadoop sigue siendo una plataforma inmadura y hay
Sears seguía siendo una de las más altas de la industria. muy pocos expertos sobre esta tecnología. Sears tuvo que
La empresa Sears ha seguido adoptando nueva tecnolo- aprender a usar Hadoop en gran parte a prueba y error,
gía para reanimar las ventas en picada: compras en línea, pero ahora ejecuta informes críticos en la plataforma, inclu-
apps móviles y un mercado parecido a Amazon.com con yendo análisis de clientes, datos financieros, productos y
otros distribuidores para 18 millones de productos, junto cadenas de suministro. Para capitalizar sobre su experiencia
con promociones intensas dentro de la tienda. Hasta ahora como innovador de la tecnología Big Data, Sears estableció
esos esfuerzos no han dado fruto y las ventas disminu- una subsidiaria llamada MetaScale para vender servicios en
yeron desde la fusión con Kmart en 2005. La empresa la nube y de consultoría de Big Data a otras empresas.
publicó una pérdida de casi $1,400 millones para 2013. Sears puede señalar muchos usos conceptuales de
El CEO de Sears Holdings, Lou D’Ambrosio, cree que la Hadoop, pero aún queda la inquietud en cuanto a si la
respuesta está en un uso aún más intensivo de la tecnolo- empresa usa Hadoop eficazmente para resolver sus enor-
gía y la minería de los datos de los clientes. La expectativa mes problemas de negocios. ¿Puede en realidad ofrecer a
es que un conocimiento más profundo de las preferencias los clientes promociones personalizadas y éstas funcionan?
de los clientes y sus patrones de compra hará que las pro- ¿Cuál es el impacto de negocios? ¿Dónde están las cifras
mociones, la comercialización y las ventas sean mucho para mostrar que los datos extensos ayuden a Sears a vol-
más efectivas. Los clientes acudirán en multitudes a las verse más redituable? Sears puede ser capaz de generar
tiendas de Sears, ya que tendrán todo lo que ellos desean. ingresos al vender sus conocimientos sobre Big Data a los
Un programa de lealtad de clientes conocido como clientes de MetaScale, pero ¿podrá Hadoop en realidad
Shop Your Way Rewards (Recompensas por comprar a su ayudar a Sears a repuntar?
Jim Sullivan, un socio en la empresa de marketing de Computer Week, 30 de enero de 2013, y Doug Henschen, “Why Sears is
lealtad Colloquy, señala que un buen programa de lealtad Going All-in on Hadoop”, Information Week, 3 de octubre de 2012.
que ofrece una inteligencia mejorada a una empresa en
cuanto a lo que realmente desean sus clientes puede ser PREGUNTAS DEL CASO DE ESTUDIO
una ventaja estratégica, pero incluso los mejores progra- 6-10 Describa los tipos de “big data” recolectados por las
mas de lealtad no pueden corregir una marca que está fun- organizaciones que se describen en este caso.
damentalmente rota. 6-11 Liste y describa las tecnologías de inteligencia de
Fuentes: Laura Kolodny, “How Consumers Can Use Big Data”, negocios descritas en este caso.
Wall Street Journal, 23 de marzo de 2014; Joseph Stromberg, “Why
6-12 ¿Por qué las empresas y los servicios descritos en este
Google Flu Trends Can’t Track the Flu (Yet)”, smithsonianmag.com,
13 de marzo de 2014; Gary Marcus y Ernest Davis, “Eight (No, Nine!) caso necesitan mantener y analizar datos extensos
Problems With Big Data”, New York Times, 6 de abril de 2014; (big data)? ¿Qué beneficios de negocios obtuvieron?
Thomas H. Davenport, “Big Data at Work”, Harvard Business School ¿Qué tanto les ayudó el análisis de datos extensos?
Publishing, 2014; Samuel Greengard, “Companies Grapple With Big
6-13 Identifique tres decisiones que se mejoraron
Data Challenges”, Baseline, 29 de octubre de 2013; Rachael King y
Steven Rosenbush, “Big Data Broadens Its Range”, Wall Street Journal mediante el uso de Big Data.
(13 e marzo de 2013; Nick Bilton, “Disruptions: Data Without a 6-14 ¿Deben todas las organizaciones tratar de analizar
Context Tells a Misleading Story”, New York Times. 24 de febrero
datos extensos? ¿Por qué? ¿Qué cuestiones de
de 2013; ShiraOvide, “Big Data, Big Blunders”, Wall Street Journal,
11 de marzo de 2013; Mark A. Smith, “Big Data Pointless without
administración, organización y tecnología deben
Integration”, Information Management, 25 de febrero de 2013; Frank tratarse antes de que una empresa decida trabajar
Konkel, “Fast Failure Could Lead to Big-Data Success”, Federal con datos extensos?
Aiken, Peter, Mark Gillenson, Xihui Zhang y David Rafner. “Data Kroenke, David M. y David Auer. Database Processing: Fundamentals,
Management and Data Administration. Assessing 25 Years of Design, and Implementation, 13a. ed. Upper Saddle River, NJ:
Practice”. Journal of Database Management (julio-septiembre Prentice-Hall (2014).
de 2011). Lee, Yang W. y Diane M. Strong. “Knowing-Why about Data Processes
Barth, Paul S. “Managing Big Data: What Every CIO Needs to Know”. and Data Quality”. Journal of Management Information Systems, 20,
CIO Insight (12 de enero de 2012). núm. 3 (invierno de 2004).
Barton, Dominic y David Court. “Making Advanced Analytics Work Lohr, Steve. “The Age of Big Data”. New York Times (11 de febrero
for You”. Harvard Business Review (octubre de 2012). de 2012).
Baum, David. “Flying High with a Private Database Cloud”. Oracle Loveman, Gary. “Diamonds in the Datamine”. Harvard Business Review
Magazine (noviembre/diciembre de 2011). (mayo de 2003).
Beath, Cynthia, Irma Becerra-Fernandez, Heanne Ross y James Short. Marcus, Gary y Ernest Davis. “Eight (No, Nine!) Problems with Big
“Finding Value in the Information Explosion”. MIT Sloan Data”. New York Times (6 de abril de 2014).
Management Review, 53, núm. 4 (verano de 2012). Martens, David y Foster Provost. “Explaining Data-Driven Document
Bughin, Jacques, John Livingston y Sam Marwaha. “Seizing the Classifications”. MIS Quarterly, 38, núm. 1 (marzo de 2014).
Potential for Big Data”. McKinsey Quarterly (octubre de 2011). McAfee, Andrew y Erik Brynjolfsson. “Big Data: The Management
Clifford, James, Albert Croker y Alex Tuzhilin. “On Data Revolution”. Harvard Business Review (octubre de 2012).
Representation and Use in a Temporal Relational DBMS”. McKinsey Global Institute. “Big Data: The Next Frontier for Innovation,
Information Systems Research, 7, núm. 3 (septiembre de 1996). Competition, and Productivity”. McKinsey & Company (2011).
Davenport, Thomas H. y D.J. Patil. “Data Scientist: The Sexiest Job Morrison, Todd y Mark Fontecchio. “In-memory Technology
of the 21st Century”. Harvard Business Review (octubre de 2012). Pushes Analytics Boundaries, Boosts BI Speeds”.
Davenport, Thomas H. Big Data at Work: Dispelling the Myths, SearchBusinessAnalytics.techtarget.com, visitado el 17 de mayo
Uncovering the Opportunities. Harvard Business Press (2014). de 2013.
Eckerson, Wayne W. “Analytics in the Era of Big Data: Exploring a Vast Morrow, Rich. “Apache Hadoop: The Swiss Army Knife of IT”. Global
New Ecosystem”. TechTarget (2012). Knowledge (2013).
___________. “Data Quality and the Bottom Line”. The Data Mulani, Narendra. “In-Memory Technology: Keeping Pace with Your
Warehousing Institute (2002). Data”. Information Management (27 de febrero de 2013).
Greengard, Samuel. “Big Data Unlocks Business Value”. Baseline Redman, Thomas. Data Driven: Profiting from Your Most Important
(enero de 2012). Business Asset. Boston: Harvard Business Press (2008).
Henschen, Doug. “MetLife Uses NoSQL for Customer Service Redman, Thomas C. “Data’s Credibility Problem”. Harvard Business
Breakthrough”. Information Week (13 de mayo de 2013). Review (diciembre de 2013).
Hoffer, Jeffrey A., Ramesh Venkataraman y Heikki Toppi. Modern Rosenbush, Steven y Michael Totty. “How Big Data Is Transforming
Database Management, 11a. ed. Upper Saddle River, NJ: Business”. Wall Street Journal (10 de marzo de 2013).
Prentice-Hall (2013). Ross, Jeanne W., Cynthia M. Beath y Anne Quaadgras. “You May Not
Jinesh Radadia. “Breaking the Bad Data Bottlenecks”. Information Need Big Data After All”. Harvard Business Review (diciembre
Management (mayo/junio de 2010). de 2013).
Jordan, John. “The Risks of Big Data for Companies”. Wall Street Wallace, David J. “How Caesar’s Entertainmant Sustains a Data-Driven
Journal (20 de octubre de 2013). Culture”. DataInformed (14 de diciembre de 2012).
Kajepeeta, Sreedhar. “How Hadoop Tames Enterprises’ Big Data”.
Information Week (febrero de 2012).