Download Data Warehouse y Sistemas de Soporte a la Decisión - materia

Document related concepts
no text concepts found
Transcript
Data Warehouse y Sistemas
de Soporte a la Decisión
Un Enfoque Práctico
Hugo M. Castro
El Caso




RapiServ es una empresa de comidas
rápidas con 20 locales que se
distribuyen en tres zonas:
Capital
Provincia de Buenos Aires
Interior
RapiServ


Sus menúes comprenden platos de
carne y pollo, papas fritas y una
variedad de ensaladas y postres
Por supuesto ofrecen bebidas frías
(gaseosas y agua mineral) y también
bebidas calientes (té, café) y pastelería,
principalmente a la mañana.
RapiServ

Pero su plato distintivo es una
especialidad que recibe el nombre de
Cordon Bleu, una comida con carne y
verduras que tiene bastante aceptación.
RapiServ

José, el Presidente,
dice: Hay que
aumentar las ventas
RapiServ

Mario, Director de
Marketing, se
pregunta: ¿Qué
podemos ofrecer a
nuestros clientes?
RapiServ





Para responder a esa pregunta, Mario
necesita saber:
¿Qué productos se venden más?
¿Qué sucursales venden mejor?
¿En qué horas hay más clientes?
¿Qué días de la semana son más flojos?
RapiServ



¿Quién puede darle esa información?
Mario sabe que Sistemas procesa los
tickets de las sucursales en los procesos
de stock de mercadería y contabilidad
Por eso se dirige a Carlos, Encargado de
Sistemas
RapiServ

Carlos, el Encargado
de Sistemas, recibe
el pedido y estima
que tendrá lista la
información en un
plazo de veinte días
a un mes
RapiServ

Mario pregunta:
¿Cómo un mes?
¿Acaso la
información no está
dentro de su
computadora?
RapiServ

Carlos responde:
Sí, los datos están
en la computadora,
pero no tienen la
estructura adecuada
para contestar esas
preguntas
RapiServ

Mario queda
convencido de que
si los datos están
guardados en la
computadora tan
difícil no debe ser
obtener las
respuestas que
busca
RapiServ

Carlos queda
convencido de que
Mario siempre pide
cosas diferentes y
todo lo quiere para
ayer
RapiServ
Este es el momento en
que recurren a
nosotros para que
los ayudemos
RapiServ
Antes de actuar analicemos la situación
¿Dónde está el problema?
 Mario tiene razón en que los datos
están en la computadora
 Y Carlos tiene razón en que no es fácil
darles la forma que Mario necesita
RapiServ
Ambos hacen uso de los mismos
datos, pero...
 Mario necesita analizar la información
para saber qué ocurre y tomar
decisiones estratégicas
 Carlos necesita llevar a cabo los
procesos que requiere la operatoria
diaria de la empresa
RapiServ
Hay una diferencia fundamental


A Carlos le basta con manejar datos
Mario necesita extraer información de
esos datos
Cadena de Valores
Decisión
• Hagan propaganda del producto
Conocimiento
• En la zona Capital hubo H
• pedidos del producto X
• En la franja horaria 1 se vende
menos que en la 2
Información
• La sucursal X está en el
distrito Z de la zona W
• El producto P cuesta $Q
• La franja horaria 1
comprende las horas de la
• Sucursales mañana
• Poductos
• Franjas Horarias
• Estacionamiento
• Servicio en auto
Datos
X en la zona Capital
• Estudien promociones para la
franja horaria 1
• Ofrezcan el servicio en auto en
la zona Buenos Aires
El proceso de toma de
decisiones



Se encuentran hechos destacados
Se explican en términos de negocios
Se toman las decisiones
correspondientes
Una Nueva Estructura
Si los datos están en la computadora pero
la forma no es la adecuada, la solución
es

CREAR UNA BASE DE DATOS CON LA
FORMA ADECUADA
Un Nuevo Tipo de BD
La base de datos con la estructura
adecuada es lo que se denomina
DATA WAREHOUSE
Es una base de datos separada de los
sistemas transaccionales e
independiente de ellos.
Data Warehouse
Un Data Warehouse es una Base de
Datos con una estructura
 Orientada al negocio
 Integrada
 Variable en el tiempo
 No Volátil
Orientada al negocio

Organiza y presenta los datos desde la
perspectiva de los conceptos que maneja la
empresa (fecha, franja horaria, producto,
sucursal, ventas).

Los datos tienen el nivel de detalle y la
estructura que necesitan los que toman
decisiones
Integrada

Se construye a partir de fuentes de datos
heterogéneas


Bases de datos relacionales, archivos planos,
hojas de cálculo, documentos impresos
Se unifican denominaciones,
codificaciones, formatos


Limpieza
Integración
Variable en el Tiempo


El horizonte temporal del Data Warehouse
es más amplio que el de los sistemas
transaccionales

Vida útil de los datos

Datos históricos
La fecha es un dato fundamental

Marcación temporal
No Volátil

En el Data Warehouse los datos no se modifican

El Data Warehouse se renueva

Los datos permanecen intactos entre
renovaciones

Sólo existen dos operaciones

Carga

Acceso
Data Warehouse


UN DATA WAREHOUSE CONTIENE
Información histórica


Para visualizar tendencias y efectuar
comparaciones
Información consolidada

Para acelerar la respuesta a las consultas
Las bases de datos más voluminosas
son Data Warehouses
Procesos
Extracción, Transformación y Carga
 Extracción


Transformación


Se eligen qué datos se van a llevar al DWh desde
las diversas fuentes
Los datos se depuran, completan y transforman
Carga

Los datos se ordenan, se consolidan, se calculan
los datos derivados, severifica la integridad y se
incorporan al DWh
Este es un proceso repetitivo
Procesos
Explotación de datos
 Guardar y estructurar los datos en un
Data Warehouse es sólo parte de la
tarea
 Necesitamos analizar los datos para la
toma de decisiones
Explotación de datos



Herramienta de redacción de informes
orientada al usuario
Empezamos por producir los mismos
informes que el profesional de negocios
estaba recibiendo hasta ahora
Pero ahora él puede armarlos en forma
interactiva
Informes

Para obtener los informes no es
necesario escribir ningún programa


Lo puede definir el propio profesional
de negocios
La herramienta que produce los
informes está preparada para que él la
utilice
Informes
El profesional de negocios decide
 Qué criterios de selección va a usar
sobre la base de datos
 Qué datos va a incluir en el informe
 Cómo se van a ordenar los datos
 Cómo se van a agrupar los datos
Informes

Con estas herramientas queda resuelto
el problema de la producción de
informes, pero Mario y su gente
encuentran que
LAS RESPUESTAS GENERAN PREGUNTAS
Preguntas




¿Cómo se vende en cada sucursal por
franja horaria?
¿Qué productos se venden más en las
tardes?
¿Venden más las sucursales que tienen
servicio en el auto?
¿Y las que tienen estacionamiento?
Modelo de datos

Modelo de Entidad-Relación



Orientado a la implementación de los
procesos transaccionales
Tareas operativas
Modelo dimensional


Orientado a las características del negocio
(variables del negocio)
Tareas de análisis
Modelo dimensional

Dimensiones



Variables del negocio
Productos, sucursales, fechas
Medidas


Valores numéricos
Sumas, consolidaciones, operaciones
aritméticas
Modelo dimensional

Cantidad de pedidos por fecha, producto
y sucursal
Producto
Dimensiones: Producto, Sucursal,
Fecha
Estructura Jerárquica
Categoría
Zona
Año
Subcategoría Distrito Trimestre
Producto
Fecha
Sucursal
Mes
Día
Cubo




Es una forma de presentar los datos al
usuario
No existe físicamente
El usuario puede trabajar con los datos
como si existiera
Es independiente de la forma en que
realmente se almacenan los datos
OLAP




Sistemas transaccionales: OLTP
T identifica transacciones
Sistema de Análisis: OLAP
A identifica análisis
OLAP

Es el proceso de almacenar y
administrar datos sobre la base de las
variables del negocio (dimensiones),
para permitir a los profesionales de
negocios visualizarlos y analizarlos para
entender cuál es su significado
Preguntas




¿Cómo se vende en cada sucursal por
franja horaria?
¿ Qué productos se venden más en las
tardes?
¿Venden más las sucursales que tienen
servicio en el auto?
¿Y las que tienen estacionamiento?
Navegación





Cambio de dimensiones
Cambio de ejes
Cambio de forma de presentación
Cambio de medidas
Cambio de nivel de detalle



Conexión con otras tablas de hechos


Drill down
Drill up
Drill across
Conexión con tablas externas

Drill through/Drill Out
Análisis OLAP
Se elige la dimensión para las filas
Se elige la dimensión para las columnas
FECHA
ARTICULO
SUCURSAL
MEDIDAS
Se elige la medida a representar
VENTAS
UNIDADES
TICKETS
FECHA
ARTICULO
DIMENSIONES
Unidades vendidas por tipo de
artículo durante 2004
“Drill down”: Mayor detalle
sobre Comestibles
Unidades de comestibles
vendidas por ciudad
“Drill down”: unidades de
comestibles vendidas en
sucursales de Capital
Tablero de Comando
Enfoque tradicional
 Indicadores financieros





Ventas
Ganancias
Cobranza
Stock valorizado
El resto carece de importancia
Tablero de Comando
Enfoque tradicional
 No tiene en cuenta aspectos tales como




Relación con los clientes
Análisis de los procesos internos
Capacitación y crecimiento del personal
Descubrir esta falta demasiado tarde
puede traer graves consecuencias
Tablero de Comando
Tablero de Comando Integral (BSC)
 Distintas perspectivas
 Fijación de objetivos



Máximo (ej. gastos)
Mínimo (ej. ventas)
Establecimiento de metas y tolerancias
Tablero de Comando
Tolerancia
Colores
Meta
Mínimo
Máximo
Meta
Tolerancia
Tablero de Comando
Perspectivas (Cobranza, Ventas)
Tablero de Comando
Indicadores
Componentes
Otras
Fuentes
de Datos
Metadatos
Mecanismo
de
Integración
Extracción
BD
Transaccionales Transformación
Data
Carga
Warehouse
Renovación
Servidor
OLAP
Sirve para
Informes
Consultas
OLAP
Data mining
Motor OLAP
Explotación
Data Marts
Fuentes de
Datos
Almacenamiento
Metadatos
Son datos que describen objetos del data warehouse

Estructura del Data Warehouse


Datos sobre los datos






Esquema, visiones, dimensiones, datos derivados, ubicación y
contenido de los data mart
Origen de los datos
Validez de los datos (activo, histórico, eliminado)
Información de control (estadísticas de uso, errores, información de
auditoría)
Algoritmos que se usan para la consolidación
Correspondencia entre datos operativos y los del data warehouse
Datos de Negocios

Definiciones de términos del negocio, dueños de los datos
Tres Alternativas

Data warehouse


Recoge información de toda la empresa
Data Mart

Sirve a un grupo específico de usuarios. Su alcance se reduce a un
área en particular (p.ej. Marketing)



Independiente: Se genera a través de un proceso de ETL
Dependiente : Se toma del Data Warehouse
Data warehouse virtual

Se forma a partir de distintos Data Marts
¿Y ahora?


Mario sabe que con OLAP puede
contestar todas las preguntas que
puede formular, pero...
¿y las que no puede formular?
Preguntas



¿A qué clientes me conviene ofrecer
este nuevo producto?
¿Cuántos pedidos de pollo vamos a
recibir durante las vacaciones de
invierno?
¿La compra de Cordon Bleu influye en
la compra de papas fritas?
Preguntas
La respuesta a esas preguntas van a salir
de un proceso llamado
DATA MINING
Data Mining


Es un proceso automático que permite
extraer esquemas interesantes y no
triviales de los datos y descubrir
relaciones entre variables
Estamos ahogados en datos, pero
sedientos de información
El Proceso de
Data Mining
Interpretación y
Evaluación
Data Mining
Conocimiento
Selección y
Preprocesamiento
p(x)=0.02
Consolidación de
Datos
Esquemas y
Modelos
Warehouse
Datos
Consolidados
Datos Originales
Datos
Preparados
Ejemplo
Veamos cómo un modelo de Data Mining
ayuda a Mario a contestar una de las
preguntas que se formulaba
¿La compra de Cordon Bleu influye en la
compra de papas fritas?
Ejemplo
Del análisis del contenido de los tickets
surge que
De un total de 500.000 tickets
 Hay 60.000 que contienen Cordon Bleu
 Hay 40.000 que contienen papas fritas
 De esos tickets hay 30.000 que
contienen ambos productos
Ejemplo
En este caso:
¿Qué proporción de todos los tickets
tienen Cordon Bleu y papas fritas?
30.000/500.000
o sea el 6% de los tickets
Ejemplo
Pregunta:


¿Qué proporción de clientes en general
compra papas fritas?
40.000/500.000 o sea el 8%
Ejemplo
¿Qué proporción de los compradores de
Cordon Bleu compran además papas
fritas?
30.000/60.000
o sea que el 50% de los compradores de
Cordon Bleu piden papas fritas
Ejemplo


La conclusión es que el empuje de
Cordon Bleu sobre las papas fritas es de
50/8 o sea 6,25
Esto quiere decir que la gente que
compra Cordon Bleu compra 6,25 veces
más papas fritas que el promedio de los
clientes
Uso del Data Warehouse

Tres clases de aplicaciones del Data Warehouse



Procesamiento de Información

Consultas, análisis estadísticos sencillos, informes

Tablas, diagramas, gráficos
Procesamiento Analítico

Análisis multidimensional de datos

Operaciones OLAP: slice-dice, drilling, rotaciones
Data mining

Descubrimiento de esquemas ocultos

Modelos analíticos: predicción, asociación, segmentación
Inteligencia de Negocios
Alta Gerencia
Potencial
de Soporte
a la Decisión
Mario
José
Decisiones
de Marketing
Presentación
Visualización
Data Mining
Descubrimiento de Información
Profesional de Negocios
Analista de Datos
Exploración de datos
OLAP – Análisis Multidimensional
Carlos
Data Warehouses / Data Marts
Análisis Estadístico-Consultas-Informes
Fuentes de Datos
Papel, Archivos Planos,Planillas de Cálculo, BD, OLTP
Administrador
de
Datos
RapiServ

José, el Presidente,
obtiene la
información que
necesita en tiempo y
forma
RapiServ

Mario, Director de
Marketing, tiene a
su gente analizando
la información y no
imaginando qué
informes deberían
pedir
RapiServ

A Carlos, el
Encargado de
Sistemas, también le
mejoró la vida: ya
no le llegan pedidos
de marketing con
plazos imposibles de
cumplir
En Resumen



La información adecuada
En el plazo adecuado
Para la persona adecuada
MEJORES DECISIONES
En Resumen
LA INTUICIÓN INFORMADA ES
INSUPERABLE