Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Data Warehouse y Sistemas de Soporte a la Decisión Un Enfoque Práctico Hugo M. Castro El Caso RapiServ es una empresa de comidas rápidas con 20 locales que se distribuyen en tres zonas: Capital Provincia de Buenos Aires Interior RapiServ Sus menúes comprenden platos de carne y pollo, papas fritas y una variedad de ensaladas y postres Por supuesto ofrecen bebidas frías (gaseosas y agua mineral) y también bebidas calientes (té, café) y pastelería, principalmente a la mañana. RapiServ Pero su plato distintivo es una especialidad que recibe el nombre de Cordon Bleu, una comida con carne y verduras que tiene bastante aceptación. RapiServ José, el Presidente, dice: Hay que aumentar las ventas RapiServ Mario, Director de Marketing, se pregunta: ¿Qué podemos ofrecer a nuestros clientes? RapiServ Para responder a esa pregunta, Mario necesita saber: ¿Qué productos se venden más? ¿Qué sucursales venden mejor? ¿En qué horas hay más clientes? ¿Qué días de la semana son más flojos? RapiServ ¿Quién puede darle esa información? Mario sabe que Sistemas procesa los tickets de las sucursales en los procesos de stock de mercadería y contabilidad Por eso se dirige a Carlos, Encargado de Sistemas RapiServ Carlos, el Encargado de Sistemas, recibe el pedido y estima que tendrá lista la información en un plazo de veinte días a un mes RapiServ Mario pregunta: ¿Cómo un mes? ¿Acaso la información no está dentro de su computadora? RapiServ Carlos responde: Sí, los datos están en la computadora, pero no tienen la estructura adecuada para contestar esas preguntas RapiServ Mario queda convencido de que si los datos están guardados en la computadora tan difícil no debe ser obtener las respuestas que busca RapiServ Carlos queda convencido de que Mario siempre pide cosas diferentes y todo lo quiere para ayer RapiServ Este es el momento en que recurren a nosotros para que los ayudemos RapiServ Antes de actuar analicemos la situación ¿Dónde está el problema? Mario tiene razón en que los datos están en la computadora Y Carlos tiene razón en que no es fácil darles la forma que Mario necesita RapiServ Ambos hacen uso de los mismos datos, pero... Mario necesita analizar la información para saber qué ocurre y tomar decisiones estratégicas Carlos necesita llevar a cabo los procesos que requiere la operatoria diaria de la empresa RapiServ Hay una diferencia fundamental A Carlos le basta con manejar datos Mario necesita extraer información de esos datos Cadena de Valores Decisión • Hagan propaganda del producto Conocimiento • En la zona Capital hubo H • pedidos del producto X • En la franja horaria 1 se vende menos que en la 2 Información • La sucursal X está en el distrito Z de la zona W • El producto P cuesta $Q • La franja horaria 1 comprende las horas de la • Sucursales mañana • Poductos • Franjas Horarias • Estacionamiento • Servicio en auto Datos X en la zona Capital • Estudien promociones para la franja horaria 1 • Ofrezcan el servicio en auto en la zona Buenos Aires El proceso de toma de decisiones Se encuentran hechos destacados Se explican en términos de negocios Se toman las decisiones correspondientes Una Nueva Estructura Si los datos están en la computadora pero la forma no es la adecuada, la solución es CREAR UNA BASE DE DATOS CON LA FORMA ADECUADA Un Nuevo Tipo de BD La base de datos con la estructura adecuada es lo que se denomina DATA WAREHOUSE Es una base de datos separada de los sistemas transaccionales e independiente de ellos. Data Warehouse Un Data Warehouse es una Base de Datos con una estructura Orientada al negocio Integrada Variable en el tiempo No Volátil Orientada al negocio Organiza y presenta los datos desde la perspectiva de los conceptos que maneja la empresa (fecha, franja horaria, producto, sucursal, ventas). Los datos tienen el nivel de detalle y la estructura que necesitan los que toman decisiones Integrada Se construye a partir de fuentes de datos heterogéneas Bases de datos relacionales, archivos planos, hojas de cálculo, documentos impresos Se unifican denominaciones, codificaciones, formatos Limpieza Integración Variable en el Tiempo El horizonte temporal del Data Warehouse es más amplio que el de los sistemas transaccionales Vida útil de los datos Datos históricos La fecha es un dato fundamental Marcación temporal No Volátil En el Data Warehouse los datos no se modifican El Data Warehouse se renueva Los datos permanecen intactos entre renovaciones Sólo existen dos operaciones Carga Acceso Data Warehouse UN DATA WAREHOUSE CONTIENE Información histórica Para visualizar tendencias y efectuar comparaciones Información consolidada Para acelerar la respuesta a las consultas Las bases de datos más voluminosas son Data Warehouses Procesos Extracción, Transformación y Carga Extracción Transformación Se eligen qué datos se van a llevar al DWh desde las diversas fuentes Los datos se depuran, completan y transforman Carga Los datos se ordenan, se consolidan, se calculan los datos derivados, severifica la integridad y se incorporan al DWh Este es un proceso repetitivo Procesos Explotación de datos Guardar y estructurar los datos en un Data Warehouse es sólo parte de la tarea Necesitamos analizar los datos para la toma de decisiones Explotación de datos Herramienta de redacción de informes orientada al usuario Empezamos por producir los mismos informes que el profesional de negocios estaba recibiendo hasta ahora Pero ahora él puede armarlos en forma interactiva Informes Para obtener los informes no es necesario escribir ningún programa Lo puede definir el propio profesional de negocios La herramienta que produce los informes está preparada para que él la utilice Informes El profesional de negocios decide Qué criterios de selección va a usar sobre la base de datos Qué datos va a incluir en el informe Cómo se van a ordenar los datos Cómo se van a agrupar los datos Informes Con estas herramientas queda resuelto el problema de la producción de informes, pero Mario y su gente encuentran que LAS RESPUESTAS GENERAN PREGUNTAS Preguntas ¿Cómo se vende en cada sucursal por franja horaria? ¿Qué productos se venden más en las tardes? ¿Venden más las sucursales que tienen servicio en el auto? ¿Y las que tienen estacionamiento? Modelo de datos Modelo de Entidad-Relación Orientado a la implementación de los procesos transaccionales Tareas operativas Modelo dimensional Orientado a las características del negocio (variables del negocio) Tareas de análisis Modelo dimensional Dimensiones Variables del negocio Productos, sucursales, fechas Medidas Valores numéricos Sumas, consolidaciones, operaciones aritméticas Modelo dimensional Cantidad de pedidos por fecha, producto y sucursal Producto Dimensiones: Producto, Sucursal, Fecha Estructura Jerárquica Categoría Zona Año Subcategoría Distrito Trimestre Producto Fecha Sucursal Mes Día Cubo Es una forma de presentar los datos al usuario No existe físicamente El usuario puede trabajar con los datos como si existiera Es independiente de la forma en que realmente se almacenan los datos OLAP Sistemas transaccionales: OLTP T identifica transacciones Sistema de Análisis: OLAP A identifica análisis OLAP Es el proceso de almacenar y administrar datos sobre la base de las variables del negocio (dimensiones), para permitir a los profesionales de negocios visualizarlos y analizarlos para entender cuál es su significado Preguntas ¿Cómo se vende en cada sucursal por franja horaria? ¿ Qué productos se venden más en las tardes? ¿Venden más las sucursales que tienen servicio en el auto? ¿Y las que tienen estacionamiento? Navegación Cambio de dimensiones Cambio de ejes Cambio de forma de presentación Cambio de medidas Cambio de nivel de detalle Conexión con otras tablas de hechos Drill down Drill up Drill across Conexión con tablas externas Drill through/Drill Out Análisis OLAP Se elige la dimensión para las filas Se elige la dimensión para las columnas FECHA ARTICULO SUCURSAL MEDIDAS Se elige la medida a representar VENTAS UNIDADES TICKETS FECHA ARTICULO DIMENSIONES Unidades vendidas por tipo de artículo durante 2004 “Drill down”: Mayor detalle sobre Comestibles Unidades de comestibles vendidas por ciudad “Drill down”: unidades de comestibles vendidas en sucursales de Capital Tablero de Comando Enfoque tradicional Indicadores financieros Ventas Ganancias Cobranza Stock valorizado El resto carece de importancia Tablero de Comando Enfoque tradicional No tiene en cuenta aspectos tales como Relación con los clientes Análisis de los procesos internos Capacitación y crecimiento del personal Descubrir esta falta demasiado tarde puede traer graves consecuencias Tablero de Comando Tablero de Comando Integral (BSC) Distintas perspectivas Fijación de objetivos Máximo (ej. gastos) Mínimo (ej. ventas) Establecimiento de metas y tolerancias Tablero de Comando Tolerancia Colores Meta Mínimo Máximo Meta Tolerancia Tablero de Comando Perspectivas (Cobranza, Ventas) Tablero de Comando Indicadores Componentes Otras Fuentes de Datos Metadatos Mecanismo de Integración Extracción BD Transaccionales Transformación Data Carga Warehouse Renovación Servidor OLAP Sirve para Informes Consultas OLAP Data mining Motor OLAP Explotación Data Marts Fuentes de Datos Almacenamiento Metadatos Son datos que describen objetos del data warehouse Estructura del Data Warehouse Datos sobre los datos Esquema, visiones, dimensiones, datos derivados, ubicación y contenido de los data mart Origen de los datos Validez de los datos (activo, histórico, eliminado) Información de control (estadísticas de uso, errores, información de auditoría) Algoritmos que se usan para la consolidación Correspondencia entre datos operativos y los del data warehouse Datos de Negocios Definiciones de términos del negocio, dueños de los datos Tres Alternativas Data warehouse Recoge información de toda la empresa Data Mart Sirve a un grupo específico de usuarios. Su alcance se reduce a un área en particular (p.ej. Marketing) Independiente: Se genera a través de un proceso de ETL Dependiente : Se toma del Data Warehouse Data warehouse virtual Se forma a partir de distintos Data Marts ¿Y ahora? Mario sabe que con OLAP puede contestar todas las preguntas que puede formular, pero... ¿y las que no puede formular? Preguntas ¿A qué clientes me conviene ofrecer este nuevo producto? ¿Cuántos pedidos de pollo vamos a recibir durante las vacaciones de invierno? ¿La compra de Cordon Bleu influye en la compra de papas fritas? Preguntas La respuesta a esas preguntas van a salir de un proceso llamado DATA MINING Data Mining Es un proceso automático que permite extraer esquemas interesantes y no triviales de los datos y descubrir relaciones entre variables Estamos ahogados en datos, pero sedientos de información El Proceso de Data Mining Interpretación y Evaluación Data Mining Conocimiento Selección y Preprocesamiento p(x)=0.02 Consolidación de Datos Esquemas y Modelos Warehouse Datos Consolidados Datos Originales Datos Preparados Ejemplo Veamos cómo un modelo de Data Mining ayuda a Mario a contestar una de las preguntas que se formulaba ¿La compra de Cordon Bleu influye en la compra de papas fritas? Ejemplo Del análisis del contenido de los tickets surge que De un total de 500.000 tickets Hay 60.000 que contienen Cordon Bleu Hay 40.000 que contienen papas fritas De esos tickets hay 30.000 que contienen ambos productos Ejemplo En este caso: ¿Qué proporción de todos los tickets tienen Cordon Bleu y papas fritas? 30.000/500.000 o sea el 6% de los tickets Ejemplo Pregunta: ¿Qué proporción de clientes en general compra papas fritas? 40.000/500.000 o sea el 8% Ejemplo ¿Qué proporción de los compradores de Cordon Bleu compran además papas fritas? 30.000/60.000 o sea que el 50% de los compradores de Cordon Bleu piden papas fritas Ejemplo La conclusión es que el empuje de Cordon Bleu sobre las papas fritas es de 50/8 o sea 6,25 Esto quiere decir que la gente que compra Cordon Bleu compra 6,25 veces más papas fritas que el promedio de los clientes Uso del Data Warehouse Tres clases de aplicaciones del Data Warehouse Procesamiento de Información Consultas, análisis estadísticos sencillos, informes Tablas, diagramas, gráficos Procesamiento Analítico Análisis multidimensional de datos Operaciones OLAP: slice-dice, drilling, rotaciones Data mining Descubrimiento de esquemas ocultos Modelos analíticos: predicción, asociación, segmentación Inteligencia de Negocios Alta Gerencia Potencial de Soporte a la Decisión Mario José Decisiones de Marketing Presentación Visualización Data Mining Descubrimiento de Información Profesional de Negocios Analista de Datos Exploración de datos OLAP – Análisis Multidimensional Carlos Data Warehouses / Data Marts Análisis Estadístico-Consultas-Informes Fuentes de Datos Papel, Archivos Planos,Planillas de Cálculo, BD, OLTP Administrador de Datos RapiServ José, el Presidente, obtiene la información que necesita en tiempo y forma RapiServ Mario, Director de Marketing, tiene a su gente analizando la información y no imaginando qué informes deberían pedir RapiServ A Carlos, el Encargado de Sistemas, también le mejoró la vida: ya no le llegan pedidos de marketing con plazos imposibles de cumplir En Resumen La información adecuada En el plazo adecuado Para la persona adecuada MEJORES DECISIONES En Resumen LA INTUICIÓN INFORMADA ES INSUPERABLE