Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Introducción a DSS y DW Necesidades de Negocio: Sistema Operacional La Operacional—el día a día de la empresa • Automatizar la rutina, tareas previsibles • Tiempo de respuesta en segundos • Transacciones individuales con alcance limitado • Énfasis sobre la entrada de los datos • Datos distribuidos en aplicaciones críticos Ejemplos: Contabilidad, Facturación, Gestión de Almacen, Ventas-TPV, Sistema de Ventas, Nomina, Pedidos, Recaudación, Gestión de Campañas, Expedición de Billetes, Centro de Llamadas ... Introducción a DSS y DW Necesidades de Negocio: Sistema de Información La Informacional—Sistema de Soporte de Decisiones (DSS) • Exploración, análisis y presentación de información o conocimientos • Pocas consultas pero muy intensivas y de considerable alcance • Naturaleza de las consultas no es previsibles • Enfasis sobre obtención de información o conocimiento • Avanzar en la competividad estratégica de la organización Ejemplos: Consultas, Data Mining, Estadísticas Descriptivos, EIS, Generadores de Informes, OLAP ... Introducción a DSS y DW • • • • • • • • • • • • Ejemplos de Objetivos de un Sistema de Información Análisis de Churn Análisis de Clickstream Análisis de Riesgos Análisis de Segmentación de Mercados, Clientes, ... Análisis de Tráfico de Redes (Llamadas) Análisis de Turn-Over Análisis de Venta-Cruzada Definición y Predicciones de Comportamientos Perfiles de Usuarios, Clientes, Consumidores, … Perfiles y Análisis de Garantía Perfiles y Detección de Fraude Rendimiento de Clientes y Productos Introducción a DSS y DW Aplicaciones Operacionales y Analíticas Operacional • • Control de la Cadena Logística (Existencias, Pedidos y Entregas) Facturación • Fidelización de Clientes • • • • • • Gestión de Contactos Gestión de Pacientes Marketing (Gestión de Campañas) Producción Recursos Humanos Tesorería • Ventas El día a día de la empresa Analítica • • • • • • • • • • • • • • • Análisis de Carga de la Red Análisis de Logística Análisis y Proyección Financiera Detección y Análisis de Fraudes Análisis de Cesta de la Compra Perfiles y Análisis de Garantías Análisis de Reclamaciones Perfiles y Análisis de Pacientes Análisis y Segmentación de Mercado Análisis de Producción y Calidad Análisis y Segmentación de Población Análisis de Inversiones Análisis de Riesgo Análisis de Tráfico (Llamadas) de la Red Análisis de Venta Cruzada Ventajas Estratégicas de los Datos Introducción a DSS y DW ¿Por qué no existe fácilmente DSS? • Los sistemas operacionales o de producción están ocupados constantemente durante el día con el trabajo operacional (On-line) y durante la noche con procesos batch • Los sistemas OLTP no pueden estar reservados para DSS durante el día, imposible parar el OLTP sin repercusiones graves para la empresa • Un sistema adicional exclusivamente para DSS con la arquitectura de OLTP no resuelve el problema— arquitectura de modelo de datos Introducción a DSS y DW Procesos de los Datos Lectura/ Escritura Datos Análisis Data Mart Solo lectura DW Consulta/ Respuesta Sistema Operacional Sistema Informacional Introducción a DSS y DW Algunas Consideraciones en un Proyecto DSS o DW • Arquitecturas • Sistema Operacional • Sistema de Soporte de Decisiones (DSS) • Operacional Data Store (ODS) • Objetivos de Análisis y Modelos de Datos • Diseño de Procesos y Aplicaciones • Planificación del Proyecto: Los dos partes, el Data Warehouse (DW) y el Análisis • Metodología y Herramientas de DW • Metodología y Herramientas de Análisis Mientras que la construcción y mantenimiento del DW es un trabajo mayoritariamente informático, el Análisis no es, el Análisis es un trabajo de investigación Introducción a DSS y DW El Futuro Voluminoso • Incremento en el alcance histórico de los datos (años de datos, no días, semanas o meses) • Incremento en la “granularidad” de los datos, almacenamiento posible a nivel de detalle (documentos individuales con agregaciones o resúmenes pero siempre con la posibilidad de rollback) Grandes volúmenes de datos Grandes preguntas Introducción a DSS y DW Un Asignatura Pendiente, el Tiempo y el Base de Datos Temporal Granularidad (años, estaciones, trimestre, meses, semanas, días, horas, segundos, milisegundos ... ) Fijación (año real o año de negocio, estaciones ... ) Múltiples versiones de tiempos de datos • Base de Datos Bitemporal • Tiempo efectivo o tiempo valido • Tiempo registrada o tiempo de transacción • Tiempo definido por el usuario Introducción a DSS y DW Ficheros operacionales Arquitectura del Sistema Adquisición Job Streams (Programas) Almacén (Data Warehouse) Accesos (Herramientas y aplicaciones) Espacio de Trabajo Ficheros Intermedios 7 2 1 11 8 5 6 Mecanismos de acceso 9 4 12 3 Ficheros intermedios 10 13 Ficheros intermedios Introducción a DSS y DW Procesos y Aplicaciones 1 - Identificación de los datos críticos de negocio para el Data Warehouse 2 - Programas de adquisición mapping, transformación, limpieza,clasificación, validación, referencias cruzadas, formateo, funciones de almacenamiento, etc. 3 - Programas de “Back-flush” para devolver datos limpios a los sistemas fuente 4 - Desarrollo de los programas para el operacional / Sistemas fuentes 5 - Datos preparados para cargarse en el warehouse 6 - Carga de la Base de datos en las tablas relacionales 7 - Generación de tablas de almacenamiento con datos sumariados, referencias cruzadas 8 - Creación y carga de tablas de trabajo (Data Marts). 9 - Actualizaciones periódicas que afectan a la fase de adquisición 10 - Envía contenidos del espacio de trabajo al fichero intermedio para incluirse en la siguiente recarga / refresco del warehouse principal 11 - Aplicaciones y herramientas de acceso de usuario final 12 - Debe incluir mecanismos de reacción 13 - Cualquier cambio específico para su incorporación eventual en el Warehouse principal Introducción a DSS y DW Detalles de Adquisición • Estructuras de datos fuente • Alineación de la transformación de datos • Definir las reglas de transformación (funciones de conversión, conversiones semánticas-tablas de codificación, funciones definidas por usuario) • Validación de las fuentes de datos • “Matching” (emparejar) • Intercalar, limpiar y mejorar hasta una vista consolidada o registro integrado (esquema compuesto) • Mapping de las estructuras de almacenamiento • Transformar datos para su destino • Recomendaciones para procesos “Back-flush” Introducción a DSS y DW • • • • • • • • • • • Disciplina con los Datos Identificación de los datos Modelo de datos Diseño de la base de datos Fuentes de datos Validación de la integridad de los datos Sincronización de los datos Desarrollar un proceso “Back-flush” para el operacional Desarrollar la arquitectura de almacenamiento de datos Mapping y transformación de datos Recogida de métricas de datos Desarrollo de la solución Introducción a DSS y DW Espacios Computacionales: Análisis de verificación de hipótesis basadas en la intuición (1) 1) Informes y Consultas—[variables y observaciones : cuantitativo] Estas técnicas comprenden análisis, consultas y generación de informes que extraen la información contenida en los datos. Incluye los Sistemas de Información Ejecutiva (EIS). 2) Agregación y familia OLAP—[agrupación aritmética : cuantitativo] A estas técnicas se llega a través de procesos iterativos e interactivos, cálculos recursivos y manipulación exploratoria de los datos. Incluye el Análisis Multidimensional (MDA), el Procesamiento Analítico Interactivo (OLAP), el Procesamiento Analítico Interactivo Relacional (ROLAP), el Procesamiento Analítico Interactivo Multidimensional (MOLAP) y técnicas exploratorias de datos como drill-down, drill-up y drill-through. 3) Cálculo Diferencial—[variaciones e intergración : cuantitativo] Cálculo de probabilidad de ocurrencia de un determinado suceso. Modelado de series temporales. Introducción a DSS y DW Espacios Computacionales: Análisis de verificación de hipótesis basadas en la intuición (2) 4) Geometría Posicional—[geometría : cuantitativo] Representación geométrica de características medidas sobre los elementos objeto de estudio mediante un Sistema de Información Geográfica (GIS). 5) Perspectiva Cualitativa—[variables y observaciones : cualitativo] Conlleva los conceptos de tomar nota de objetos, recoger objetos y reflexionar sobre los objetos Es un proceso: • iterativo y progresivo • recursivo • cada paso del proceso contiene el proceso entero La codificación de los objetos permite aplicar la técnica adecuada para el estudio que se desee realizar sobre los datos incluida en cualquiera de los espacios computacionales anteriores Introducción a DSS y DW Espacios Computacionales: Análisis basada en técnicas híbridas 6) Métodos Comparativo—[reducción de datos : cuantitativo y cualitativo] Basado en la teoría de conjuntos, esta técnica incluye el análisis comparativo tanto de casos como de variables y observaciones. Los datos tanto cualitativos como cuantitativos son agrupados en conjuntos para ser comparados a nivel micro o macro social utilizando matemática Booleana. Introducción a DSS y DW Espacios Computacionales: Análisis basado en el descubrimiento 7) Descubrimiento—[influencia y lógica : cuantitativo y cualitativo] El análisis exploratorio de datos (EDA), la minería de datos (data mining) y los agentes inteligentes extraen significados y nuevos conocimientos de vastas cantidades de información Se basan en algoritmos, emparejamiento de patrones, patrones heurísticos de reconocimiento de reglas, redes neuronales e inteligencia artificial Se utilizan las técnicas: • clasificación y estimación • reglas de inducción o árboles de decisión • cluster o agrupación • reglas de asociación • análisis secuencial • razonamientos heurísticos • lógica difusa “fuzzy logic” • algoritmos genéticos • transformaciones basadas en fractales • análisis de categorización Introducción a DSS y DW Funciones, Algoritmos y Aplicaciones a través de Data Mining Funciones Algoritmos Aplicaciones Ejemplos Asociaciones Estadísticas, Teoría de conjuntos Análisis de la cesta de compra Clasificación Árboles de decisión, Redes neuronales Agrupación Estadísticas, Redes neuronales Modelización Regresión lineal y no-lineal, Acoplamiento de curva Redes neuronales Patrones Estadísticas, Teoría de secuenciales Series Modelos estadísticos ARMA, temporales Box-Jenkins, Redes neuronales Marketing preciso, Control de calidad, Valoración de riesgos Segmentación de mercado, Reutilización del diseño Ranking / Puntuaciones en, clientes, Modelos de precios, Control de procesos Análisis de la cesta de compra conjuntos en el tiempo Pronóstico de ventas, Pronóstico de interés, Predicción de ratios, Control de inventario Introducción a DSS y DW Perfiles como Objetivo: Visualización vía OLAP 1) Medida de Recente—periodicidad de visitas: horas? días? semanas? 2) Frecuencia —cuantas veces 3) Intensidad —total de compras u otro indicador cuantitativa Alto Recente Alto Intensidad Bajo Bajo Bajo Frecuencia Alto Identificación de Patrones Introducción a DSS y DW Optimización genética Código genético Series temporales combinadas y Patrones casuales Redes neuronales Tendencias y patrones estacionales Teoría de señales y análisis espectral Teoría de Mate. Estadistica y probabilidades Patrones casuales no lineales Lógica difusa Patrones casuales lineales Emparejamiento parcial Estructuras flexibles Aproximaciones biotécnicas Estructuras rígidas Análisis combinatorio Introducción a DSS y DW Herramientas de Web Mining o Clickstream Accrue HitList, powerful and flexible server log analysis with over 300 report elements. Analog (from Dr. Stephen Turner), a free and fast program to analyse the web server logfiles (Win, Unix, more) ANGOSS KnowledgeWebMiner, combines ANGOSS KnowledgeSTUDIO with proprietary algorithms for clickstream analysis, Acxiom Data Network, and interfaces to web log reporting tools. Blue Martini Customer Interaction System's Micro Marketing module collects clickstreams at the application server level, transforming them to the data warehouse, and provides mining operations. Clementine offers sequence association and clustering used for Web data analysis. CustomerConversion from Quadstone, customer-centric analysis and graphical reporting of web and other data. Data Mining Suite, Discovers patterns of user activity on web-sites by using an intelligent visit characterizer which takes a long trail of activities and automatically characterizes it to a synopsis. EasyMiner, features Cross-session analysis ; Click-stream analysis; Cross-sales; by MINEit Software. prudsys ECOMMINER: combined clickstream and database analysis for e-commerce Megaputer WebAnalyst, integrates the data and text mining capabilities of Megaputer's analytical software directly into your website. MicroStrategy Web Business Analyzer , features a friendly GUI, workflow wizards and a full set of pre-packaged analytical modules and reports net.Analysis (from net.Genesis), e-business intelligence solution, providing the superior scalability required by large e-business enterprises. NetTracker family, powerful and easy-to-use Internet usage tracking programs, from Sane Solutions. SAS Webhound, analyzes Web site traffic to answer questions like: who is visiting; how long do they stay? What are they looking at? Torrent WebHouse, providing high-performance clickstream transformation, customized web reporting and clickstream analysis, and more. WebManage Enterprise Reporter, a comprehensive web site reporting and log analysis tool with support for multiple servers and ODBC. WebTrends, a suite for Data Mining of web traffic information. WUM 6.0, an integrated environment for log preparation, querying and visualization. XAffinity(TM), for identifying affinities or patterns in transaction and click stream data Introducción a DSS y DW Análisis por descubrimiento con Clementine Nodo resultado del proceso de de análisis planteado En un análisis de sensibilidad el resultado es la importancia de las variables independientes en la predicción. Introducción a DSS y DW Análisis por descubrimiento con Clemetine Clusters o grupos homogéneos de navegantes Perfil de la sesión de los navegantes del fin de semana Introducción a DSS y DW Análisis por descubrimiento con WizRule Definición de parámetros para el informe de reglas Mínimo nivel de confianza para las reglas Mínimo número de casos de una regla y número máximo de condiciones en una regla Tipos de reglas Introducción a DSS y DW Análisis por descubrimiento con WizRule Lista de reglas del tipo If-Then Contenido de un registro que se desvía de la regla Índice de campo, aparecen los campos utilizados y el número de regla donde se utiliza Informe de Reglas Introducción a DSS y DW Análisis por Hipótesis: Páginas de Aceptación 125 Entre las páginas de entrada, el menú es la de mayor aceptación. Tiempo medio de permanencia en la página (segundos) 123 100 82 77 71 77 76 65 58 Las páginas informativas del portal son las que retienen durante más tiempo al navegante. 41 20 Análisis por Hipótesis: Dispersión A partir de éste gráfico se pueden identificar posibles páginas de rechazo por el elevado tiempo transcurrido en servirlas. 200000 (en escala logarítmica) La relación entre el tiempo transcurrido en servir las peticiones a los navegantes y los bytes enviados es aleatoria. 100000 BytesEnviados Introducción a DSS y DW 1000 50000 40000 30000 20000 10000 5000 4000 3000 2000 /Europa/Labortel/Principal.htm /Europa/PROREC/Contenido_description.htm 500 400 300 200 100 20000 60000 40000 TiempoTranscurrido 100000 80000 400000 200000 (en escala logarítmica)