Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Una guía para hacer Data Mining en la Empresa Guido Sagasti Consultor Copyright © 2007, SAS Institute Inc. All rights reserved. Pilar, 16 de Octubre de 2009 AGENDA Presentación Corporativa SAS Guía para hacer Data Mining en la Empresa Problemática Es necesaria una metodología Algunos consejos Metodología SAS para Data Mining: SEMMA en SAS Enterprise Miner. Errores más comunes en el desarrollo de modelos analíticos. Otras soluciones y productos SAS relacionados al Data Mining Copyright © 2007, SAS Institute Inc. All rights reserved. Aumente la Rentabilidad y Potencie su Negocio • El análisis de grandes volúmenes de datos está afectando nuestras vidas en forma impensada. • Sin Analytics estamos trabajando sobre supuestos, intuición. • Las organizaciones que usan Analytics son exitosas, logran ahorros reales y aumentan su rentabilidad. • Analytics es diferenciador, implica mejores decisiones. Copyright © 2007, SAS Institute Inc. All rights reserved. SAS Empresa de soluciones analíticas privada más grande del mundo Más de 400 oficinas Clientes en 113 países diferentes Más de 11,000 empleados Más de 2,000 empleados en R&D Más de 43,000 Clientes Foco en Business Analytics Soluciones de acuerdo al tamaño de las empresas Copyright © 2007, SAS Institute Inc. All rights reserved. 2008 Performance $2.26B en facturación (USD) Copyright © 2007, SAS Institute Inc. All rights reserved. Copyright © 2007, SAS Institute Inc. All rights reserved. Copyright © 2007, SAS Institute Inc. All rights reserved. Valor al Negocio De los Datos a la Inteligencia Optimización Qué es lo mejor que podría pasar? Qué será lo próximo que va a pasar? Modelado Predictivo Qué pasa si esta tendencia continúa? Por qué está pasando? Forecasting Análisis Estadístico Alertas Query Drill-Down Reportes Reportes Standard Copyright © 2007, SAS Institute Inc. All rights reserved. Ad-Hoc Qué acciones son necesarias? Dónde está exactamente el problema? Cuánto, con qué frecuencia, dónde? Qué pasó? Grado de Inteligencia Copyright © 2007, SAS Institute Inc. All rights reserved. REPORTES STANDARD 1 Preguntas: Qué pasó? Cuándo pasó? Ejemplo: Reportes financieros mensuales o trimestrales. Estos reportes son generados regularmente y muestran solamente qué pasó en un área particular. Son útiles en cierto modo, pero no para tomar decisiones de largo plazo. REPORTES AD-HOC 2 Preguntas: Cuántos? Con qué frecuencia? Dónde? Ejemplo: Reporte que sumariza la cantidad de clientes atendidos en un hospital por código de diagnóstico y día de la semana. Como máximo, los reportes ad-hoc permiten obtener respuestas a preguntas sencillas. QUERY DRILL-DOWN, OLAP 3 Preguntas: Dónde está exactamente el proglema? Cómo encuentro las respuestas? Ejemplo: Qué locales fueron los que tuvieron caídas más importantes en las ventas? Y qué categorías dentro de esos locales?. Query drill-down brinda mayor capacidad de investigación sobre los datos, permitiendo profundizar y obtener respuestas para diferentes criterios de análisis. ALERTAS 4 Copyright © 2007, SAS Institute Inc. All rights reserved. Preguntas: Cuándo debería reaccionar? Qué acciones se necesitan ahora? Ejemplo: Ejecutivos de ventas reciben alertas cuando no se están cumpliendo los objetivos de comerciales. Con alertas, es posible entender cuándo se tiene un problema y ser notificado cuando una situación similar ocurre en el futuro. Las alertas pueden ser por email, RSS Feeds, o semáforos rojos en un scorecard o dashboard. ANALISIS ESTADISTICO 5 Preguntas: Qué está pasando? Porqué esta pasando? Qué oportunidades estamos perdiendo? Ejemplo: Qué factores influenciaron el aumento de llamadas al Call Center? Qué condiciones cumplen los grupos de más altas tasas de resolución? Estas preguntas requieren aplicar análisis estadístico, desde análisis de frecuencias hasta modelos de regresión. FORECASTING 6 Preguntas: Qué pasa si continúa esta tendencia? Cuánto se necesita? Cuándo? Ejemplo: Retailers pueden predecir la demanda de cada Item en cada Local. Forecasting aplica en todas las organizaciones. Puede utilizarse para proyectar Demanda de Productos y Servicios, Consumo de Energía, Cantidad de Llamadas en un Call Center, Utilización de Recursos de IT, etc. MODELADO PREDICTIVO Preguntas: Qué pasará a continuación? Cómo afectará a mi negocio? 7 Ejemplo: Bancos pueden predecir qué clientes son más propensos a contratar un nuevo producto o servicio, detectar posibles fraudes y evaluar el riesgo crediticio. Si tenemos 10 millones de clientes y queremos realizar una campaña de marketing, quiénes serán los más propensos a responder? Cómo debemos segmentar a nuestros clientes? El modelado predictivo brinda las respuestas. OPTIMIZACION 8 Copyright © 2007, SAS Institute Inc. All rights reserved. Preguntas: Cómo hacemos las cosas mejor? Cuál es la mejor decisión ante un problema complejo? Qué pasa si las condiciones cambian? Ejemplo: Dadas las prioridades del negocio, restricciones de recursos y tecnología disponible, determinar la manera de optimizar la plataforma de IT satisfaciendo las necesidades de los usuarios. La Optimización soporta la Innovación. Considera recursos y objetivos y ayuda a encontrar la mejor solución posible para cumplirlos. SAS: Pasado vs. Presente Pasado – Poderosa Herramienta proc catmod order=data; weight wt; response / out=preds; model severity=trt hospital; run; quit; /* Keep just the predicted values, predictors, and response */ data pred2; set preds; if _type_='PROB'; keep severity trt hospital _pred_; run; /* Find predicted response level (level with highest predicted probability) in each sample. */ proc summary data=pred2 nway; class trt hospital; var _pred_; output out=predlvl (drop=_type_ _freq_) maxid(_pred_(severity))=predlvl; run; /* Transpose the predicted values so that there is one observation per sample containing predicted values for each response level. */ proc transpose data=pred2 out=pred3 (drop=_name_); by trt hospital; id severity; var _pred_; run; Copyright © 2007, SAS Institute Inc. All rights reserved. Presente – Soluciones de Negocios Comunicaciones Banca Retail Manufactura Educación Oil & Gas Juego y Hotelería Gobierno Seguros de Salud Seguros Proveedores de Salud Utilities Farmacéutica Otros Copyright © 2007, SAS Institute Inc. All rights reserved. En Banca por ejemplo: SAS OpRisk Monitor Es una aplicación web que se utiliza para gerenciar , controlar y evaluar indicadores claves de riesgo operacional (KRIs) Copyright © 2007, SAS Institute Inc. All rights reserved. Una guía para hacer Data Mining en la Empresa Copyright © 2007, SAS Institute Inc. All rights reserved. Pasos en el proceso de descubrimiento del conocimiento Copyright © 2007, SAS Institute Inc. All rights reserved. ¿Cuál es la problemática? • Evitar que los clientes se inactiven (Retención) • Aumentar el uso de la Tarjeta propia (Fidelización) • Aumentar el ticket promedio de los clientes (Up –Selling) • Aumentar la frecuencia de uso de los productos • Hacer que los clientes compren en más grupos de producto (Cross-Selling) • Recuperar los clientes que han disminuido su relacionamiento (Recovering) • Aprovechar mejor los recursos operativos disponibles. • Segmentar para realizar ofertas mejor dirigidas. • Detectar comportamientos atípicos (por ejemplo fraudulentos) Copyright © 2007, SAS Institute Inc. All rights reserved. Teniendo en cuenta el objetivo… Definición de la variable respuesta (target) • Si se trata a la problemática se trate desde la teoría del Aprendizaje Supervisado. Para que se quiere el modelo? • Describir un fenómeno? • Predecir? • Confirmar un suceso? Copyright © 2007, SAS Institute Inc. All rights reserved. ¿Es necesaria una metodología? • Las personas cometen errores. Al igual que los pasos que tiene que dar un piloto de avión para despegar, un proceso ayuda a asegurar la calidad de las decisiones que se toman. • El mundo es dinámico. Los procesos también. Analizar, rediseñar procesos actuales o incluir nuevos procesos es parte del trabajo diario en pos de mejorar. Copyright © 2007, SAS Institute Inc. All rights reserved. Primer consejo: Armar un equipo • Una persona no tiene todas las respuestas. • El especialista en Data Mining debe ser parte importante del equipo. • El tamaño deberá depender de las necesidades y magnitud de la empresa. • Tiene que combinar conocimiento de los datos, el negocio y la empresa. Copyright © 2007, SAS Institute Inc. All rights reserved. Segundo consejo: Hacer foco en la información antes que en la solución • Un proyecto de Data Mining mal definido tendrá como output malos resultados. • En muchos casos, modelos simples funcionan bien. El mayor incremento en la performance de los mismos proviene de los datos. • Es MUY importante la etapa de Limpieza de Datos en la reducción de sesgos y errores. Copyright © 2007, SAS Institute Inc. All rights reserved. Tercer consejo: Tener en cuenta toda posible fuente de información • Reconocer que datos duros, blandos, opinión, intuición, conocimiento de “mundo”, son fuentes valiosas de información. • Un buen proceso necesita integrar todas las contribuciones de información que puedan llegar a ser útiles para obtener beneficios de negocio. • Ser igualitarios: Personas de diferentes jerarquía pueden aportar conocimiento útil. Escucharlas. • Si hay presupuesto aprovecharlo para nutrir nuestra información con datos externos (ej. Bureau de datos) Copyright © 2007, SAS Institute Inc. All rights reserved. Cuarto consejo: Ser abiertos / diversos • Formar equipos interdisciplinarios. • Un equipo con diversidad de recursos, capaz de ver el bosque detrás del árbol. • Incluir personas con diferente background. Finanzas, legales, operaciones, sistemas, data mining, etc. Copyright © 2007, SAS Institute Inc. All rights reserved. Quinto consejo: Usar un lenguaje común • Intentar ser lo más claros posibles para comunicar los resultados de un modelo de Data Mining. • Ser gráficos si es necesario. Las personas no creen en “cajas negras”. • Tratar de integrar información cualitativa y cuantitativa para entender mejor los resultados. Ejemplo: Focus Group para una muestra de clientes que en base al modelo de Data Mining tienen alta probabilidad de darse de baja. Copyright © 2007, SAS Institute Inc. All rights reserved. METODOLOGÍA SAS Desarrollo con metodología SEMMA Copyright © 2007, SAS Institute Inc. All rights reserved. Metodología de Mining (SEMMA) Definir nuevos desafíos Conocer el objetivo / desafio Lograr resultados tangibles Implementar Evaluar y comprender el ambiente de negócio CICLO DE MINERÍA DE DATOS M Modificación Obtener los datos (muestreo) S Modelamiento Exploración M E Evaluación A Copyright © 2007, SAS Institute Inc. All rights reserved. SEMMA ample (muestreo) S Ejemplo conceptual Población total Registros: Miliones de registros FUENTE DE DATOS Variable: Monto de Compras Muestreo Registros: 5% de los registros MUESTREO Variable: Monto de Compras Copyright © 2007, SAS Institute Inc. All rights reserved. SEMMA S ample (muestreo) Ventajas: • Velocidad y eficiencia • Economía • Generalización • Visualización Desventajas: • Muestras no representativas • Tecnología insuficiente como para aplicar técnicas de muestreo adecuadas en forma simple. Copyright © 2007, SAS Institute Inc. All rights reserved. SEMMA E xplore (exploración) Variables CONTÍNUAS Ejemplo Promedio EVENTO = 1 Promedio EVENTO = 0 Q-Rango Copyright © 2007, SAS Institute Inc. All rights reserved. p25 superior E xplore (exploración) ANÁLISIS DE CORRELACIÓN (ρx,y) – Evitar Multicolinearidad Si |MAX(ρx,y)| ≥ 0,85 Si 0,30 ≤ |MAX( ρx,y)| < 0,85 Si |MAX(ρx,y)| < 0,30 Copyright © 2007, SAS Institute Inc. All rights reserved. Seleccionar ‘X’ o ‘Y’ para seguir en el test Combinar variables Siguen el desarrollo del modelo SEMMA M odify (modificación) Generación de variables nuevas • Resumir información (Componentes Principales) • Variables de Tendencia • Tratamiento de Outliers • Tratamiento de Missings (¿Missing=Cero?) • Generación de nuevas variables. No abusar! Discretización de variables • Tratar outliers • Maximizar la correlación con la variable respuesta (Con Árboles por ejemplo) • Conocer correlación entre covariables de mismo tipo (Discretas vs Continuas) • Percibir efectos no lineales • Más fácil interpretar e explicar el modelo • Aumenta la estabilidad del modelo en el tiempo • Encontrar equilibrio entre las categorías Copyright © 2007, SAS Institute Inc. All rights reserved. SEMMA M odel (modelado) SEMMA Selección de variables Análisis cualitativa Análisis gráfico del comportamiento de los clientes evento=1 y que evento=0 Análisis del valor R2 o de la estadística CHI-CUADRADO de las variables con el evento modelado Copyright © 2007, SAS Institute Inc. All rights reserved. M odel (modelado) Modelo de propensión Una vez cumplida las etapas anteriores de exploración, discretización, análisis de correlación y selección de las variables se sigue con el modelamiento de los datos. Probar distintas técnicas con distintos parámetros y compararlos Copyright © 2007, SAS Institute Inc. All rights reserved. SEMMA M odel (modedo) Demográficas Sexo, Edad, Estado Civil, Región, Profesión, etc Perfil de Compra Compra mucho/poco (cantidad y montos) Tiempo promedio entre compras Ticket promedio / cantidad de item por boleta / plazos promedios Preferencias Etc Experiencia como cliente Cantidad de reclamos. Llamadas a un call center para pedir la baja. Número de veces que el cliente experimentó problemas técnicos. Copyright © 2007, SAS Institute Inc. All rights reserved. SEMMA A ssess (evaluación) SEMMA Indicadores de Calidad del Modelo: Criterio LIFT (Cuidado) Mide la presencia de eventos en cada decil y lo compara al azar. El valor del LIFT representa cuantas veces más hay de eventos. Criterio GINI Este criterio es como si fuera el LIFT acumulado. Puede fluctuar entre 0 y 1 y cuanto más próximo de 1 mejor es el ajuste del modelo. Criterio KS Este criterio se basa en la comparación entre las distribuciones de probabilidad acumulado de los clientes clasificados como “evento” y “no evento”. Buscamos, entonces, la mayor diferencia observada entre estos dos grupos. Esta distancia (valor del critério KS) puede fluctuar entre 0 y 1 y cuanto más próximo de uno mejor es el ajuste del modelo. Criterio ROC Es una curva de la tasa de verdadero-positivos (sensibilidad) versus la tasa de falso-positivo (1 – especificidad). El área bajo la curva es el ROC. Puede fluctuar entre 0.5 y 1 y cuanto más próximo de 1 mejor es el ajuste del modelo. Copyright © 2007, SAS Institute Inc. All rights reserved. SEMMA A ssess (evaluación) Probabilidad vs Realidad Probabilidad promedio por decil vs % de Clientes con respuesta positiva. 100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% Prob. Prom. Copyright © 2007, SAS Institute Inc. All rights reserved. % Real 95 90 85 80 75 70 65 60 55 50 45 40 35 30 25 20 15 10 5 D ec il 0.0% A ssess (evaluación) SCORE MODELO %compradores capturados 100.0% 90.0% 80.0% 70.0% 60.0% 50.0% 40.0% 30.0% 20.0% 10.0% 0.0% 0.0% 20.0% 40.0% 60.0% %clientes abordados Copyright © 2007, SAS Institute Inc. All rights reserved. 80.0% 100.0% Errores típicos en desarrollo de modelos predictivos Muestreo y variable respuesta mal definidos. Muestreo “foto”. Especificación incorrecta de las variables de entrada. Revisar que las escalas de medida sean las adecuadas. Tratar de imputar/reemplazar valores faltantes reales. Desarrollo del modelos solamente con muestras de entrenamiento. Multicolinealidad. Particiones de datos inadecuadas. Copyright © 2007, SAS Institute Inc. All rights reserved. Errores típicos en desarrollo de modelos predictivos Utilización de variables explicativas no replicables en el futuro. Dedicar más tiempo a la técnica que al proceso de modelamiento (un modelo parte desde las definiciones de negocio) Postular modelos sin sentido de negocio. No evaluar la estabilidad del modelo en el tiempo. Interpretar mal el lift. Copyright © 2007, SAS Institute Inc. All rights reserved. Interpretar mal LIFT (Ejemplo) Escenario 1: • El target ocurre con una probabilidad de 0,5. • Con el modelo el target ocurre con una probabilidad de 0,75 en el primer decil (10%) LIFT = 1,5 Escenario 2: • El target ocurre con una probabilidad de 0,02. • Con el modelo el target ocurre con una probabilidad de 0,08 en el primer decil (10%) LIFT = 4 Copyright © 2007, SAS Institute Inc. All rights reserved. Interpretar mal LIFT (Ejemplo) No confundir PERAS y MANZANAS… No comparar modelos sin sentido Copyright © 2007, SAS Institute Inc. All rights reserved. Conclusiones • Es necesaria una metodología o un proceso en Data Mining • SAS provee: • La metodología SEMMA basada en su experiencia. • El software, que brinda las herramientas para llevar adelante la metodología. • No usar el software como una licuadora de datos. • El diseño integral de la solución es clave. Copyright © 2007, SAS Institute Inc. All rights reserved. Otras soluciones y productos SAS relacionados: SAS Data Integration Copyright © 2007, SAS Institute Inc. All rights reserved. Otras soluciones y productos SAS relacionados: SAS Model Manager • Ambiente integrado para el seguimiento de la performance de los modelos de Data Mining • Permite satisfacer requerimientos regulatorios Copyright © 2007, SAS Institute Inc. All rights reserved. Otras soluciones y productos SAS relacionados: SAS Text Miner Copyright © 2007, SAS Institute Inc. All rights reserved. Otras soluciones y productos SAS relacionados: SAS Forecast Server Copyright © 2007, SAS Institute Inc. All rights reserved. Otras soluciones y productos SAS relacionados: SAS Campaign Management Copyright © 2007, SAS Institute Inc. All rights reserved. Otras soluciones y productos SAS relacionados: SAS Business Intelligence Copyright © 2007, SAS Institute Inc. All rights reserved. Red Profesional Encuentros temáticos con especialistas Novedades en Analytics Acceso a especialistas Material de lectura SAS Copyright © 2007, SAS Institute Inc. All rights reserved. Objetivos: • Acelerar crecimiento profesional • Promover el uso metódico e inteligente de información Copyright © 2007, SAS Institute Inc. All rights reserved. MIEMBROS NUEVOS ULTIMOS BLOGS GRUPOS DE DISCUSION Copyright © 2007, SAS Institute Inc. All rights reserved. Registrarse en www.analyticsconosur.com Copyright © 2007, SAS Institute Inc. All rights reserved. Lecturas recomendadas • OLIVIA PARR RUD. “Data mining cookbook: modeling data for marketing, risk and CRM". Wiley. 2001. • MATIGNON. “Data Mining Using SAS Enterprise Miner”. Wiley, 2009. • ANDERSON & TATHAM. “Analisis Multivariante”. Prentice-Hall. 1999. • HOAGLIN, MOSTELLER, TUCKEY & WILDER. “Exploring Data Tables, Trends and Shapes.” Wiley. 1985. • HOSMER & LEMESHOW. “Applied Logistic Regression”. Wiley. 1989. • MONTGOMERY “Introduction to Linear Regression Analysis”. Wiley. 2001. • COCHRAN. "Técnicas de Muestreo". Cecsa. 1990. • DES RAJ. "Teoría de Muestreo" Fondo de Cultura Económica. 1989. Copyright © 2007, SAS Institute Inc. All rights reserved. Gracias!!! [email protected] Copyright © 2006, 2007, SAS Institute Inc. All rights reserved.