Download Customer Intelligence Overview

Document related concepts
no text concepts found
Transcript
Una guía para hacer Data
Mining en la Empresa
Guido Sagasti
Consultor
Copyright © 2007, SAS Institute Inc. All rights reserved.
Pilar, 16 de Octubre de 2009
AGENDA
 Presentación Corporativa SAS
 Guía para hacer Data Mining en la Empresa
 Problemática
 Es necesaria una metodología
 Algunos consejos
 Metodología SAS para Data Mining: SEMMA en SAS
Enterprise Miner.
 Errores más comunes en el desarrollo de modelos
analíticos.
 Otras soluciones y productos SAS relacionados al
Data Mining
Copyright © 2007, SAS Institute Inc. All rights reserved.
Aumente la Rentabilidad y Potencie su Negocio
• El análisis de grandes volúmenes de datos
está afectando nuestras vidas en forma
impensada.
• Sin Analytics estamos trabajando sobre
supuestos, intuición.
• Las organizaciones que usan Analytics son
exitosas, logran ahorros reales y aumentan
su rentabilidad.
• Analytics es diferenciador, implica mejores
decisiones.
Copyright © 2007, SAS Institute Inc. All rights reserved.
SAS
 Empresa de soluciones analíticas privada más grande del
mundo
 Más de 400 oficinas
 Clientes en 113 países
diferentes
 Más de 11,000 empleados
 Más de 2,000 empleados en R&D
 Más de 43,000 Clientes
 Foco en Business Analytics
 Soluciones de acuerdo al tamaño de las empresas
Copyright © 2007, SAS Institute Inc. All rights reserved.
2008 Performance
$2.26B en facturación (USD)
Copyright © 2007, SAS Institute Inc. All rights reserved.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Valor al Negocio
De los Datos a la Inteligencia
Optimización
Qué es lo mejor que podría pasar?
Qué será lo próximo que va a pasar?
Modelado
Predictivo
Qué pasa si esta tendencia continúa?
Por qué está pasando?
Forecasting
Análisis
Estadístico
Alertas
Query
Drill-Down
Reportes
Reportes
Standard
Copyright © 2007, SAS Institute Inc. All rights reserved.
Ad-Hoc
Qué acciones son necesarias?
Dónde está exactamente el problema?
Cuánto, con qué frecuencia, dónde?
Qué pasó?
Grado de Inteligencia
Copyright © 2007, SAS Institute Inc. All rights reserved.
REPORTES STANDARD
1
Preguntas: Qué pasó? Cuándo pasó?
Ejemplo: Reportes financieros mensuales o trimestrales.
Estos reportes son generados regularmente y muestran solamente qué pasó en un
área particular. Son útiles en cierto modo, pero no para tomar decisiones de largo
plazo.
REPORTES AD-HOC
2
Preguntas: Cuántos? Con qué frecuencia? Dónde?
Ejemplo: Reporte que sumariza la cantidad de clientes atendidos en un hospital por código de
diagnóstico y día de la semana.
Como máximo, los reportes ad-hoc permiten obtener respuestas a preguntas
sencillas.
QUERY DRILL-DOWN, OLAP
3
Preguntas: Dónde está exactamente el proglema? Cómo encuentro las respuestas?
Ejemplo: Qué locales fueron los que tuvieron caídas más importantes en las ventas? Y qué
categorías dentro de esos locales?.
Query drill-down brinda mayor capacidad de investigación sobre los datos,
permitiendo profundizar y obtener respuestas para diferentes criterios de análisis.
ALERTAS
4
Copyright © 2007, SAS Institute Inc. All rights reserved.
Preguntas: Cuándo debería reaccionar? Qué acciones se necesitan ahora?
Ejemplo: Ejecutivos de ventas reciben alertas cuando no se están cumpliendo los objetivos de
comerciales.
Con alertas, es posible entender cuándo se tiene un problema y ser notificado
cuando una situación similar ocurre en el futuro. Las alertas pueden ser por email,
RSS Feeds, o semáforos rojos en un scorecard o dashboard.
ANALISIS ESTADISTICO
5
Preguntas: Qué está pasando? Porqué esta pasando? Qué oportunidades estamos perdiendo?
Ejemplo: Qué factores influenciaron el aumento de llamadas al Call Center? Qué condiciones cumplen
los grupos de más altas tasas de resolución?
Estas preguntas requieren aplicar análisis estadístico, desde análisis de
frecuencias hasta modelos de regresión.
FORECASTING
6
Preguntas: Qué pasa si continúa esta tendencia? Cuánto se necesita? Cuándo?
Ejemplo: Retailers pueden predecir la demanda de cada Item en cada Local.
Forecasting aplica en todas las organizaciones. Puede utilizarse para proyectar
Demanda de Productos y Servicios, Consumo de Energía, Cantidad de Llamadas
en un Call Center, Utilización de Recursos de IT, etc.
MODELADO PREDICTIVO
Preguntas: Qué pasará a continuación? Cómo afectará a mi negocio?
7
Ejemplo: Bancos pueden predecir qué clientes son más propensos a contratar un nuevo producto o
servicio, detectar posibles fraudes y evaluar el riesgo crediticio.
Si tenemos 10 millones de clientes y queremos realizar una campaña de marketing,
quiénes serán los más propensos a responder? Cómo debemos segmentar a
nuestros clientes? El modelado predictivo brinda las respuestas.
OPTIMIZACION
8
Copyright © 2007, SAS Institute Inc. All rights reserved.
Preguntas: Cómo hacemos las cosas mejor? Cuál es la mejor decisión ante un problema complejo?
Qué pasa si las condiciones cambian?
Ejemplo: Dadas las prioridades del negocio, restricciones de recursos y tecnología disponible,
determinar la manera de optimizar la plataforma de IT satisfaciendo las necesidades de los usuarios.
La Optimización soporta la Innovación. Considera recursos y objetivos y ayuda a
encontrar la mejor solución posible para cumplirlos.
SAS: Pasado vs. Presente
Pasado – Poderosa Herramienta
proc catmod order=data;
weight wt;
response / out=preds;
model severity=trt hospital;
run;
quit;
/* Keep just the predicted values, predictors, and response */
data pred2;
set preds;
if _type_='PROB';
keep severity trt hospital _pred_;
run;
/* Find predicted response level (level with highest predicted
probability) in each sample. */
proc summary data=pred2 nway;
class trt hospital;
var _pred_;
output out=predlvl (drop=_type_ _freq_)
maxid(_pred_(severity))=predlvl;
run;
/* Transpose the predicted values so that there is one observation per
sample containing predicted values for each response level. */
proc transpose data=pred2 out=pred3 (drop=_name_);
by trt hospital;
id severity;
var _pred_;
run;
Copyright © 2007, SAS Institute Inc. All rights reserved.
Presente – Soluciones de Negocios
 Comunicaciones
 Banca
 Retail
 Manufactura
 Educación
 Oil & Gas
 Juego y Hotelería
 Gobierno
 Seguros de Salud
 Seguros
 Proveedores de Salud
 Utilities
 Farmacéutica
 Otros
Copyright © 2007, SAS Institute Inc. All rights reserved.
En Banca por ejemplo: SAS OpRisk Monitor
Es una aplicación web que se utiliza para gerenciar ,
controlar y evaluar indicadores claves de riesgo
operacional (KRIs)
Copyright © 2007, SAS Institute Inc. All rights reserved.
Una guía para hacer Data
Mining en la Empresa
Copyright © 2007, SAS Institute Inc. All rights reserved.
Pasos en el proceso de descubrimiento del conocimiento
Copyright © 2007, SAS Institute Inc. All rights reserved.
¿Cuál es la problemática?
•
Evitar que los clientes se inactiven (Retención)
•
Aumentar el uso de la Tarjeta propia (Fidelización)
•
Aumentar el ticket promedio de los clientes (Up –Selling)
•
Aumentar la frecuencia de uso de los productos
•
Hacer que los clientes compren en más grupos de producto (Cross-Selling)
•
Recuperar los clientes que han disminuido su relacionamiento (Recovering)
•
Aprovechar mejor los recursos operativos disponibles.
•
Segmentar para realizar ofertas mejor dirigidas.
•
Detectar comportamientos atípicos (por ejemplo fraudulentos)
Copyright © 2007, SAS Institute Inc. All rights reserved.
Teniendo en cuenta el objetivo…
 Definición de la variable respuesta (target)
• Si se trata a la problemática se trate desde la teoría del
Aprendizaje Supervisado.
 Para que se quiere el modelo?
• Describir un fenómeno?
• Predecir?
• Confirmar un suceso?
Copyright © 2007, SAS Institute Inc. All rights reserved.
¿Es necesaria una metodología?
• Las personas cometen errores. Al igual que los pasos que
tiene que dar un piloto de avión para despegar, un proceso
ayuda a asegurar la calidad de las decisiones que se
toman.
• El mundo es dinámico. Los
procesos también. Analizar,
rediseñar procesos actuales o
incluir nuevos procesos es parte
del trabajo diario en pos de
mejorar.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Primer consejo: Armar un equipo
• Una persona no tiene todas las respuestas.
• El especialista en Data Mining debe ser parte importante del
equipo.
• El tamaño deberá depender de las necesidades y magnitud
de la empresa.
• Tiene que combinar conocimiento de los datos, el negocio y
la empresa.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Segundo consejo:
Hacer foco en la información antes que en la solución
• Un proyecto de Data Mining mal definido tendrá como
output malos resultados.
• En muchos casos, modelos simples funcionan bien. El
mayor incremento en la performance de los mismos
proviene de los datos.
• Es MUY importante la etapa de Limpieza de Datos en la
reducción de sesgos y errores.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Tercer consejo:
Tener en cuenta toda posible fuente de información
• Reconocer que datos duros, blandos, opinión, intuición,
conocimiento de “mundo”, son fuentes valiosas de
información.
• Un buen proceso necesita integrar todas las contribuciones
de información que puedan llegar a ser útiles para obtener
beneficios de negocio.
• Ser igualitarios: Personas de diferentes jerarquía pueden
aportar conocimiento útil. Escucharlas.
• Si hay presupuesto aprovecharlo para nutrir nuestra
información con datos externos (ej. Bureau de datos)
Copyright © 2007, SAS Institute Inc. All rights reserved.
Cuarto consejo: Ser abiertos / diversos
• Formar equipos interdisciplinarios.
• Un equipo con diversidad de recursos, capaz de ver el
bosque detrás del árbol.
• Incluir personas con diferente background. Finanzas,
legales, operaciones, sistemas, data mining, etc.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Quinto consejo: Usar un lenguaje común
• Intentar ser lo más claros posibles para comunicar los
resultados de un modelo de Data Mining.
• Ser gráficos si es necesario. Las personas no creen en
“cajas negras”.
• Tratar de integrar información cualitativa y cuantitativa para
entender mejor los resultados.
Ejemplo: Focus Group para una muestra
de clientes que en base al modelo de
Data Mining tienen alta probabilidad de
darse de baja.
Copyright © 2007, SAS Institute Inc. All rights reserved.
METODOLOGÍA SAS
Desarrollo con metodología SEMMA
Copyright © 2007, SAS Institute Inc. All rights reserved.
Metodología de Mining (SEMMA)
Definir nuevos desafíos
Conocer el objetivo /
desafio
Lograr resultados
tangibles
Implementar
Evaluar y comprender
el ambiente de negócio
CICLO DE MINERÍA DE DATOS
M
Modificación
Obtener los datos
(muestreo)
S
Modelamiento
Exploración
M
E
Evaluación
A
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEMMA
ample (muestreo)
S
 Ejemplo conceptual
Población total
Registros:
Miliones de registros
FUENTE DE
DATOS
Variable:
Monto de Compras
Muestreo
Registros:
5% de los registros
MUESTREO
Variable:
Monto de Compras
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEMMA
S ample (muestreo)
 Ventajas:
• Velocidad y eficiencia
• Economía
• Generalización
• Visualización
 Desventajas:
• Muestras no representativas
• Tecnología insuficiente como para aplicar técnicas de
muestreo adecuadas en forma simple.
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEMMA
E xplore (exploración)
 Variables CONTÍNUAS
Ejemplo
Promedio
EVENTO = 1
Promedio
EVENTO = 0
Q-Rango
Copyright © 2007, SAS Institute Inc. All rights reserved.
p25 superior
E xplore (exploración)
ANÁLISIS DE CORRELACIÓN (ρx,y) – Evitar Multicolinearidad
 Si |MAX(ρx,y)| ≥ 0,85
 Si 0,30 ≤ |MAX(
ρx,y)| < 0,85
 Si |MAX(ρx,y)| < 0,30
Copyright © 2007, SAS Institute Inc. All rights reserved.
Seleccionar ‘X’ o ‘Y’ para seguir en el test
Combinar variables
Siguen el desarrollo del modelo
SEMMA
M odify (modificación)
 Generación de variables nuevas
• Resumir información (Componentes Principales)
• Variables de Tendencia
• Tratamiento de Outliers
• Tratamiento de Missings (¿Missing=Cero?)
• Generación de nuevas variables. No abusar!
 Discretización de variables
• Tratar outliers
• Maximizar la correlación con la variable respuesta (Con Árboles por ejemplo)
• Conocer correlación entre covariables de mismo tipo (Discretas vs Continuas)
• Percibir efectos no lineales
• Más fácil interpretar e explicar el modelo
• Aumenta la estabilidad del modelo en el tiempo
• Encontrar equilibrio entre las categorías
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEMMA
M odel (modelado)
SEMMA
Selección de variables
 Análisis cualitativa
 Análisis gráfico del comportamiento de los clientes evento=1
y que evento=0
 Análisis del valor R2 o de la estadística CHI-CUADRADO de
las variables con el evento modelado
Copyright © 2007, SAS Institute Inc. All rights reserved.
M odel (modelado)
 Modelo de propensión
Una vez cumplida las etapas anteriores
de exploración, discretización, análisis
de correlación y selección de las
variables se sigue con el modelamiento
de los datos.
Probar distintas técnicas con distintos
parámetros y compararlos
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEMMA
M odel (modedo)
Demográficas

Sexo, Edad, Estado Civil, Región, Profesión, etc
Perfil de Compra

Compra mucho/poco (cantidad y montos)

Tiempo promedio entre compras

Ticket promedio / cantidad de item por boleta / plazos promedios

Preferencias

Etc
Experiencia como cliente

Cantidad de reclamos.

Llamadas a un call center para pedir la baja.

Número de veces que el cliente experimentó problemas técnicos.
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEMMA
A ssess (evaluación)
SEMMA
Indicadores de Calidad del Modelo:
Criterio LIFT (Cuidado)
Mide la presencia de eventos en cada decil y lo compara al azar. El valor del LIFT representa cuantas veces más hay de
eventos.
 Criterio GINI
Este criterio es como si fuera el LIFT acumulado. Puede fluctuar entre 0 y 1 y cuanto más próximo de 1 mejor es el ajuste
del modelo.
 Criterio KS
Este criterio se basa en la comparación entre las distribuciones de probabilidad acumulado de los clientes clasificados
como “evento” y “no evento”. Buscamos, entonces, la mayor diferencia observada entre estos dos grupos. Esta distancia
(valor del critério KS) puede fluctuar entre 0 y 1 y cuanto más próximo de uno mejor es el ajuste del modelo.
 Criterio ROC
Es una curva de la tasa de verdadero-positivos (sensibilidad) versus la tasa de falso-positivo (1 – especificidad). El
área bajo la curva es el ROC. Puede fluctuar entre 0.5 y 1 y cuanto más próximo de 1 mejor es el ajuste del modelo.
Copyright © 2007, SAS Institute Inc. All rights reserved.
SEMMA
A ssess (evaluación)
 Probabilidad vs Realidad
Probabilidad promedio por decil vs % de Clientes con respuesta positiva.
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
Prob. Prom.
Copyright © 2007, SAS Institute Inc. All rights reserved.
% Real
95
90
85
80
75
70
65
60
55
50
45
40
35
30
25
20
15
10
5
D
ec
il
0.0%
A
ssess (evaluación)
SCORE MODELO
%compradores capturados
100.0%
90.0%
80.0%
70.0%
60.0%
50.0%
40.0%
30.0%
20.0%
10.0%
0.0%
0.0%
20.0%
40.0%
60.0%
%clientes abordados
Copyright © 2007, SAS Institute Inc. All rights reserved.
80.0%
100.0%
Errores típicos en desarrollo de modelos
predictivos
 Muestreo y variable respuesta mal definidos.
 Muestreo “foto”.
 Especificación incorrecta de las variables de entrada.
Revisar que las escalas de medida sean las adecuadas.
 Tratar de imputar/reemplazar valores faltantes reales.
 Desarrollo del modelos solamente con muestras de
entrenamiento.
 Multicolinealidad.
 Particiones de datos inadecuadas.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Errores típicos en desarrollo de modelos
predictivos
 Utilización de variables explicativas no replicables en el
futuro.
 Dedicar más tiempo a la técnica que al proceso de
modelamiento (un modelo parte desde las definiciones de
negocio)
 Postular modelos sin sentido de negocio.
 No evaluar la estabilidad del modelo en el tiempo.
 Interpretar mal el lift.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Interpretar mal LIFT (Ejemplo)
Escenario 1:
• El target ocurre con una probabilidad de 0,5.
• Con el modelo el target ocurre con una
probabilidad de 0,75 en el primer decil (10%)
LIFT = 1,5
Escenario 2:
• El target ocurre con una probabilidad de 0,02.
• Con el modelo el target ocurre con una
probabilidad de 0,08 en el primer decil (10%)
LIFT = 4
Copyright © 2007, SAS Institute Inc. All rights reserved.
Interpretar mal LIFT (Ejemplo)
No confundir PERAS y MANZANAS…
No comparar modelos sin sentido
Copyright © 2007, SAS Institute Inc. All rights reserved.
Conclusiones
• Es necesaria una metodología o un proceso en
Data Mining
• SAS provee:
• La metodología SEMMA basada en su
experiencia.
• El software, que brinda las herramientas para
llevar adelante la metodología.
• No usar el software como una licuadora de datos.
• El diseño integral de la solución es clave.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados:
SAS Data Integration
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados:
SAS Model Manager
• Ambiente
integrado para el
seguimiento de
la performance
de los modelos
de Data Mining
• Permite
satisfacer
requerimientos
regulatorios
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados:
SAS Text Miner
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados:
SAS Forecast Server
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados:
SAS Campaign Management
Copyright © 2007, SAS Institute Inc. All rights reserved.
Otras soluciones y productos SAS relacionados:
SAS Business Intelligence
Copyright © 2007, SAS Institute Inc. All rights reserved.
 Red Profesional
 Encuentros temáticos con
especialistas
 Novedades en Analytics
 Acceso a especialistas
 Material de lectura SAS
Copyright © 2007, SAS Institute Inc. All rights reserved.
Objetivos:
• Acelerar crecimiento profesional
• Promover el uso metódico e inteligente de
información
Copyright © 2007, SAS Institute Inc. All rights reserved.
MIEMBROS
NUEVOS
ULTIMOS BLOGS
GRUPOS DE DISCUSION
Copyright © 2007, SAS Institute Inc. All rights reserved.
Registrarse en
www.analyticsconosur.com
Copyright © 2007, SAS Institute Inc. All rights reserved.
Lecturas recomendadas
• OLIVIA PARR RUD. “Data mining cookbook: modeling data for
marketing, risk and CRM". Wiley. 2001.
• MATIGNON. “Data Mining Using SAS Enterprise Miner”. Wiley, 2009.
• ANDERSON & TATHAM. “Analisis Multivariante”. Prentice-Hall. 1999.
• HOAGLIN, MOSTELLER, TUCKEY & WILDER. “Exploring Data
Tables, Trends and Shapes.” Wiley. 1985.
• HOSMER & LEMESHOW. “Applied Logistic Regression”. Wiley. 1989.
• MONTGOMERY “Introduction to Linear Regression Analysis”. Wiley.
2001.
• COCHRAN. "Técnicas de Muestreo". Cecsa. 1990.
• DES RAJ. "Teoría de Muestreo" Fondo de Cultura Económica. 1989.
Copyright © 2007, SAS Institute Inc. All rights reserved.
Gracias!!!
[email protected]
Copyright © 2006,
2007, SAS Institute Inc. All rights reserved.