Download Curso El Salvador

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
3.5. Líneas de Investigación Abiertas
1
Líneas de Investigación Abiertas
Resúmenes:
•
S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim. Research issues in
Web data mining. In Proceedings of Data Warehousing and
Knowledge Discovery, First International Conference, DaWaK '99,
pages 303-312, 1999 http://citeseer.nj.nec.com/madria99research.html
•
Padhraic Smyth. "Breaking Out of the Black-Box: Research
Challenges in Data Mining", Workshop on Research Issues in Data
Mining and Knowledge Discovery DMKD 2001
•
Pedro Domingos and Geoff Hulten. "Catching Up with the Data:
Research Issues in Mining Data Streams" Workshop on Research
Issues in Data Mining and Knowledge Discovery DMKD 2001
2
Líneas de Investigación Abiertas
Resúmenes:
•
Ramakrishnan Srikant (IBM Almaden) "New Directions in Data
Mining", Workshop on Research Issues in Data Mining and
Knowledge Discovery DMKD 2002
•
John F. Roddick "Data Warehousing and Data Mining: Are we
working on the right things?" Advances in Database Technologies.
Berlin, Springer-Verlag. Lecture Notes in Computer Science. 1552.
Kambayashi, Y., Lee, D. K., Lim, E.-P., Masunaga, Y. and Mohania,
M., Eds. 141-144
3
Líneas de Investigación Abiertas
Conferencias especializadas en Minería de Datos:
•
KDD – International Conference on Knowledge Discovery from
Databases
•
IEEE ICDM – IEEE International Conference on Data Mining
•
IDA – Intelligent Data Analysis
•
PKDD – European Conference on Principles and Practice of Knowledge
Discovery in Databases
•
DMKD - Workshop on Research Issues in Data Mining and Knowledge
Discovery
•
DS – International Conference on Discovery Science
•
DWDM - International Workshop on Data Warehouse and Data Mining.
•
DaWaK - International Conference on Data Warehousing and
Knowledege Discovery.
4
Líneas de Investigación Abiertas
Conferencias especializadas en Aprendizaje Automático:
•
ICML “International Conference on Machine Learning”
•
ECML “European Conference on Machine Learning”
•
MLDM – “Machine Learning and Data Mining in Pattern
Recognition”
5
Lenguajes de Consulta Inductivos
Nuevos Lenguajes de Consulta:
• El descubrimiento en bases de datos se ve como un proceso de consulta
a una base de datos (Imielinski and Manilla 1996). La situación se
parece al desarrollo de lenguajes de consulta en los sesenta y setenta.
• Una consulta inductiva o de búsqueda de patrones debe permitir al
usuario restringir la búsqueda inductiva en los siguientes aspectos (Han
et al. 1999):
• La parte de la base de datos a ser minada (también llamada la vista
minable o vista relevante) (Ng et al. 1998).
• El tipo de patrón/reglas a ser minado (también llamado restricciones del
conocimiento).
• Cuantificadores estadísticos: representatividad (support) %, precisión
(confidence/accuracy) %.
• Otras propiedades que el patrón debería cumplir (número y forma de las
6
reglas, interés, novedad, etc.).
Lenguajes de Consulta Inductivos
Ejemplos de consultas que se desean:
ASOCIACIÓN
-¿Por qué (causa) la división de "serie para torpes" es tan
provechosa?
ASOCIACIÓN + CLASIFICACIÓN
-¿Qué características comparten los clientes que no renovaron sus
pólizas y en qué se diferencian de las que renovaron sus pólizas?
CLUSTERING:
-Grupos de clientes que no pagaron su crédito.
-Grupos de productos que han fallado el test de calidad.
CLUSTERING + PREDICCIÓN
-Grupos de clientes que es probable que vayan a comprar un nuevo
producto en el próximo año.
CLUSTERING + ASOCIACIÓN
-Grupos de pacientes cuya muerte la causó combinaciones
7
(cócteles) de fármacos.
Lenguajes de Consulta Inductivos
La consultas no pueden ser en lenguaje natural...
¿Qué es exactamente lo que se busca?
EJEMPLO:
DNI
11251545
30512526
22451616
25152516
23525251
Renta Familiar
5.000.000
1.000.000
3.000.000
2.000.000
1.500.000
Ciudad
Barcelona
Melilla
León
Valencia
Benidorm
Profesión
Ejecutivo
Abogado
Ejecutivo
Camarero
Animador
Parque
Temático
Edad
45
25
35
30
30
Hijos
3
0
2
0
0
Obeso
S
S
S
S
N
Casado
S
N
S
S
N
8
Lenguajes de Consulta Inductivos
EJEMPLO (cont.):
Correlaciones y Asociaciones
Tipo de consulta:
SELECT CORRELATIONS ON NUMERICAL
FROM Persona
Respuesta:
Renta Familiar y Edad correlacionan (0.XX).
Hijos y Edad correlacionan (0.YY).
Renta Familiar e Hijos correlacionan (0.ZZ).
Tipo de consulta:
SELECT APPROX. ASSOCIATIONS ON (Obeso, Casado, Hijos > 0)
FROM Persona
Respuesta:
Casado e (Hijos > 0) están asociados (4 casos, 80%).
Obseso y casado están asociados (4 casos, 80%)
Se deben poder poner condiciones, p.ej.:
SUPPORT > 3, CONFIDENCE > 75%
9
Lenguajes de Consulta Inductivos
EJEMPLO (cont.):
Reglas de Dependencias de Valor
Tipo de consulta:
SELECT EXACT DEPENDENCY RULES ON (Obeso, Casado, Hijos > 0)
FROM Persona
Respuesta:
(Hijos > 0)  Casado (5 casos, 100%).
Casado  Obeso (5 casos, 100%)
Tipo de consulta:
SELECT EXACT DEPENDENCY RULES ON *
FROM Persona
Respuesta:
(DNI)  ...
Ciudad  ...
Tipo de consulta:
SELECT PROB. DEPENDENCY RULES ON *
FROM Persona
Respuesta:
Casado  Obeso (5 casos, 100%)
Se compara P(RHS/LHS) con P(RHS) para ver si tiene SUPPORT (significación).
10
Lenguajes de Consulta Inductivos
EJEMPLO (cont.):
Clasificación
Tipo de consulta:
SELECT CLASSIFICATION RULES FOR (Hijos > 0) ON *
FROM Persona
Respuesta:
Casado AND (Renta Familiar > 2.000.000)  (Hijos > 0)
También se deberían poder obtener reglas exactas, fuertes (sólo se permite un máx de
errores) o probabilísticas.
11
Lenguajes de Consulta Inductivos
EJEMPLO (cont.):
Segmentación
Tipo de consulta:
SELECT SEGMENTATION RULES ON *
FROM Persona
Respuesta: Three Classes
Class 1 if Casado AND (Renta Familiar > 2.000.000)
Class 2 if Casado AND (Renta Familiar <= 2.000.000)
Class 3 if ¬Casado
Tipo de consulta:
SELECT SEGMENTATION RULES FOR Renta Familiar ON *
FROM Persona
Respuesta: Two classes on Renta Familiar
Renta Familiar >= 2.000.000 if Casado
Renta Familiar < 2.000.000 if ¬Casado
12
Lenguajes de Consulta Inductivos
EJEMPLO (cont.):
Tendencias temporales, Predicción
Patrón secuencial:
¿Qué compras preceden a la compra de un microondas?
Respuesta:
Frigorífico con congelador de cuatro pisos (60%).
Predicciones:
¿Volumen total de ventas estimado para el año 2000?
Regresión lineal sobre ventas 1995-1999 para predecir ventas 2000.
Información del Esquema (descubrir claves primarias, R.I.).
Tipo de consulta:
SELECT PRIMARY KEYS ON (Obeso, Casado, Hijos, Profesión)
FROM Persona
Respuesta:
(Profesión, Hijos)
(Hijos, Obeso, Casado)
13
Lenguajes de Consulta Inductivos
EJEMPLO (cont.):
Patrones más complicados
Varias tablas:
SELECT RULES
FROM Persona, Casado
Respuesta:
Persona(X) AND Persona (Y) AND Casado(X,Y)  Renta Familiar(X) = Renta
Familiar(Y)
Esta aproximación es restrictiva a los “modelos de
consulta” que permita el lenguaje.
14
Lenguajes de Consulta Inductivos
Propuesta M-SQL (Imielinski et al. 1996)
Basada en modelos de consulta...
Ejemplo:
SELECT FROM MINE(T): R
WHERE R.Consequent = { (Age = *) }
R.Support > 1000
R.Confidence > 0.65;
R es una variable de regla y se puede utilizar:
R.Consequent
R.Body (antecedente)
R.Support
R.Confidence.
15
Lenguajes de Consulta Inductivos
Propuesta DMQ (Data-Mining Query) language (Ng et al. 1998):
• Utiliza la sintaxis del SQL para la vista minable
• También basado en modelos de consulta.
EJEMPLO:
Esquema:
SALES(customer_name, item_name, transaction_id)
LIVES(customer_name, district, city)
ITEM(item_name, category, price)
TRANSACTION(transaction_id, day, month, day)
Consulta Inductiva (lenguaje natural):
“buscar las ventas de qué artículos baratos (con una suma de
precios menor que $100) que puede motivar las ventas de qué
artículos caros (con el precio mínimo de $500) de la misma
categoría de los clientes de Vancouver en 1998”.
16
Lenguajes de Consulta Inductivos
Propuesta DMQ. EJEMPLO:
Ejemplo de Consulta Inductiva:
+: operador regular (1 o
más tuplas)
?[I] : utilizar clave ajena. I
mine associations as
es la tupla instanciada.
lives(C,_, “Vancouver”) and
sales+(C, ?[I], {S})  sales+(C, ?[J], {T})
from sales
where S.year = 1998 and T.year = 1998 and I.category = J.category
group by C, I.category
having sum(I.price) < 100 and min(J.price) >= 500
with min_support = 0.01 and min_confidence = 0.5
Ejemplo de Respuesta:
Es un patrón relacional.
lives(C,_, “Vancouver”) and
sales(C, “Census_CD”, _) and sales(C, “Ms/Office97”, _)
 sales(C, “Ms/SQLServer”,_) [0.015, 0.68]
Support & Confidence.
17
Lenguajes de Consulta Inductivos
Propuesta “OLE DB for Data Mining” de Microsoft.
extensión del protocolo de acceso a BB.DD. OLE DB.
Implementa una extensión del SQL que trabaja con DMM( Data
Mining Model) y permite:
1. Crear el modelo
2. Entrenar el modelo
3. Realizar predicciones
18
Lenguajes de Consulta Inductivos
Propuesta “OLE DB for Data Mining”:
Ejemplo: CREACIÓN DEL MODELO (DMM):
CREATE MINING MODEL CredikRisk
(
[Customer ID]
LONG
KEY,
Atributos de Entrada
[Profession]
TEXT
DISCRETE,
[Income]
TEXT
DISCRETE,
[Age]
LONG
CONTINUOUS,
[Risk Level]
TEXT
DISCRETE PREDICT,
)
Atributo de Salida
USING [Microsoft Decision Tree]
Tipo de Modelo
Esto crea un DMM vacío.
19
Lenguajes de Consulta Inductivos
Propuesta “OLE DB for Data Mining”:
Ejemplo: ENTRENAR EL MODELO:
Se usa una sentencia INSERT INTO. A diferencia de insertar datos como en una
tabla normal lo que hace es analizar los casos que le introduzcamos y construir el
contenido del DMM.
Obtención de los datos de entrenamiento a
través de una consulta SQL por OLE SQL
INSERT INTO [CreditRisk]
( [CustomerID],[Profession],[Income],[Age],[RiskLevel] )
OPENROWSET('[Provider='MSOLESQL','user','pwd',
'SELECT [CustomerID],[Profession],
[Income],[Age],[Risk]
FROM [Customers]'
)
Vista Minable
20
Lenguajes de Consulta Inductivos
Propuesta “OLE DB for Data Mining”:
Ejemplo: USAR EL MODELO:
El modelo se aplica a nuevos datos. La manera de hacerlo es similar a la
concatenación de dos tablas relacionales, considerando el modelo como una tabla y
los datos a predecir como otra tabla. El resultado es una nueva tabla con los datos
que queramos (todos o sólo las predicciones).
SELECT [CustomerID],[Income],[Age], CreditRisk.RiskLevel,
PredictProbability(CreditRisk.RiskLevel)
FROM CreditRisk PREDICTION JOIN Customers
ON CreditRisk.Profession=Customers.Profession
AND CreditRisk.Income=Customers.Income
AND CreditRisk.Age=Customers.Age
21
Lenguajes de consulta inductivos para Web
Usage Mining
También existen lenguajes de consulta para seleccionar patrones relativos a
uso de páginas web:
P.ej. En el sistema WUM (Web Utilization Miner) (Berendt & Spiliopoulou
2000), basado también en un grafo de secuencias de visitas, se puede
utilizar el lenguaje MINT para hacer consultas del estilo:
SELECT t
FROM NODE AS a b,
TEMPLATE a * b AS t
WHERE a.support > 7
AND (b.support / a.support) >= 0.4
AND b.url != “G.html”
Seleccionaría pares de páginas visitadas consecutivamente en la que la
primera se ha visitado al menos 7 veces y de éstas, al menos el 40% han
llegado a la segunda. Además la segunda no puede ser “G.html”. 22
Retos para la Minería de Datos
• Escalabilidad:
• esquemas de muestreo eficientes y suficientes.
• procesamiento en memoria vs. en disco.
• combinación de recursos entre tareas involucradas.
• interfaces con los almacenes de datos.
• uso de metadata para optimizar el acceso.
• cuestiones cliente/servidor (dónde hacer el procesamiento).
• aprovechamiento de paralelismo y de computación
distribuida.
23
Retos para la Minería de Datos
• Automatización:
• Desarrollo de asistentes (wizards) y/o lenguajes de
consulta:
• para definir la tarea de minería, entradas, salidas, ...
• seleccionar y utilizar el conocimiento previo.
• Transformación de
dimensionalidad.
los
datos
y
reducción
de
• Compromiso entre simplicidad y precisión de los modelos
en pro de una mayor inteligibilidad.
24
Retos para la Minería de Datos
• Otros Retos:
• Tratamiento de datos cambiantes: necesidad de revisión y
extensión de patrones (incrementalidad).
• Minería de datos con tipos no-estándar (no numérico o no
textual, p.ej. gráficos vectoriales, índices a ficheros,
hiperenlaces), multimedia u orientados a objetos.
25
Tendencias
• 80s y principios 90s:
• OLAP y reporting: consultas predefinidas. El sistema OLAP como
sistema para extraer informes, gráficas y confirmar hipótesis. Técnicas
fundamentalmente estadísticas.
• Se usa casi exclusivamente información interna a la organización.
• Finales de los 90
• Data-Mining: descubrimiento de patrones. Técnicas de aprendizaje
automático para generar patrones novedosos.
• El Data-Warehouse incluye Información Interna fundamentalmente.
• Principios de los 00
• Técnicas de “scoring” y simulación: descubrimiento y uso de modelos
globales. Estimación a partir de variables de entrada de variables de
salida (causa-efecto) utilizando simulación sobre el modelo aprendido.
• El Data-Warehouse incluye Información Interna y Externa (parámetros
de la economía, poblacionales, geográficos, etc.).
26
Software Gratuito
Software Disponible:
• Librerías Genéricas:
• MLC++ en C++. (Kohavi et al. 1994) (http://www.sgi.com/Technology/mlc/)
• WEKA en Java. (http://www.cs.waikato.ac.nz/ml/weka)
Acompañado por el libro: “Data Mining: practical machine learning tools and
techniques with Java implementations” Morgan Kaufmann
• ML-Lisp en LISP (ftp://ftp.cs.utexas.edu/pub/mooney/ml-progs/)
(http://mlwww.diee.unica.it/ML/gdl/mlsoftware.html)
• Entorno DELVE: http://www.cs.utoronto.ca/~delve/index.html
• Otros (data-mining): http://www.the-data-mine.com/bin/veiw/Software/WebIndex
• Software Particular:
• C4.5 (http://mlwww.diee.unica.it/ML/gdl/c4_5.html)
• Progol (http://www-users.cs.york.ac.uk/~stephen/progol.html)
• Golem (http://www-users.cs.york.ac.uk/~stephen/golem.html).
• ILP systems (http://www-ai.ijs.si/~ilpnet2/systems/)
• FLIP & SMILES (http://www.dsic.upv.es/~flip/)
27
Direcciones
Recursos Generales:
• KDcentral (www.kdcentral.com)
• The Data Mine (http://www.the-data-mine.com)
• Knowledge Discovery Mine (http://www.kdnuggets.com)
Mailing list:
• KDD-nuggets: moderada y con poco ruido:
Para suscribirse, enviar un mensaje a “[email protected]” con “subscribe kdnuggets”
en la primera línea del mensaje (el resto en blanco).
Revistas:
• Data Mining and Knowledge Discovery. (http://www.digimine.com/usama/datamine)
• Intelligent Data Analysis (http://www.elsevier.com/locate/ida)
Asociaciones:
• ACM SIGKDD (y la revista “explorations”,
http://www.acm.org/sigkdd/explorations/instructions.htm)
28
Más Direcciones
Refrescadores de Estadística:
•
•
http://cne.gmu.edu/modules/dau/stat/index.html
http://www.statsoft.com/textbook/stathome.html
Otras fuentes sobre DM:
• CRISP - DM, un consorcio industrial.
http://www.crisp-dm.org
• DMG - The Data Mining Group, un consorcio mixto para crear
estándares para intercambiar modelos predictivos.
http://www.dmg.org/
• Kurt Thearling's site: libros, artículos, tutoriales.
http://www3.shore.net/~kht/
29
Redes de Investigación
• RED MIDAS: Red Española de Minería de Datos y
Aprendizaje Automático. Coordinador: José Riquelme,
Universidad de Sevilla.
• http://www.lsi.us.es/~riquelme
• KDNET: Red de Excelencia Europea en “Knowledge
Discovery”
• http://www.kdnet.org
30
...
31