Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
3.5. Líneas de Investigación Abiertas 1 Líneas de Investigación Abiertas Resúmenes: • S.K.Madria, S.S.Bhowmick, W.K.Ng, and E.P.Lim. Research issues in Web data mining. In Proceedings of Data Warehousing and Knowledge Discovery, First International Conference, DaWaK '99, pages 303-312, 1999 http://citeseer.nj.nec.com/madria99research.html • Padhraic Smyth. "Breaking Out of the Black-Box: Research Challenges in Data Mining", Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2001 • Pedro Domingos and Geoff Hulten. "Catching Up with the Data: Research Issues in Mining Data Streams" Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2001 2 Líneas de Investigación Abiertas Resúmenes: • Ramakrishnan Srikant (IBM Almaden) "New Directions in Data Mining", Workshop on Research Issues in Data Mining and Knowledge Discovery DMKD 2002 • John F. Roddick "Data Warehousing and Data Mining: Are we working on the right things?" Advances in Database Technologies. Berlin, Springer-Verlag. Lecture Notes in Computer Science. 1552. Kambayashi, Y., Lee, D. K., Lim, E.-P., Masunaga, Y. and Mohania, M., Eds. 141-144 3 Líneas de Investigación Abiertas Conferencias especializadas en Minería de Datos: • KDD – International Conference on Knowledge Discovery from Databases • IEEE ICDM – IEEE International Conference on Data Mining • IDA – Intelligent Data Analysis • PKDD – European Conference on Principles and Practice of Knowledge Discovery in Databases • DMKD - Workshop on Research Issues in Data Mining and Knowledge Discovery • DS – International Conference on Discovery Science • DWDM - International Workshop on Data Warehouse and Data Mining. • DaWaK - International Conference on Data Warehousing and Knowledege Discovery. 4 Líneas de Investigación Abiertas Conferencias especializadas en Aprendizaje Automático: • ICML “International Conference on Machine Learning” • ECML “European Conference on Machine Learning” • MLDM – “Machine Learning and Data Mining in Pattern Recognition” 5 Lenguajes de Consulta Inductivos Nuevos Lenguajes de Consulta: • El descubrimiento en bases de datos se ve como un proceso de consulta a una base de datos (Imielinski and Manilla 1996). La situación se parece al desarrollo de lenguajes de consulta en los sesenta y setenta. • Una consulta inductiva o de búsqueda de patrones debe permitir al usuario restringir la búsqueda inductiva en los siguientes aspectos (Han et al. 1999): • La parte de la base de datos a ser minada (también llamada la vista minable o vista relevante) (Ng et al. 1998). • El tipo de patrón/reglas a ser minado (también llamado restricciones del conocimiento). • Cuantificadores estadísticos: representatividad (support) %, precisión (confidence/accuracy) %. • Otras propiedades que el patrón debería cumplir (número y forma de las 6 reglas, interés, novedad, etc.). Lenguajes de Consulta Inductivos Ejemplos de consultas que se desean: ASOCIACIÓN -¿Por qué (causa) la división de "serie para torpes" es tan provechosa? ASOCIACIÓN + CLASIFICACIÓN -¿Qué características comparten los clientes que no renovaron sus pólizas y en qué se diferencian de las que renovaron sus pólizas? CLUSTERING: -Grupos de clientes que no pagaron su crédito. -Grupos de productos que han fallado el test de calidad. CLUSTERING + PREDICCIÓN -Grupos de clientes que es probable que vayan a comprar un nuevo producto en el próximo año. CLUSTERING + ASOCIACIÓN -Grupos de pacientes cuya muerte la causó combinaciones 7 (cócteles) de fármacos. Lenguajes de Consulta Inductivos La consultas no pueden ser en lenguaje natural... ¿Qué es exactamente lo que se busca? EJEMPLO: DNI 11251545 30512526 22451616 25152516 23525251 Renta Familiar 5.000.000 1.000.000 3.000.000 2.000.000 1.500.000 Ciudad Barcelona Melilla León Valencia Benidorm Profesión Ejecutivo Abogado Ejecutivo Camarero Animador Parque Temático Edad 45 25 35 30 30 Hijos 3 0 2 0 0 Obeso S S S S N Casado S N S S N 8 Lenguajes de Consulta Inductivos EJEMPLO (cont.): Correlaciones y Asociaciones Tipo de consulta: SELECT CORRELATIONS ON NUMERICAL FROM Persona Respuesta: Renta Familiar y Edad correlacionan (0.XX). Hijos y Edad correlacionan (0.YY). Renta Familiar e Hijos correlacionan (0.ZZ). Tipo de consulta: SELECT APPROX. ASSOCIATIONS ON (Obeso, Casado, Hijos > 0) FROM Persona Respuesta: Casado e (Hijos > 0) están asociados (4 casos, 80%). Obseso y casado están asociados (4 casos, 80%) Se deben poder poner condiciones, p.ej.: SUPPORT > 3, CONFIDENCE > 75% 9 Lenguajes de Consulta Inductivos EJEMPLO (cont.): Reglas de Dependencias de Valor Tipo de consulta: SELECT EXACT DEPENDENCY RULES ON (Obeso, Casado, Hijos > 0) FROM Persona Respuesta: (Hijos > 0) Casado (5 casos, 100%). Casado Obeso (5 casos, 100%) Tipo de consulta: SELECT EXACT DEPENDENCY RULES ON * FROM Persona Respuesta: (DNI) ... Ciudad ... Tipo de consulta: SELECT PROB. DEPENDENCY RULES ON * FROM Persona Respuesta: Casado Obeso (5 casos, 100%) Se compara P(RHS/LHS) con P(RHS) para ver si tiene SUPPORT (significación). 10 Lenguajes de Consulta Inductivos EJEMPLO (cont.): Clasificación Tipo de consulta: SELECT CLASSIFICATION RULES FOR (Hijos > 0) ON * FROM Persona Respuesta: Casado AND (Renta Familiar > 2.000.000) (Hijos > 0) También se deberían poder obtener reglas exactas, fuertes (sólo se permite un máx de errores) o probabilísticas. 11 Lenguajes de Consulta Inductivos EJEMPLO (cont.): Segmentación Tipo de consulta: SELECT SEGMENTATION RULES ON * FROM Persona Respuesta: Three Classes Class 1 if Casado AND (Renta Familiar > 2.000.000) Class 2 if Casado AND (Renta Familiar <= 2.000.000) Class 3 if ¬Casado Tipo de consulta: SELECT SEGMENTATION RULES FOR Renta Familiar ON * FROM Persona Respuesta: Two classes on Renta Familiar Renta Familiar >= 2.000.000 if Casado Renta Familiar < 2.000.000 if ¬Casado 12 Lenguajes de Consulta Inductivos EJEMPLO (cont.): Tendencias temporales, Predicción Patrón secuencial: ¿Qué compras preceden a la compra de un microondas? Respuesta: Frigorífico con congelador de cuatro pisos (60%). Predicciones: ¿Volumen total de ventas estimado para el año 2000? Regresión lineal sobre ventas 1995-1999 para predecir ventas 2000. Información del Esquema (descubrir claves primarias, R.I.). Tipo de consulta: SELECT PRIMARY KEYS ON (Obeso, Casado, Hijos, Profesión) FROM Persona Respuesta: (Profesión, Hijos) (Hijos, Obeso, Casado) 13 Lenguajes de Consulta Inductivos EJEMPLO (cont.): Patrones más complicados Varias tablas: SELECT RULES FROM Persona, Casado Respuesta: Persona(X) AND Persona (Y) AND Casado(X,Y) Renta Familiar(X) = Renta Familiar(Y) Esta aproximación es restrictiva a los “modelos de consulta” que permita el lenguaje. 14 Lenguajes de Consulta Inductivos Propuesta M-SQL (Imielinski et al. 1996) Basada en modelos de consulta... Ejemplo: SELECT FROM MINE(T): R WHERE R.Consequent = { (Age = *) } R.Support > 1000 R.Confidence > 0.65; R es una variable de regla y se puede utilizar: R.Consequent R.Body (antecedente) R.Support R.Confidence. 15 Lenguajes de Consulta Inductivos Propuesta DMQ (Data-Mining Query) language (Ng et al. 1998): • Utiliza la sintaxis del SQL para la vista minable • También basado en modelos de consulta. EJEMPLO: Esquema: SALES(customer_name, item_name, transaction_id) LIVES(customer_name, district, city) ITEM(item_name, category, price) TRANSACTION(transaction_id, day, month, day) Consulta Inductiva (lenguaje natural): “buscar las ventas de qué artículos baratos (con una suma de precios menor que $100) que puede motivar las ventas de qué artículos caros (con el precio mínimo de $500) de la misma categoría de los clientes de Vancouver en 1998”. 16 Lenguajes de Consulta Inductivos Propuesta DMQ. EJEMPLO: Ejemplo de Consulta Inductiva: +: operador regular (1 o más tuplas) ?[I] : utilizar clave ajena. I mine associations as es la tupla instanciada. lives(C,_, “Vancouver”) and sales+(C, ?[I], {S}) sales+(C, ?[J], {T}) from sales where S.year = 1998 and T.year = 1998 and I.category = J.category group by C, I.category having sum(I.price) < 100 and min(J.price) >= 500 with min_support = 0.01 and min_confidence = 0.5 Ejemplo de Respuesta: Es un patrón relacional. lives(C,_, “Vancouver”) and sales(C, “Census_CD”, _) and sales(C, “Ms/Office97”, _) sales(C, “Ms/SQLServer”,_) [0.015, 0.68] Support & Confidence. 17 Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining” de Microsoft. extensión del protocolo de acceso a BB.DD. OLE DB. Implementa una extensión del SQL que trabaja con DMM( Data Mining Model) y permite: 1. Crear el modelo 2. Entrenar el modelo 3. Realizar predicciones 18 Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: CREACIÓN DEL MODELO (DMM): CREATE MINING MODEL CredikRisk ( [Customer ID] LONG KEY, Atributos de Entrada [Profession] TEXT DISCRETE, [Income] TEXT DISCRETE, [Age] LONG CONTINUOUS, [Risk Level] TEXT DISCRETE PREDICT, ) Atributo de Salida USING [Microsoft Decision Tree] Tipo de Modelo Esto crea un DMM vacío. 19 Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: ENTRENAR EL MODELO: Se usa una sentencia INSERT INTO. A diferencia de insertar datos como en una tabla normal lo que hace es analizar los casos que le introduzcamos y construir el contenido del DMM. Obtención de los datos de entrenamiento a través de una consulta SQL por OLE SQL INSERT INTO [CreditRisk] ( [CustomerID],[Profession],[Income],[Age],[RiskLevel] ) OPENROWSET('[Provider='MSOLESQL','user','pwd', 'SELECT [CustomerID],[Profession], [Income],[Age],[Risk] FROM [Customers]' ) Vista Minable 20 Lenguajes de Consulta Inductivos Propuesta “OLE DB for Data Mining”: Ejemplo: USAR EL MODELO: El modelo se aplica a nuevos datos. La manera de hacerlo es similar a la concatenación de dos tablas relacionales, considerando el modelo como una tabla y los datos a predecir como otra tabla. El resultado es una nueva tabla con los datos que queramos (todos o sólo las predicciones). SELECT [CustomerID],[Income],[Age], CreditRisk.RiskLevel, PredictProbability(CreditRisk.RiskLevel) FROM CreditRisk PREDICTION JOIN Customers ON CreditRisk.Profession=Customers.Profession AND CreditRisk.Income=Customers.Income AND CreditRisk.Age=Customers.Age 21 Lenguajes de consulta inductivos para Web Usage Mining También existen lenguajes de consulta para seleccionar patrones relativos a uso de páginas web: P.ej. En el sistema WUM (Web Utilization Miner) (Berendt & Spiliopoulou 2000), basado también en un grafo de secuencias de visitas, se puede utilizar el lenguaje MINT para hacer consultas del estilo: SELECT t FROM NODE AS a b, TEMPLATE a * b AS t WHERE a.support > 7 AND (b.support / a.support) >= 0.4 AND b.url != “G.html” Seleccionaría pares de páginas visitadas consecutivamente en la que la primera se ha visitado al menos 7 veces y de éstas, al menos el 40% han llegado a la segunda. Además la segunda no puede ser “G.html”. 22 Retos para la Minería de Datos • Escalabilidad: • esquemas de muestreo eficientes y suficientes. • procesamiento en memoria vs. en disco. • combinación de recursos entre tareas involucradas. • interfaces con los almacenes de datos. • uso de metadata para optimizar el acceso. • cuestiones cliente/servidor (dónde hacer el procesamiento). • aprovechamiento de paralelismo y de computación distribuida. 23 Retos para la Minería de Datos • Automatización: • Desarrollo de asistentes (wizards) y/o lenguajes de consulta: • para definir la tarea de minería, entradas, salidas, ... • seleccionar y utilizar el conocimiento previo. • Transformación de dimensionalidad. los datos y reducción de • Compromiso entre simplicidad y precisión de los modelos en pro de una mayor inteligibilidad. 24 Retos para la Minería de Datos • Otros Retos: • Tratamiento de datos cambiantes: necesidad de revisión y extensión de patrones (incrementalidad). • Minería de datos con tipos no-estándar (no numérico o no textual, p.ej. gráficos vectoriales, índices a ficheros, hiperenlaces), multimedia u orientados a objetos. 25 Tendencias • 80s y principios 90s: • OLAP y reporting: consultas predefinidas. El sistema OLAP como sistema para extraer informes, gráficas y confirmar hipótesis. Técnicas fundamentalmente estadísticas. • Se usa casi exclusivamente información interna a la organización. • Finales de los 90 • Data-Mining: descubrimiento de patrones. Técnicas de aprendizaje automático para generar patrones novedosos. • El Data-Warehouse incluye Información Interna fundamentalmente. • Principios de los 00 • Técnicas de “scoring” y simulación: descubrimiento y uso de modelos globales. Estimación a partir de variables de entrada de variables de salida (causa-efecto) utilizando simulación sobre el modelo aprendido. • El Data-Warehouse incluye Información Interna y Externa (parámetros de la economía, poblacionales, geográficos, etc.). 26 Software Gratuito Software Disponible: • Librerías Genéricas: • MLC++ en C++. (Kohavi et al. 1994) (http://www.sgi.com/Technology/mlc/) • WEKA en Java. (http://www.cs.waikato.ac.nz/ml/weka) Acompañado por el libro: “Data Mining: practical machine learning tools and techniques with Java implementations” Morgan Kaufmann • ML-Lisp en LISP (ftp://ftp.cs.utexas.edu/pub/mooney/ml-progs/) (http://mlwww.diee.unica.it/ML/gdl/mlsoftware.html) • Entorno DELVE: http://www.cs.utoronto.ca/~delve/index.html • Otros (data-mining): http://www.the-data-mine.com/bin/veiw/Software/WebIndex • Software Particular: • C4.5 (http://mlwww.diee.unica.it/ML/gdl/c4_5.html) • Progol (http://www-users.cs.york.ac.uk/~stephen/progol.html) • Golem (http://www-users.cs.york.ac.uk/~stephen/golem.html). • ILP systems (http://www-ai.ijs.si/~ilpnet2/systems/) • FLIP & SMILES (http://www.dsic.upv.es/~flip/) 27 Direcciones Recursos Generales: • KDcentral (www.kdcentral.com) • The Data Mine (http://www.the-data-mine.com) • Knowledge Discovery Mine (http://www.kdnuggets.com) Mailing list: • KDD-nuggets: moderada y con poco ruido: Para suscribirse, enviar un mensaje a “[email protected]” con “subscribe kdnuggets” en la primera línea del mensaje (el resto en blanco). Revistas: • Data Mining and Knowledge Discovery. (http://www.digimine.com/usama/datamine) • Intelligent Data Analysis (http://www.elsevier.com/locate/ida) Asociaciones: • ACM SIGKDD (y la revista “explorations”, http://www.acm.org/sigkdd/explorations/instructions.htm) 28 Más Direcciones Refrescadores de Estadística: • • http://cne.gmu.edu/modules/dau/stat/index.html http://www.statsoft.com/textbook/stathome.html Otras fuentes sobre DM: • CRISP - DM, un consorcio industrial. http://www.crisp-dm.org • DMG - The Data Mining Group, un consorcio mixto para crear estándares para intercambiar modelos predictivos. http://www.dmg.org/ • Kurt Thearling's site: libros, artículos, tutoriales. http://www3.shore.net/~kht/ 29 Redes de Investigación • RED MIDAS: Red Española de Minería de Datos y Aprendizaje Automático. Coordinador: José Riquelme, Universidad de Sevilla. • http://www.lsi.us.es/~riquelme • KDNET: Red de Excelencia Europea en “Knowledge Discovery” • http://www.kdnet.org 30 ... 31