Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Ernestina Menasalvas Facultad de Informática. Universidad Politécnica de Madrid [email protected] Fuentes Las transparencias han sido generadas usando las siguientes fuentes: • Data Mining Course by Gregory Piatetsky-Shapiro http://www.kdnuggets.com/dmcourse/index.html • Data Mining by Tan, Steinbach, Kumar • Jiawei Han and Micheline Kamber . Data Mining: Concepts and Techniques, • The Morgan Kaufmann Series in Data Management Systems, Jim Gray, Series Editor Morgan Kaufmann Publishers, August 2000. 550 pages. ISBN 155860-489-8 http://www.cs.sfu.ca/~han/DM_Book.html • ECML/PKDD2004. Pisa. Tutorial en Evaluación en Web Mining. M. Spiliopopu, B. Berendt, E. Menasalvas • Weka. http://www.cs.waikato.ac.nz/~ml/weka/ • Modeling the Internet and the Web. School of Information and Computer Science. University of California, Irvine AGENDA • Introducción • Tipos de tareas de data mining • Conceptos previos • Clasificación – Enfoques básicos – Enfoques avanzados • • • • • Evaluando resultados Segmentación Asociación El proceso de data mining: CRISP-DM Revisando el ciclo de un proyecto de data mining: – Requisitos, – preproceso Introduccion Trends leading to Data Flood [piatesky05] • More data is generated: – Bank, telecom, other business transactions ... – Scientific data: astronomy, biology, etc – Web, text, and ecommerce Data Growth Rate [piatesky05] • Twice as much information was created in 2002 as in 1999 (~30% growth rate) • Other growth rate estimates even higher • Very little data will ever be looked at by a human • Knowledge Discovery is NEEDED to make sense and use of data. Machine Learning / Data Mining Application areas [piatesky05] • Science – astronomy, bioinformatics, drug discovery, … • Business – advertising, CRM (Customer Relationship management), investments, manufacturing, sports/entertainment, telecom, e-Commerce, targeted marketing, health care, … • Web: – search engines, bots, … • Government – law enforcement, profiling tax cheaters, anti-terror(?) Why Mine Data? Commercial Viewpoint • Lots of data is being collected and warehoused – Web data, e-commerce – purchases at department/ grocery stores – Bank/Credit Card transactions • Computers have become cheaper and more powerful • Competitive Pressure is Strong – Provide better, customized services for an edge (e.g. in Customer Relationship Management) Why Mine Data? Scientific Viewpoint • Data collected and stored at enormous speeds (GB/hour) – remote sensors on a satellite – telescopes scanning the skies – microarrays generating gene expression data – scientific simulations generating terabytes of data • Traditional techniques infeasible for raw data • Data mining may help scientists – in classifying and segmenting data – in Hypothesis Formation “Necessity is the Mother of Invention” [piatesky05] • Data explosion problem – Automated data collection tools and mature database technology lead to tremendous amounts of data stored in databases, data warehouses and other information repositories • We are drowning in data, but starving for knowledge! • Solution: Data warehousing? and data mining – Data warehousing and on-line analytical processing – Extraction of interesting knowledge (rules, regularities, patterns, constraints) from data in large databases What is Data Mining? • Many Definitions – Non-trivial extraction of implicit, previously unknown and potentially useful information from data – Exploration & analysis, by automatic or semi-automatic means, of large quantities of data in order to discover meaningful patterns What is (not) Data Mining? What is not Data Mining? z – Look up phone number in phone directory – Query a Web search engine for information about “Amazon” z What is Data Mining? – Certain names are more prevalent in certain US locations (O’Brien, O’Rurke, O’Reilly… in Boston area) – Group together similar documents returned by search engine according to their context (e.g. Amazon rainforest, Amazon.com,) Data Mining for Customer Modeling [piatesky05] • Customer Tasks: – attrition prediction – targeted marketing: • cross-sell, customer acquisition – credit-risk – fraud detection • Industries – banking, telecom, retail sales, … ¿POR QUÉ? • Las empresas de todos los tamaños necesitan aprender de sus datos para crear una relación “one-to-one” con sus clientes. • Las empresas recogen datos de todos lo procesos. • Los datos recogidos se tienen que analizar, comprender y convertir en información con la que se pueda actuar y aquí es donde Data Mining juega su papel Data Mining proporciona la Inteligencia • El Data Warehouse proporciona los datos. • La inteligencia permitirá buscar en esos datos tratando de encontrar patrones, descubrir reglas, nuevas ideas que probar, y hacer predicciones acerca del futuro • Se estudiarán las técnicas y herramientas que añaden la “inteligencia” al datawarehouse para explotar los datos de los clientes y sacar el máximo rendimiento ¿Como nos ayudan? – – – – ¿Qué clientes permanecerán fieles? ¿Qué clientes están a punto de abandonar? ¿Dónde debemos localizar la próxima sucursal? ¿Qué productos se deben promocionar a qué prospectos? – ... • Las respuestas a estas preguntas están enterradas en los datos y se necesitan las técnicas de Data Mining para buscarlas Definición Intuitiva • Data Mining (en este contexto) en el análisis y exploración, por medios automáticos o semiautomáticos de grandes cantidades de datos para descubrir patrones significativos (útiles), y reglas. • La meta es permitir a la organización mejorar sus ventas, sus campañas de marketing, las operaciones de soporte a los clientes, a través de una mejor comprensión de sus clientes ¿Por qué ahora? • Las técnicas que se verán existían hace años pero la convergencia de los siguientes factores: – Cantidad de datos producida – Los datos están integrados (data warehouse) – La potencia de los ordenadores – Fuerte presión de la competencia – Software de data mining ha hecho que ahora se vuelva a hablar de ellas Data Mining • Two major objectives – Prediction – Knowledge discovery • Use 3 different techniques: – Data Bases – Statistics – Machine learning. So many thing? Typical problems • Forecasting – Classification – Regression – Temporal series What is the course focus ? • Knowledge discovery – Bias detection – Data base segmentation – Clustering – Association rules – Reporting – Visualisation – Text Search Related Fields Machine Learning Visualization Data Mining and Knowledge Discovery Statistics Databases Data Mining un proceso Knowledge Discovery Definition Knowledge Discovery in Data is the non-trivial process of identifying – – – – valid novel potentially useful and ultimately understandable patterns in data. from Advances in Knowledge Discovery and Data Mining, Fayyad, Piatetsky-Shapiro, Smyth, and Uthurusamy, (Chapter 1), AAAI/MIT Press 1996 Análisis de la definición: Data? • Colección de objetos y sus atributos • An attribute is a property or characteristic of an object Attributes Tid – Examples: eye color of a person, temperature, etc. – Attribute is also known as variable, field, characteristic, or feature Objects • A collection of attributes describe an object – Object is also known as record, point, case, sample, entity, or instance 10 Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes KDD: análisis de la definición Proceso no trivial de identificación de patrones – validos – novedosos – potentialmente útiles – Y finalmente comprensibles en los datos. • Patrón: cualquier definición de alto nivel de los datos El Proceso de KDD INTERPRETACIÓN Y EVALUACIÓN DATA MINING Conocimiento Modelos CODIFICACIÓN Datos Transformados LIMPIEZA Datos Procesados SELECCIÓN Datos objetivo Datos El ciclo de data mining Identificar un problema Medir los resultados Usar data mining para transformar los datos en información Actuar basándonos en la información Importante • La promesa de Data Mining es encontrar los patrones • Simplemente el hallazgo de los patrones no es suficiente • Debemos ser capaces de entender los patrones, responder a ellos, actuar sobre ellos, para finalmente convertir los datos en información, la información en acción y la acción en valor para la empresa Data Mining resumen • Data Mining es un proceso que se tiene que centrar en las acciones derivadas del descubrimiento de conocimiento no en el mecanismo de descubrimiento en si mismo. • Aunque los algoritmos son importantes, la solución es más que un conjunto de técnicas y herramientas. • Las técnicas se tienen que aplicar en el caso correcto a los datos correctos References • • • • • • • • • • U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. Fayyad, Piatetsky-Shapiro, Smyth, "From Data Mining to Knowledge Discovery: An Overview", in Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press / The MIT Press, Menlo Park, CA, 1996, pp.1-34 J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. T. Imielinski and H. Mannila. A database perspective on knowledge discovery. Communications of ACM, 39:58-64, 1996. G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery: An overview. In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press, 1996. G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991. http://www.cs.sfu.ca/~han Michael J. A. Berry, Gordon Linoff, Data Mining Techniques, 1997, John Wiley Pieter Adriaans, Dolf Zantinge, Data Mining, 1996, Addison-Wesley Zhengxin Chen, Data Mining and Uncertain Reasoning, 2001, John Wiley & Son