Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Novos desafios em estudos de mercado: Knowledge Discovery e Data Mining 7º Congresso da APODEMO Novembro de 2000 O sistema de informação de marketing Managers 7º Congresso da APODEMO Novembro de 2000 Marketing environment Sistema de suporte à decisão Actividades diárias Interacção on-line Sistema Operacional Dados Recentes 7º Congresso da APODEMO Novembro de 2000 Query & Reporting Dados recolhidos ao longo do tempo OLAP Data Warehouse Dados históricos Data Mining Dos dados ao conhecimento We are drowning in information, but starving for knowledge John Naisbett A definição de descoberta de conhecimento em bases de dados (KDD); A evolução ao longo do tempo nesta área: Conhecimento Knowledge Access Data Mining OLAP/ROLAP Query & Data Warehousing Dados 7º Congresso da APODEMO Novembro de 2000 Statistics & Reporting 1970 1980 1990 2000 Data Mining? A definição tradicional da estatística A definição no contexto de KDD: Data Mining is a process that uses a variety of data analysis tools to discover patterns and relationships in data that may be used to make valid and accurate predictions. Two Crows Corporation 7º Congresso da APODEMO Novembro de 2000 O processo de Data Mining – Cross Industry Standard Process for Data Mining (CRISP-DM) Processo standard da indústria (SPSS, Daimler-Chrysler e NCR) Composto pelas seguintes fases: Business Understanding 7º Congresso da APODEMO Novembro de 2000 Data Understanding Data Preparation Modeling Evaluation Deployment Problemas e técnicas utilizadas em Data Mining Segmentação de clientes Aquisição e retenção de clientes Detecção de fraude Controlo de qualidade Concessão de crédito Regressão Classificação Descrição Regressão linear Regressão logística Redes neuronais Árvores de decisão Técnicas de clustering 7º Congresso da APODEMO Novembro de 2000 Redes Neuronais É uma forma simplista de simular o funcionamento do cérebro humano; Todos os neurónios duma camada estão ligados a todos os outros das camadas seguintes e a cada ligação é atribuído um peso; Input layer – variáveis utilizadas para fazer previsões/classificações; Hidden layer – combinações dos neurónios de input; Output layer – Variável que queremos prever ou classificar (dados contínuos ou categóricos) Dois modelos de redes neuronais: MLP (Multi-Layer Perceptron) RBF (Radial Basis Function) 7º Congresso da APODEMO Novembro de 2000 Árvores de decisão As árvores de decisão têm uma interpretação mais simples pois representam regras Além da previsão e classificação, podem ser utilizadas para interpretar resultados de outros modelos Em cada nodo a pergunta é sempre: “Qual o teste que melhor discrimina entre as categorias da variável objectivo” Não são necessariamente binárias Vantagens sobre os modelos estatísticos tradicionais Os modelos de árvores de decisão: CHAID CART C 5.0 7º Congresso da APODEMO Novembro de 2000 Data Mining e os estudos de mercado Podem as aplicações de data mining substituir as metodologias tradicionais dos EM para responder aos problemas? Em que situações as duas metodologias são complementares? Exemplo: Retenção de clientes (assinaturas, apólices de seguro, contas bancárias, etc) 7º Congresso da APODEMO Novembro de 2000 Data Mining e os estudos de mercado Retenção de clientes É sabido que, em geral, o custo de aquisição de novos clientes é superior à manutenção dos actuais Quais os clientes que vão para a concorrência? Quais os clientes que não me interessa conservar? O que posso fazer para conservar os clientes que me interessam? 7º Congresso da APODEMO Novembro de 2000 Data Mining e os estudos de mercado Retenção de clientes Focus groups de ex-clientes por forma a: Determinar causas relevantes – informação qualitativa; Identificar possíveis variáveis não disponíveis para o passo seguinte; Recolher dados via call-center; Pós-validar os resultados obtidos através do processo de data mining; 7º Congresso da APODEMO Novembro de 2000 Data Mining e os estudos de mercado Retenção de clientes Segmentar a base de dados através de técnicas de clustering; Centralizar a atenção nos clusters relevantes quer em termos de rentabilidade quer em termos de validação de variáveis; Prever, utilizando as técnicas mencionadas (redes neuronais, etc), quais os clientes que provavelmente irão sair e quais as variáveis mais significativas. 7º Congresso da APODEMO Novembro de 2000 Tópicos adicionais Utilização de técnicas de data mining para substituição de missing values; Web Mining – as ferramentas de data mining podem ser um poderoso auxiliar do e-business: Segmentação dos consumidores on-line; Associações entre as diversas páginas; Personalização de conteúdos (exemplo: publicidade) 7º Congresso da APODEMO Novembro de 2000 Bibliografia Berry, M. J. e Linoff, G.: Data Mining Techniques (1997), John Wiley & Sons Bishop, C. M.: Neural Networks for Pattern Recognition (1995), Oxford University Press. Fayyad, U. M., Shapiro, G. P., Smyth P. E. e Uthurusamy R.: Advances in Knowledge Discovery and Data Mining (1996), AAAI Press/The MIT Press. Quinlan, J. R.: C4.5 – Programs for Machine Learning (1993), Morgan Kaufmann Publishers. Internet www.sas.com 7º Congresso da APODEMO Novembro de 2000 www.spss.com www.kdnuggets.com www.crisp-dm.org