Download Extracção de Conhecimento em Bases de Dados

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Mineração de Dados
(Mestrado de Informática)
UCE – Sistema de Suporte à Decisão
Paulo J Azevedo
Departamento de Informática
([email protected])
Sistemas de informação cada vez mais sofisticados,
envolvendo elevadas quantidades de dados, motivam o
desenvolvimento de técnicas de Análise Exploratória de
Dados para apoio à Decisão
Mineração de Dados - Apresentação
1
Extracção de “conhecimento”
(relações não triviais entre os dados)
em bases de dados
•
Uma possível definição (KDD): é a tarefa de desenvolver algoritmos (processos)
para extrair estrutura dos dados. Esta estrutura pode ser descrita na sob a forma de
padrões estatísticos, modelos ou mesmo relações. Encontrar esta estrutura pode ser
visto como um processo de redução que permite uma sumarização dos dados.
•
Preparação e recolha dos dados (via Warehousing)
•
Data Mining (extracção das relações “escondidas” entre os dados recolhidos)
•
Pós-processamento e análise dos resultados
•
Visualização
2
Mineração de Dados - Apresentação
Perguntas representativas dos problemas a tratar:
•
•
•
•
Mostrar as transacções que indiciam fraude ?
Quais os indivíduos que tem tendência a comprar o produto X ?
Quais os acessos ao servidor Y que tinham o intuito de “ataque” ?
A que clientes (ou tipo de clientes) deveremos enviar o catálogo de
Natal ?
• Quais os grupos que melhor caracterizam os nosso clientes ?
• Como organizar (e apresentar ao utilizador) o resultado de uma
pesquisa muito genérica no Google ?
• Considerando o historial de concessão de crédito da nossa
instituição deverá ser considerada a proposta Z ?
• Sabendo o conjunto de páginas visitados, que tipo de produto
consultará o utilizador no resto da sua sessão ?
• Que padrões de aminoácidos, de elevado “interesse” biológico, se
pode encontrar numa dada família de proteínas ?
• Como se comporta um dado conjunto de aminoácidos ao longo do
tempo (i.e. ao longo de um determinado processo sofrido pela
proteína)?
Mineração de Dados - Apresentação
3
Case Study (1)
• Web sites Adaptativos
– Amazon: site sugere novos interesses com base nas compras
efectuadas.
– Challange Netflix: http://www.netflixprize.com
• Email Spam filtering,
• Códigos Postais,
– Handwriting recognition.
• Crédito à Habitação
– Apoio à decisão na atribuição de crédito baseando no historial
da instituição.
4
Mineração de Dados - Apresentação
Case Study (2)
• DARPA challenge http://www.darpa.mil/grandchallenge/index.asp
– Conduzir um veiculo autónomo no deserto durante cerca de 200
km.
• Detecção de fraude nas chamadas de telefones móveis
• Detecção de “churning”http://www.kdnuggets.com/news/2009/n05/4i.html
(propensão para os clientes de uma empresa de comunicações/cartões de
crédito/etc mudar de fornecedor)
• MicroArrays
http://www.en.wikipedia.org/wiki/DNA_microarray
– Análise de expressão de DNA (matriz de genes x amostras
“situações”)
5
Mineração de Dados - Apresentação
A Estrutura extraída dos dados pode
ter a forma de:
• Padrões sequenciais,
• Motifs
• Modelos de Previsão (árvores de decisão, redes neuronais,
regras de decisão, etc),
• Agrupamentos (clustering)/ Segmentação,
• Regras de Associação.
• Dependências entre dados (dependências funcionais,
multivalor, etc)
6
Mineração de Dados - Apresentação
O processo KDD
Data Mining
Transformação
Interpretação
DATA
(reavaliação)
Pré-processamento
Selecção
Visualização
7
Mineração de Dados - Apresentação
Algumas ferramentas usadas
durante o curso:
•
•
•
•
•
•
•
C4.5
R
Cubist
Caren
Weka
Microsoft SQL Server
Outras…
8
Mineração de Dados - Apresentação
Principais temas a estudar…
• Modelos de Previsão: árvores de decisão,
classificação, previsão numérica, simplificação de
modelos, avaliação, composição de modelos, etc.
• Regras de Associação: algoritmos, medidas de
interesse, pruning, tratamento de numéricos, aplicações,
etc.
• Clustering: algoritmos, medidas de similaridade,
tipos de clustering, etc.
• Revisão de significância estatística
9
Mineração de Dados - Apresentação
Avaliação
• Proposta:
– Teste Teórico
– Projectos Prático :
• Exercícios semanais
• Projecto final com apresentação em grupo.
– Nota = 0.5 x projecto + 0.5 x teste ?????
10
Mineração de Dados - Apresentação
Biblio
• Data Mining (Pratical Machine Learning tools
and Techniques),
Ian Witten & Eibe Frank,
Morgan Kaufmann Publishers. (WEKA book)
• Data Mining, Concepts and Techniques,
Jiawei Han & Micheline Kamber,
Morgan Kaufmann Publishers.
• Apontamentos das aulas
Mineração de Dados - Apresentação
11