Download 5. Software para Mineração de Dados

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
DATA MINING: Conceitos e Principais Técnicas
Seminário da disciplina IN940 - Banco de Dados
Estudante: João Sedraz
Professores: Ana Carolina | Fernando Fonseca
CIn.ufpe.br
Agenda
1. Introdução
1.1. Origens da Mineração de Dados
1.2. Aplicações
2. Conceitos Básicos
2.1. Descoberta de conhecimento em Banco de Dados
2.2. Tarefas da
Mineração de Dados
3. Principais Técnicas
4. Mineração de dados complexos
5. Software para Mineração de Dados
5.1. Demonstração do Weka
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
2
1. Introdução
1.1. Origens da Mineração de Dados
Anos 80
– Evolução dos BDs permitia armazenar grandes volumes de dados.
– Organizações "ricas em dados" e "pobre em informação“.
– Extrair novas informações não era trivial.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
3
1. Introdução
1.1. Origens da Mineração de Dados
Anos 80
– Evolução dos BDs permitia armazenar grandes volumes de dados.
– Organizações "ricas em dados" e "pobre em informação“.
– Extrair novas informações não era trivial.
Anos 90
– Primeiras aplicações de Mineração de Dados.
– Descobertas de novas informações em termos de
padrões a partir de grande volumes de dados.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
4
1. Introdução
1.1. Origens da Mineração de Dados
Anos 80
– Evolução dos BDs permitia armazenar grandes volumes de dados.
– Organizações "ricas em dados" e "pobre em informação“.
– Extrair novas informações não era trivial.
Anos 90
– Primeiras aplicações de Mineração de Dados.
– Descobertas de novas informações em termos de
padrões a partir de grande volumes de dados.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
5
1. Introdução
1.2. Aplicações
– Marketing: Identificação de desejos/necessidades dos clientes.
– Finanças: Análise de crédito e detecção de fraudes.
– Manufatura: Apoio em projetos para a otimização de recursos.
– Saúde: Indicação de diagnósticos.
– Segurança: Detecção de atividades terroristas e criminais.
– Educação: Adequação dos percursos de ensino e aprendizagem.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
6
1. Introdução
1.2. Aplicações
– Marketing: Identificação de desejos/necessidades dos clientes.
– Finanças: Análise de crédito e detecção de fraudes.
– Manufatura: Apoio em projetos para a otimização de recursos.
– Saúde: Indicação de diagnósticos.
– Segurança: Detecção de atividades terroristas e criminais.
– Educação: Adequação dos percursos de ensino e aprendizagem.
Mas, as organizações também podem usar a mineração de dados
para invadir a privacidade e manipular comportamento dos
clientes.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
7
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
O KDD é um processo de descoberta do conhecimento
a partir de grandes volumes de dados que envolve cinco etapas:
– Seleção;
– Pré-Processamento;
– Transformação;
– Mineração de Dados;
– Avaliação.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
8
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
Seleção: Escolha do conjunto de dados do qual se deseja extrair um novo conhecimento.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
9
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
Pré-Processamento: Eliminação dados inconsistentes e integração com outras fontes de
dados.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
10
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
Transformação: Organização dos dados num formato apropriado para a aplicação de
algoritmos de mineração.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
11
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
Mineração de Dados: Aplicação de técnicas específicas para extração de padrões.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
12
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
Avaliação: Identificação de padrões relevantes para o usuário.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
13
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
Avaliação: Identificação de padrões relevantes para o usuário.
Processo
Cíclico
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
14
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
Mineração de Dados: É uma etapa de análise dos dados e aplicação de
algoritmos de descoberta, que produzem um conjunto de regras ou padrões.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
15
2. Conceitos
2.1. Descoberta de conhecimento em Banco de Dados
(Knowledge Discovery in Databases – KDD)
Mineração de Dados: É uma etapa de análise dos dados e aplicação de
algoritmos de descoberta, que produzem um conjunto de regras ou padrões.
Banco de Dados
Estatística
Aprendizado de
Máquina
Principais áreas envolvidas
Abordagem Multidisciplinar
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
16
2. Conceitos
2.2. Tarefas da Mineração de Dados
Tarefa x Técnica
– Tarefa: Determina o tipo de problema que será resolvido pelo processo de
mineração de dados.
– Técnica: Representa o algoritmo que pode ser empregados para a execução da
mineração de dados.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
17
2. Conceitos
2.2. Tarefas da Mineração de Dados (tarefas mais comuns)
– Análise de Regras de Associação: Identifica combinações de itens ou valores
de atributos que ocorrem com frequência significativa em uma base de dados.
(Ex: Fraldas => Cerveja, sistemas de recomendação, antivírus)
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
18
2. Conceitos
2.2. Tarefas da Mineração de Dados (tarefas mais comuns)
–
Análise de Regras de Associação: Identifica combinações de
itens ou valores de atributos que ocorrem com frequência
significativa em uma base de dados.
– Análise de Padrões Sequenciais: Semelhante a associação, mas
leva em consideração a ordem ou data de ocorrência dos dados.
(Ex: estudos de DNA, análise da sequência de cliques em um site)
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
19
2. Conceitos
2.2. Tarefas da Mineração de Dados (tarefas mais comuns)
–
Análise de Regras de Associação: Identifica combinações de
itens ou valores de atributos que ocorrem com frequência
significativa em uma base de dados.
–
Análise de Padrões Sequenciais: Semelhante a associação, mas
leva em consideração a ordem ou data de ocorrência dos dados.
– Classificação: Descobre classes em um conjunto de registros
fornecidos, descritos por variáveis predefinidas, que permitem
prever a classificação de um novo registro.
(Ex: análise de crédito, seguros de veículos)
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
20
2. Conceitos
2.2. Tarefas da Mineração de Dados (tarefas mais comuns)
–
Análise de Regras de Associação: Identifica combinações de
itens ou valores de atributos que ocorrem com frequência
significativa em uma base de dados.
–
Análise de Padrões Sequenciais: Semelhante a associação, mas
leva em consideração a ordem ou data de ocorrência dos dados.
–
Classificação: Descobre classes em um conjunto de registros
fornecidos, descritos por variáveis predefinidas, que permitem
prever a classificação de um novo registro.
– Agrupamento (análise de clusters): Divide um conjunto de dados
em grupos de acordo com algum de tipo de similaridade.
(Ex: grupo de pacientes com reação a uma medicação A ou B).
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
21
3. Principais Técnicas
Tarefa
Técnicas
Análise de Regras de Associação
Apriori, FP-Growth, DCI, ECLAT, Closet.
Análise de Padrões Sequenciais
GSP, PrefixSpan, BLAST.
Classificação
Árvores de Decisão, Regressão, Redes Neurais,
Neurais, Algoritmos Genéticos, SVM, k-Nearest,
Agrupamento
k-médias, Métodos Hierárquicos.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
22
3. Principais Técnicas
Técnica Apriori
– Entrada: Banco de dados com m transações e um suporte mínimo.
– Saída: Itemsets frequente, L1, L2, ..., Lk.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
23
3. Principais Técnicas
Técnica Apriori
– Entrada: Banco de dados com m transações e um suporte mínimo.
– Saída: Itemsets frequente, L1, L2, ..., Lk.
Ex:
Id_Transação
Hora
100
6:35
Leite, pão, biscoito, suco
101
7:38
Leite, suco
102
8:05
Leite, ovos
104
8:40
Pão, biscoito, café
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
Itens _Comprados
CIn.ufpe.br
Recife/PE – Junho 2015
24
3. Principais Técnicas
Técnica Apriori
– Entrada: Banco de dados com m transações e um suporte mínimo.
– Saída: Itemsets frequente, L1, L2, ..., Lk.
Ex:
Id_Transação
Hora
Itens _Comprados
100
6:35
Leite, pão, biscoito, suco
101
7:38
Leite, suco
102
8:05
Leite, ovos
104
8:40
Pão, biscoito, café
Para um suporte de 50%, temos:
L1 = {{leite}, {pão}, {suco}, {biscoito}}
L2 = {{leite, suco}, {pão, biscoito}}
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
25
3. Principais Técnicas
Árvore de Decisão
– Entrada: Banco de dados, com atributos preditivos e atributo alvo.
– Saída: classificação do atributo alvo em função dos preditivos.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
26
3. Principais Técnicas
Árvore de Decisão
– Entrada: Banco de dados, com atributos preditivos e atributo alvo.
– Saída: classificação do atributo alvo em função dos preditivos.
Ex: Banco de dados de uma locadora.
Id
Idade
Renda
Carro
1
>40
> 8k
Importado
2
18 – 40
0-8k
Nacional
3
>40
0-8k
Nacional
4
18 – 40
> 8k
Nacional
5
18 – 40
0-8k
Nacional
6
18 – 40
0-8k
Nacional
7
18 – 40
0-8k
Nacional
8
>40
> 8k
Importado
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
27
3. Principais Técnicas
Árvore de Decisão
– Entrada: Banco de dados, com atributos preditivos e atributo alvo.
– Saída: classificação do atributo alvo em função dos preditivos.
Ex: Banco de dados de uma locadora.
Id
Idade
Renda
Carro
1
>40
> 8k
Importado
2
18 – 40
0-8k
Nacional
3
>40
0-8k
Nacional
4
18 – 40
> 8k
Nacional
5
18 – 40
0-8k
Nacional
6
18 – 40
0-8k
Nacional
7
18 – 40
0-8k
Nacional
8
>40
> 8k
Importado
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
28
3. Principais Técnicas
k-médias
– Entrada: Banco de dados e um número de k de clusters.
– Saída: Clusters de dados de menor distância Euclidiana.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
29
3. Principais Técnicas
k-médias
– Entrada: Banco de dados e um número de k de clusters.
– Saída: Clusters de dados de menor distância Euclidiana.
Cálculo da distância Euclidiana entre registros de duas dimensões.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
30
3. Principais Técnicas
k-médias
– Entrada: Banco de dados e um número de k de clusters.
– Saída: Clusters de dados de menor distância Euclidiana.
Ex: Registro de duas dimensões (Id não é considerado).
Id
Idade
Anos_de_servico
1
30
5
2
50
25
3
50
15
4
25
5
5
30
10
6
55
25
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
31
3. Principais Técnicas
k-médias
– Entrada: Banco de dados e um número de k de clusters.
– Saída: Clusters de dados de menor distância Euclidiana.
Ex: Registro de duas dimensões (Id não é considerado).
Id
Idade
Anos_de_servico
1
30
5
2
50
25
3
50
15
4
25
5
5
30
10
6
55
25
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
32
4. Mineração de Estruturas Complexas
Inicialmente: mineração em repositórios estruturado de dados.
Atualmente: mineração de dados representados em diversos formatos.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
33
4. Mineração de Estruturas Complexas
Inicialmente: mineração em repositórios estruturado de dados.
Atualmente: mineração de dados representados em diversos formatos.
– Mineração de Dados Espaciais (Ex: mapas)
– Mineração de Grafos (Ex: redes biológicas, redes sociais)
– Mineração de dados Multimídia (Ex: imagens, vídeos, áudios)
– Mineração de dados não estruturados (Ex: textos, e-mail, artigos)
– Mineração de objetos (Ex: mineração em SGBDOO)
– Mineração da Internet (Ex: link, padrões de acesso)
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
34
5. Software para Mineração de Dados
Proprietários
Intelligent Miner (IBM), Enterprise Miner (SAS), Clementine (SPSS).
Livres
Weka, RapidMiner, R.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
35
5. Software para Mineração de Dados
Proprietários
Intelligent Miner (IBM), Enterprise Miner (SAS), Clementine (SPSS).
Livres
Weka, RapidMiner, R.
O mais utilizado para Mineração de Dados Educacionais
no contexto brasileiro
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
36
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Licença: GPL
Ponto forte: Principalmente classificação, mas também é capaz
de minerar regras de associação e clusters de dados.
Desenvolvedores: Pesquisadores da Univ. de Waikato, Nova Zelândia.
Download: http://www.cs.waikato.ac.nz/ml/weka/downloading.html
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
37
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
38
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Cabeçalho
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
39
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Declaração da
Relação
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
Cabeçalho
CIn.ufpe.br
Recife/PE – Junho 2015
40
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Declaração da
Relação
Cabeçalho
Atributos
Preditivos
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
41
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Declaração da
Relação
Cabeçalho
Atributos
Preditivos
Atributo alvo
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
42
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Lista das
instâncias
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
43
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Passo 1: Acessar o Weka Explorer (a) e clicar em Open (b) para abrir o
arquivo .arff a ser analisado.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
44
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Passo 2: Selecionar a aba “Classify” (a),escolher (b) o modelo
“trees -> J48”, marca “Use training set” (c) e clica em “Start” (d).
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
45
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
Exemplo: Banco de dados de uma locadora (formato .arff)
Saída da classificação
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
46
5. Software para Mineração de Dados
2.2. Demonstração do WEKA
O software possui dezenas de algoritmos implementados,
que permitem fazer associação, agrupamento e classificação.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
47
Referências
BERRY, Michael JA; LINOFF, Gordon. Data Mining Techniques For marketing, Sales and Customer Support. John Willey &
Sons. Inc., 1997, 454 P, 1996.
CAMILO, Cássio Oliveira; SILVA, João Carlos da. Mineração de dados: Conceitos, tarefas, métodos e ferramentas. Goiânia:
Universidade Federal de Goiás, 2009.
CHEN, Ming-Syan; HAN, Jiawei; YU, Philip S. Data mining: an overview from a database perspective. Knowledge and data
Engineering, IEEE Transactions on, v. 8, n. 6, p. 866-883, 1996.
DE AMO, Sandra. Técnicas de mineração de dados. Jornada de Atualizaçao em Informatica, 2004.
ELMASRI, R; NAVATHE, S.; DE OLIVEIRA MORAIS, R. Sistemas de banco de dados. 2011.
FAYYAD, Usama; PIATETSKY-SHAPIRO, Gregory; SMYTH, Padhraic. From data mining to knowledge discovery in
databases. AI magazine, v. 17, n. 3, p. 37, 1996.
GALVÃO, Noemi Dreyer; MARIN, Heimar de Fátima. Técnica de mineração de dados: uma revisão da literatura. Acta
Paulista de Enfermagem, v. 22, n. 5, p. 686-690, 2009.
GONÇALVES, Eduardo Corrêa. Data Mining com a ferramenta Weka. Fórum de Software Livre de Duque de Caxias–2011.
RODRIGUES, R. et al. A literatura brasileira sobre mineração de dados educacionais. In: Anais do CBIE. 2014.
SANTOS, R. “Weka: um Guia para Uso do Weka em Scripts e Integração com Aplicações Java”. Instituto Nacional de
Pesquisas Espaciais (INPE), 2005.
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
48
Dúvidas e sugestões?
Data Mining: Conceitos e Principais Técnicas
Disciplina IN0940 – Banco de Dados
CIn.ufpe.br
Recife/PE – Junho 2015
49