Download Data Mining - WordPress.com

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
TÓPICOS DE I.A.
DATA MINING – MINERAÇÃO DE DADOS
Prof. Régis Albuquerque
DATA MINING – MINERAÇÃO DE
DADOS
INTRODUÇÃO
A evolução da computação possibilitou um
aumento na capacidade de processamento e
armazenamento de dados.
 Diante da deficiência para analisar e
compreender grande volume de dados. Diversos
estudos têm sido direcionados ao
desenvolvimento de tecnologias de extração
automática de conhecimento de Bases de Dados.
 Extração de Conhecimento de Base de Dados
(Knowledge Discovery in Database - KDD)
 Mineração de Dados (MD).

2
DATA MINING – MINERAÇÃO DE
DADOS
INTRODUÇÃO
Segundo Figueira(1998), “a tecnlogia tornou
relativamente fácil o acúmulo de dados. A
consequência é a apliação do uso dos Data
Warehouses. Ao mesmo tempo, a informação é
valorizada como nunca antes na história, e os
dados armazenados nos Data Warehouses são
vasculhados por profissionais especializados, a
procura de tendências e padrões”.
Data Warehouse: Um datawarehouse é um
conjunto de dados orientado por assunto,
integrado, variável com o tempo, e não-volátil,
que fornece suporte ao processo de tomada
de decisão do negócio.
3
DATA MINING – MINERAÇÃO DE
DADOS
INTRODUÇÃO
Grande disponibilidade de dados armazenados
eletronicamente
 Existem informações úteis, invisíveis, nesses
grandes volumes de dados
 Aproveitar para prever um conhecimento futuro
(ir além do armazenamento explícito de dados).

4
DATA MINING – MINERAÇÃO DE
DADOS
DEFINIÇÃO
Segundo Groth (1998), Data Mining é o processo
de descoberta automático de informações.
 Para Ávila (1998), Data Mining é uma área de
pesquisa da Inteligência Artificial que busca
encontrar padrões em bases de dados.
Geralmente, considerado como um dos passos no
processo de KDD – Knowledge Discovery
Database (Descobrimento de Conhecimento em
Bases de Dados.
 Data Mining é uma tecnologia usada para revelar
informação estratégica escondida em grandes
massas de dados (KREMER, 1999).

5
DATA MINING – MINERAÇÃO DE
DADOS
6
DATA MINING – MINERAÇÃO DE
DADOS
POR QUÊ DATAMINING?
Grandes quantidades de dados (bases de
dados)
 Conhecimento dos mercados / clientes


Sectores muito dependentes da informação




Produtividade
Personalização em massa


Forte pressão competitiva
Vantagem económica
Respostas mais rápidas


banca, seguros, telecomunicações, retalho
Promoção directa em função das compras
Automação de tarefas /Apoio à decisão

Detecção de fraude
7
DATA MINING – MINERAÇÃO DE
DADOS
EVOLUÇÃO
Evolução
Perguntas
Tecnologia disponível
Características
Coleção de
dados
1960
“Qual foi meu
rendimento total nos
últimos cinco anos ?”
Computadores, Fitas,
discos
Retrospectiva,
Dados estáticos
como resposta
Acessos aos
dados
1980
“Qual foi meu
rendimento no Brasil no
último janeiro ?”
RDBMS,
SQL,
ODBC
Restropectiva,
dados dinâmicos a
nível de registos
como resposta
Data
warehousing
& suporte a
decisão
1990
“Qual foi meu
rendimento no Brasil no
último janeiro? Do sul
até o nordeste
Processamento analítico
on-line, banco de dados
multidimencionais, data
warehousing
Retrospectiva,
dados dinâmicos
em múltiplos níveis
como resposta
Data Mining
Atualmente
“Porque alguns produtos
são mais vendidos na
região sul ?”
Algoritmos avançados,
computadores
multiprocessados, B.D.
grandes e poderosos
Prospectivo,
Informações
(perspectivas)
como resposta. 8
DATA MINING – MINERAÇÃO DE
DADOS
EXEMPLO
Fabricante Estado Cidade Cor do Produto
Smith
CA Los Angeles
Azul
Smith
AZ
Flagstaff
Verde
Adams
NY
NYC
Azul
Adams
AZ
Flagstaff
Vermelho
Johnson
NY
NYC
Verde
Johnson
CA Los Angeles
Vermelho
Produtos azuis são de alto lucro
ou
Arizona é um lucro baixo?
Lucro
Alto
Baixo
Alto
Baixo
Médio
Médio
9
DATA MINING – MINERAÇÃO DE
DADOS
EXEMPLO
Fabricante Estado Cidade Cor do Produto
Smith
Smith
Adams
Adams
Johnson
Johnson
CA
AZ
NY
AZ
NY
CA
Los Angeles
Flagstaff
NYC
Flagstaff
NYC
Los Angeles
Azul
Verde
Azul
Vermelho
Verde
Vermelho
Lucro
Alto
Baixo
Alto
Baixo
Médio
Médio
10
DATA MINING – MINERAÇÃO DE
DADOS
OBJETIVO
O processo de Extração de Conhecimento de Base
de Dados tem o objetivo de encontrar
conhecimento a partir de um conjunto de dados
para ser utilizado em um processo decisório.
 Um requisito importante é que esse
conhecimento descoberto seja compreensível a
humanos, além de útil e interessante para os
usuários finais do processo.
 Procura de padrões úteis em grandes
quantidades de dados

padrão: motivo que se repete com alguma frequência
 útil: o padrão deve servir para resolver um problema

11
DATA MINING – MINERAÇÃO DE
DADOS
OBJETIVO
12
DATA MINING – MINERAÇÃO DE
DADOS
CONCEITOS RELACIONADOS
Dados
 Padrões
 Processo
 Válidos
 Novos
 Úteis
 Compreensíveis
 Conhecimento

A união desses conceitos define o processo de
Mineração de Dados.
13
DATA MINING – MINERAÇÃO DE
DADOS
CONCEITOS RELACIONADOS - DADOS

Conjunto de fatos ou casos em um repositório de
dados. Por exemplo, os dados correspondem aos
valores dos campos de um registro de vendas em
uma Base de dados qualquer;
Fabricante Estado Cidade Cor do Produto
Smith
CA Los Angeles
Azul
Smith
AZ
Flagstaff
Verde
Adams
NY
NYC
Azul
Adams
AZ
Flagstaff
Vermelho
Johnson
NY
NYC
Verde
Johnson
CA Los Angeles
Vermelho
Lucro
Alto
Baixo
Alto
Baixo
Médio
Médio
14
DATA MINING – MINERAÇÃO DE
DADOS
CONCEITOS RELACIONADOS - PADRÕES
Denota alguma abstração de um subconjunto dos
dados em alguma linguagem descritiva de
conceitos;
 Padrões são unidades de informação que se
repetem.
 A tarefa de localizar padrões não é privilégio da
mineração de dados. O cérebro dos seres
humanos utiliza-se de processos similares, pois
muito do conhecimento que temos em nossa
mente é, de certa forma, um processo que
depende da localização de padrões

15
EX: ABCXYABCZKABDKCABCTUABEWLABCWO
DATA MINING – MINERAÇÃO DE
DADOS
CONCEITOS RELACIONADOS - PROCESSO

A Extração de Conhecimento de Base de Dados
envolve diversas etapas como a preparação dos
dados, busca por padrões e avaliação do
conhecimento;
16
DATA MINING – MINERAÇÃO DE
DADOS
CONCEITOS RELACIONADOS - VÁLIDOS

Os padrões descobertos devem possuir algum
grau de certeza,ou seja, devem satisfazer funções
ou limiares que garantem que os exemplos
cobertos e os casos relacionados ao padrão
encontrado sejam aceitáveis;
17
DATA MINING – MINERAÇÃO DE
DADOS
CONCEITOS RELACIONADOS - NOVOS

Um padrão encontrado deve fornecer novas
informações sobre os dados. O grau de novidade
serve para determinar quão novo ou inédito é um
padrão. Pode ser medido por meio de
comparações entre as mudanças ocorridas nos
dados ou no conhecimento anterior;
18
DATA MINING – MINERAÇÃO DE
DADOS
CONCEITOS RELACIONADOS - ÚTEIS

Os padrões descobertos devem ser incorporados
para serem utilizados
19
DATA MINING – MINERAÇÃO DE DADOS
CONCEITOS RELACIONADOS - COMPREENSÍVEIS

Um dos objetivos de realizar MD é encontrar
padrões descritos em alguma linguagem que pode
ser compreendida pelos usuários permitindo uma
análise mais profunda dos dados;
20
DADOS
CONCEITOS RELACIONADOS
CONHECIMENTO

-
O conhecimento é definido em termos
dependentes do dominio que estão relacionados
fortemente com medidas de utilildade,
originalidade e compreensão
21
DATA MINING – MINERAÇÃO DE DADOS
O PROCESSO DE MINERAÇÃO DE DADOS
Todo o processo de Mineração de Dados é
orientado em função de seu conhecimento de
aplicação e dos reposotórios de dados inerentes
aos mesmos.
 Para usar os dados é necessário que estejam
estruturados de forma a serem consultados e
analisados adequadamente.

22
EXERCÍCIO - PRÁTICO
sexo
m
f
f
m
f
f
m
m
m
m
m
m
f
m
f
m
m
IDA
40anos
40anos
50anos
60anos
60anos
50anos
40anos
40anos
40anos
60anos
60anos
50anos
40anos
40anos
50anos
50anos
40anos
CIV
c
c
s
c
c
c
c
c
c
c
c
c
v
c
c
c
d
ESCOL
EstSuperiores
12ano
9Classe
4Classe
4Classe
EstSuperiores
4Classe
EstSuperiores
4Classe
EstSuperiores
4Classe
9Classe
4Classe
9Classe
12ano
12ano
EstSuperiores
PROF
sup
int
sup
semi-qual
sem-prof
sup
esp-man
sup
esp-n-man
sup
semi-qual
esp-n-man
esp-n-man
esp-n-man
int
int
sup
HDORM
8ha10h
6ha8h
6ha8h
6ha8h
menos6h
8ha10h
mais10h
6ha8h
6ha8h
8ha10h
8ha10h
8ha10h
8ha10h
6ha8h
6ha8h
6ha8h
6ha8h
ACTIV
pouca
pouca
pouca
pouca
alguma
pouca
alguma
nenhuma
pouca
nenhuma
pouca
pouca
nenhuma
nenhuma
alguma
pouca
pouca
DESP
nao
sim
nao
nao
nao
sim
nao
sim
sim
sim
nao
nao
nao
sim
sim
sim
sim
TAB
nao
nao
nao
ex
nao
nao
ex
ex
nao
ex
ex
nao
nao
fuma
ex
nao
fuma
ALC
bebe
bebe
nao
bebe
nao
ocas
bebe
bebe
bebe
bebe
ex
bebe
nao
bebe
bebe
bebe
bebe
CAF
sim
sim
sim
nao
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
sim
Peso
70a60Kg
70a60Kg
50a60Kg
mais80
50a60Kg
50a60Kg
mais80
70a60Kg
80a70kg
mais80
70a60Kg
70a60Kg
50a60Kg
mais80
70a60Kg
80a70kg
70a60Kg
ALT
m160
m150
m150
m160
m150
m150
m170
m170
m160
m170
m180
m150
m160
m160
m150
m170
m160
1 – Construir uma visão em árvore baseado nos dados
acima.
2 – Tirar no mínimo duas conclusões apartir dessa
visão.
IMC
normal
excessopeso
normal
excessopeso
excessopeso
normal
excessopeso
normal
excessopeso
excessopeso
normal
excessopeso
normal
obesidade
excessopeso
normal
normal
Colest
alto
baixo
baixo
medio
medio
medio
baixo
baixo
medio
medio
alto
medio
baixo
alto
medio
medio
alto
23
M
40
anos
baixo
médio
alto
50
anos
médio
60
anos
40
anos
F
50
anos
60
anos
SEXO
IDADE
médio
alto
baixo
baixo
médio
médio
COLESTEROL24


Todos os Homens de 50 anos tem o colesterol
médio
Todas as Mulheres de 40 anos tem o colesterol
baixo
25
DATA MINING – MINERAÇÃO DE DADOS
O PROCESSO DE MINERAÇÃO DE DADOS
Existme diversas abordagens para a divisão das
etapas do processo de Extração de Conhecimento
de Base de Dados.
 Aguns autores dividem o processo em quatro, seis
ou nove etapas, dependendo do autor.
 Porém existem três grandes etapas:

Pré-processamento,
 Extração de Padrões e
 Pós-Processamento


O processo de MD é centrado na interação entre
as diversas classes de usuários, e o seu sucesso
depende, em parte, dessa interação. (Classes:
Especialista do Domínio, Analista e Usuário
Final)
26
DATA MINING – MINERAÇÃO DE DADOS
O PROCESSO DE MINERAÇÃO DE DADOS
27
DATA MINING – MINERAÇÃO DE DADOS
O PROCESSO DE MINERAÇÃO DE DADOS
28
DATA MINING – MINERAÇÃO DE DADOS
O PROCESSO DE MINERAÇÃO DE DADOS
INDENTIFICAÇÃO DO PROBLEMA:


O estudo do domínio da aplicação e a definição de
objetivos e metas a serem alcançados no processo de
Mineração de Dados são identificados nesta fase.
Questões importantes que devem ser respondidads
nesta fase:
Quais são as principais metas do processo?
 Quais critérios de desempenho são importantes?
 O conhecimento estraído deve ser compreensível a seres
humanos ou um modelo do tipo caixa-preta é apropriado?
 Qual deve ser a relação entre simplicidade e precisão do
conhecimento extraído?

29
DATA MINING – MINERAÇÃO DE DADOS
O PROCESSO DE MINERAÇÃO DE DADOS
PRÉ-PROCESSAMENTO:
Normalmente, os dados disponíveis para análise
não estão em um formatoa dequado para a
Extração de Conhecimento.
 Diversas transformações nos dados podem ser
executadas nesta etapa:

Extração e Integração;
 Transformação;
 Limpeza;
 Seleção e Redução de Dados

30
DATA MINING – MINERAÇÃO DE DADOS
O PROCESSO DE MINERAÇÃO DE DADOS
EXTRAÇÃO DE PADRÕES:
Esta etapa é direcionada ao cumprimento dos
objetivos definidos na Identificação do Problema.
 É realizada a escolha, a configuração e execução
de um ou mais algoritmos para extração de
conhecimento.
 Compreende a escolha da:




tarefa de Mineração de Dados a ser empregada,
a escolha do algoritmo e
a extração dos padrões propriamente dita.
31
DATA MINING – MINERAÇÃO DE DADOS
O PROCESSO DE MINERAÇÃO DE DADOS
PÓS-PROCESSAMENTO:


A obtenção do conhecimento não é o passo final do
processo de Extração de Conhecimento de Bases de
Dados.
O conhecimento extraído pode ser utilizado na
resolução de problemas da vida real. Para isso é
importante responder algumas questões aos usuários:
O conhecimento extraído representa o conhecimento do
especialista?
 De que maneira o conhecimento do especialista difere do
conhecimento extraído?
 Em que parte o conhecimento do especialista está correto?

32
DATA MINING – MINERAÇÃO DE DADOS
TÉCINCAS E FERRAMENTAS USADAS
EM MINERAÇÃO DE DADOS
ALGUMAS TÉCNICAS:
Análise Estatística;
 Aprendizado de Máquina;
 Algoritmos Genéticos;
 Clustering;
 Lógica Fuzzy;
 Regras e Árvores de Decisão;
 Redes Neurais.

33
DATA MINING – MINERAÇÃO DE DADOS
TÉCINCAS E FERRAMENTAS USADAS
EM MINERAÇÃO DE DADOS
ALGUMAS FERRAMENTAS:






Enterprise Miner, ferramenta de data mining do SAS
Microsoft SQL Server, ferramenta originalmente de banco de
dados que a cada nova versão tem ganho novas
funcionalidades de Business Intelligence. Possui 8 algorítmos
na versão do SQL Server 2008 e sua plataforma é extensível
para integração de outros algorítmos desenvolvidos.
IlliMine Projeto de mineração de dados escrito em C++.
InfoCodex Aplicação de mineração de dados com uma base de
dados linguística.
KDB2000 Uma ferramenta livre em C++ que integra acesso à
bases de dados, pre-processamento, técnicas de transformação
e um vasto escopo de algoritmos de mineração de dados.
KXEN Ferramenta de mineração de dados comercial, utiliza
conceitos do Profesor Vladimir Vapnik como Minimização de
Risco Estruturada (Structured Risk Minimization ou SRM) e
outros.
34
DATA MINING – MINERAÇÃO DE DADOS
TÉCINCAS E FERRAMENTAS USADAS
EM MINERAÇÃO DE DADOS









KNIME Plataforma de mineração de dados aberta que
implementa o paradigma de pipelining de dados. Baseada no
eclipse
LingPipe API em Java para mineração em textos distribuída
com código-fonte.
MDR Ferramenta livre em Java para detecção de interações
entre atributos utilizando o método da multifactor
dimensionality reduction (MDR).
Orange Tookit livre em Python para mineração de dados e
aprendizado de máquina.
Pimiento Um ambiente para mineração em textos baseado em
Java.
PolyaAnalyst Ambiente que permite a montagem de fluxos
para mineração de dados e texto.
Tanagra Software livre de mineração de dados e estatística.
WEKA Software livre em java para mineração de dados.
Cortex Intelligence Sistema de PLN para mineração de textos
aplicado à Inteligência Competitiva
35
SAS ENTERPRISE MINER

Presente em 110 países, com mais de 40 mil
instalações, a SAS no Brasil é o parceiro de
negócios líder de mercado na oferta de
soluções para a gestão corporativa baseada em
inteligência.
36
37
38
39
IBM INTELLIGENT MINER

O Intelligent Miner, uma poderosa ferramenta
para análise de dados integrada. As
tradicionais técnicas de mineração de dados
(análise de 40 agrupamentos, análise de
afinidades, classificação, estimativa e previsão)
são suportadas. Adicionalmente, ricos
componentes de apresentação estão disponíveis
para possibilitar uma análise visual dos
resultados.
40
41
42
43
44
ORACLE DARWIN DATA MINING
SOFTWARE

poderosa ferramenta de mineração de dados
que ajuda a transformar gigantes massas de
dados em inteligência corporativa. Darwin ajuda
a encontrar padrões significativos e correlações
em dados corporativos. Padrões que permitem
um melhor entendimento e previsão do
comportamento de clientes.
45
46
47
48
EXERCÍCIO DE FIXAÇÃO:
49