Download Tipologia do conhecimento de saída da - pgc-upe

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Aplicações práticas da
descoberta de conhecimento em BD
Material Elaborado pelos Profs. Jacques Robin e
Francisco de A. T. de Carvalho – UFPE / CIn
Aplicações da Mineração de Dados
Marketing e comércio
Gerenciamento
de relação com clientes
• descrição multi-dimensional, agrupamento e
classificação de clientes, associações entre
produtos ou serviços, para otimização e
personalização de:


campanhas de propaganda e de promoções
sugestões de produtos e serviços
• mineração comparativa de evolução de compras,
produtos ou serviços oferecidos e preços para:


promover retenção de clientes
definir política de preço altamente dinâmica (ex,
passagem aérea)
Marketing e comércio
Gerenciamento
de relação com clientes
• ambos a partir de:


Transações com cartões de fidelidade, de requisitos
de programa a la carte (TV, vídeo, música), de
reservas (passagens, hotéis, ingressos)
Log de servidor Web para comércio eletrônico
Finanças e segurança
 Serviços
financeiros:
• mineração de séries temporais de valores na bolsa para
especulação
• mineração de associação e grupos de valores para
definição de portfolio de investimento e planos de
aposentadoria
• previsão de inadimplência para definir política de
empréstimo
 Detecção
de fraude:
• descrição multi-dimensional e mineração de séries
excepcionais de:




uso de cartão de créditos para serviços financeiros
pedidos de acesso a sites para segurança de sistemas
transferências de fundos para lavagem de dinheiro sujo e
sonegação de imposto
chamadas para telecomunicações
Finanças e segurança
 Detecção
de tentativas de intrusão
• mineração de padrões temporais de comandos de
protocolos em arquivos de log de servidores
• batch e tempo real
Jogos, esportes e
recursos humanos
 Jogos:
• mineração de regras estratégicas e táticas a partir de
BD de partidas (xadrez, futebol de robôs)
 Jogos,
esportes e re-engenharia de
organizações:
• OLAP, agrupamento e mineração multi-dimensional de
séries de resultados para identificar fatores internos
(ex: composição do time, tática usada) e externos (ex:
tipo de adversário, local do jogo) contribuindo a
vitórias e a derrotas
Jogos, esportes e
recursos humanos
 Jogos
de esportes virtuais, esportes e
recrutamento:
• previsão do desempenho e popularidade futura de
atletas, artistas e funcionários para contratação e
transferência
Serviços de infra-estrutura:
energia, água, transporte,
telecomunicação, Internet
 descrição
multi-dimensional e previsão
comparativa
 de demanda e da capacidade das fontes ou
equipamentos
 para:
• planejar investimentos e otimizar rotas para evitar
interrupção de serviços e congestionamento
• definir vários níveis de qualidade de serviços, seus
preços e seus clientes potenciais
• detecção de fraudes
Serviços de infra-estrutura:
energia, água, transporte,
telecomunicação, Internet
 previsão
de falha de equipamento para definir
política de prevenção de falha
 mineração de regras de diagnóstico para análise
de falha
Saúde
 Indústria
farmacêutica:
• previsão dos efeitos de um novo remédio composto a
partir dos efeitos dos seus componentes em remédios
testados
 Medicina
e epidemiologia:
• mineração de regras de diagnóstico
• previsão de predisposição a doenças e resposta a
tratamento
• a partir de BD de órgãos de saúde (CDC, ministério da
saúde)
Saúde
 Pesquisa
em genética e biologia molecular:
• mineração comparativa de seqüências de genes em
células sadias e doentes (adaptação da mineração de
séries temporais para dados categóricos)
• mineração de associações e grupos de genes baseada
na sua co-ocorrência em várias classes de células
• previsão da forma 3D de uma proteína a partir da sua
seqüência de ácidos-amidos
Conclusão sobre a aplicabilidade de KDD
 Ainda
existe muito mais tarefas e domínios de
aplicação prática da descoberta de conhecimento
em BD não mencionadas
 Ubiqüidade
da necessidade por mineração de
dados e descoberta de conhecimento em BD
O
mais difícil não é identificar setores de
atividade que precisam dessa tecnologia e sim
identificar setores que não podem beneficiar-se
dela
Sistemas e Protótipos
de Data Mining
Como escolher um Sistema de
Data Mining?
 Os
sistemas comerciais de data mining tem
pouco em comum
• Diferentes funcionalidades ou metodologias de data
mining
• Podem trabalhar com conjuntos de dados de tipos
completamente diferentes
 Tipos
de dados: relacional, transacional, texto,
seqüência temporal, espacial?
 Questões sobre o sistema
• execução em um ou vários sistemas operacionais?
• arquitetura cliente/servidor?
• Fornece interfaces baseadas na Web e permite
dados XML como entrada e/ou saída?
Como escolher um Sistema de
Data Mining? (2)
 Fontes
de dados
• arquivos texto ASCII, fontes de dados relacionais
múltiplas
• suporte de conexões ODBC (OLE DB, JDBC)?
 Funções
e metodologias de Data mining
• Única vs. múltiplas funções de data mining
• Único vs. vários metodos por função

Mais funções e métodos por função fornece ao usuário grande
flexibilidade e poder de análise
Como escolher um Sistema de
Data Mining? (2)
 Acoplamento
com BD e/ou data warehouse
• Quatro formas de acoplamento: sem acoplamento,
acoplamento “frouxo”, acoplamento semifirme, e
acoplamento firme

Idealmente, um sistema de data mining deve ser firmemente
acoplado com um sistema de bases de dados
Como escolher um Sistema de
Data Mining? (3)
 Escalabilidade
• Escalabilidade por linhas
• Escalabilidade por coluna
• realizar um sistema com escalabilidade por coluna é
um desafio muito maior do que realizar um sistema
com escalabilidade por linha
 Ferramentas
de Visualização
• “Uma figura vale milhares de palavras”
• Categorias de visualização: visualização de dados,
visualização dos resultados da mineração,
vizualização do processo de mineração, e visual data
mining
 Interface
gráfica e linguagem de interrogação
(query) de Data mining
• Interface gráfica de alta qualidade e fácil de usar
Exemplos de Sistemas de
Data Mining (1)
 IBM
Intelligent Miner
 SAS
Enterprise Miner
• Uma ampla faixa de algoritmos de data mining
• Algoritmos de mineração escaláveis
• Kit de ferramentas: algoritmos de redes neurais,
métodos estatísticos, preparação de dados,
ferramentas de visualização
• Firme integração com o sistema de bases de dados
relacionais IBM's DB2
• Grande variedade de ferramentas de análise
estatística
• Ferramentas de Data warehouse e múltiplos
algoritmos de data mining
 Microsoft
SQLServer 2000
• Integração de BD e OLAP com mineração
Exemplos de Sistemas de
Data Mining (2)
 SGI
MineSet
• Múltiplos algoritmos de data mining e métodos
estatísticos avançados
• Ferramentas de visualização avançadas
 Clementine
(SPSS)
• Meio ambiente de desenvolvimento integrado de data
mining para usuários e programadores
• Múltiplos algoritmos de data mining e ferramentas de
visualização
Exemplos de Sistemas de
Data Mining (2)
 DBMiner
(DBMiner Technology Inc.)
• Múltiplos módulos de data mining: análise OLAP,
associação, classificação, agrupamento
• Funções eficientes de mineração de padrões seqüenciais e
associação, ferramentas de classificação visual
• Mineração de bases de dados relacionais e de data
warehouses
Temas Adicionais em
Mineração de Dados
Data Mining Visual
Visualização: uso de computação gráfica para criar
imagens visuais que ajudam a entender representações
massivas e complexas de dados
 Data Mining Visual: processo de descoberta de
conhecimento implícito a partir de grandes conjuntos de
dados usando técnicas de visualização

Computação
Gráfica
Computação
de alto
desempenho
Multimídia
Interface
Homem
Máquina
Reconhecimento
de Padrões
Visualização
Propósito
da Visualização
• Fornecer uma visão geral qualitativa de grandes
conjuntos de dados
• Busca de padrões, tendências, estrutura,
irregularidades, relações entre dados.
• Ajuda para encontrar regiões interessantes e
parâmetros apropriados para posterior análise
qualitativa.
Data MiningVisual &
Visualização de Dados
 Integração
•
•
•
•
da visualização e do data mining
visualização de dados
visualização dos resultados de data mining
visualização do processo de data mining
data mining visual interativo
 Visualização
de dados
• Dados em um BD ou em um data warehouse podem
ser visualizados
 em diferentes níveis de abstração
 via diferentes combinações de atributos (ou
dimensões)
• Os dados podem ser apresentados em várias formas
visuais
Visualização dos Resultados
do Data Mining
 Apresentação
visual dos resultados (ou
conhecimento) obtidos da mineração de dados
 Exemplos
• Scatter plots e boxplots (obtidos de data mining
descritivo)
• Árvores de Decisão
• Regras de Associação
• Agrupamentos
• Outliers
• Regras de generalização
Boxplots (Statsoft): Múltiplas
Combinações de Variáveis
Visualização dos resultados de Data Mining
(SAS Enterprise Miner): Scatter Plots
Visualização de Regras de Associação
(SGI/MineSet 3.0)
Visualização de uma Árvore de decisão
(SGI/MineSet 3.0)
Visualização do Processo
de Data Mining
 Apresentação
dos vários processos de data
mining em formas visuais de modo que o
usuário pode ver
• O processo de extração de dados
• Onde os dados são extraídos
• Como os dados são limpados, integrados,
processados e minerados
• O método selecionado para data mining
• Onde os resultados são armazenados
• Como eles podem ser vistos
Data Mining Visual Interativo
 Uso
de ferramentas de visualização no
processo de mineração para ajudar os usuários
a realizarem decisões locais astuciosas para a
mineração
 Exemplo
• Mostrar a distribuição dos dados em um conjunto
de atributos usando setores coloridos
• Usar o resultado para decidir qual setor deve ser
selecionado para a classificação e onde fica um
“bom” ponto de corte desse setor
Áudio Data Mining
Usar sinais de áudio para ressaltar padrões de dados
ou características dos resultados da mineração
 Alternativa a mineração visual
 Data mining visual pode ressaltar padrões
interessantes usando gráficos, mas exige que o
usuário se concentre na busca visual de padrões
 Em vez disso: transformar padrões em sons e música e
ouvir ritmos, tons, e melodias para identificar algo
interessante ou não usual

Impactos sociais da
Mineração de Dados
Data Mining é uma moda ou é algo
persistente?
 Data
mining é uma tecnologia
 Ciclo
de vida tecnológico
• Inovação
• Adesão inicial
• Ruptura
• Maioridade inicial
• Maioridade tardia
• Legado
Cilco de vida de adoção tecnológica
 Data
mining está na ruptura!?
• Os sistemas de data mining existentes são muito
genéricos
• É necessário soluções de data mining específicas e
integração da lógica das organizações com as
funções da mineração
Impactos Sociais: Ameaça a
privacidade e a segurança dos dados?
 Data
mining é uma ameaça para a privacidade e
segurança dos dados?
• “Big Brother”, “Big Banker”, e “Big Business” estão
vigiando você cuidadosamente
• Informações de perfil são coletadas o tempo todo


cartão de crédito, cartão de fidelidade, etc
Surfar na Web, alugar um vídeo, preencher um formulário,
• Coletar dados pessoais pode ser benéfico para as
organizações e as pessoas, mas existe o perigo de uso
indevido

Registros médicos, Avaliação do empregado, Etc.
Proteção da Privacidade e da
Segurança dos Dados
 Práticas
corretas
• Regras internacionais para a proteção da
privacidade de dados
• Cobre aspectos relacionados a coleta de dados,
propósito, uso, qualidade, acesso, participação
individual, etc
• Especificação do propósito e Limitação do Uso
• Acesso: Indivíduos tem o direito de conhecer que
informação é coletada sobre ele, quem tem acesso
aos dados, e como os dados são usados
 Desenvolvimento
de técnicas de segurança
• criptografia
• bases de dados anônimas
Tendências em Mineração de Dados
Tendências em Data Mining (1)
 Aplicações
• desenvolvimento de sistemas de data mining para
aplicações específicas
• Data mining invisível (mineração como função interna)
 Métodos
de data mining com escalabilidade
• Constraint-based mining: uso de restrições para guiar
os sistemas de data mining na busca por padrões
interessantes
 Integração
de data mining com bases de dados,
data warehouse e bases de dados na Web
 Data mining invisível
Tendências em Data Mining (2)
 Padronização
da linguagem de data mining
• A padronização facilitará o desenvolvimento sistemático,
melhorará a interoperabilidade, e promoverá a instrução e
o uso de sistemas de data mining na indústria e na
sociedade
 Data
mining Visual
 Novos métodos para minerar tipos de dados
complexos
• Maior esforço de pesquisa para a integração de métodos
de mineração de dados com técnicas existentes da análise
de dados para os tipos complexos de dados
 Web
mining
 Proteção da privacidade e segurança da informação
na mineração dos dados