Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Aplicações práticas da descoberta de conhecimento em BD Material Elaborado pelos Profs. Jacques Robin e Francisco de A. T. de Carvalho – UFPE / CIn Aplicações da Mineração de Dados Marketing e comércio Gerenciamento de relação com clientes • descrição multi-dimensional, agrupamento e classificação de clientes, associações entre produtos ou serviços, para otimização e personalização de: campanhas de propaganda e de promoções sugestões de produtos e serviços • mineração comparativa de evolução de compras, produtos ou serviços oferecidos e preços para: promover retenção de clientes definir política de preço altamente dinâmica (ex, passagem aérea) Marketing e comércio Gerenciamento de relação com clientes • ambos a partir de: Transações com cartões de fidelidade, de requisitos de programa a la carte (TV, vídeo, música), de reservas (passagens, hotéis, ingressos) Log de servidor Web para comércio eletrônico Finanças e segurança Serviços financeiros: • mineração de séries temporais de valores na bolsa para especulação • mineração de associação e grupos de valores para definição de portfolio de investimento e planos de aposentadoria • previsão de inadimplência para definir política de empréstimo Detecção de fraude: • descrição multi-dimensional e mineração de séries excepcionais de: uso de cartão de créditos para serviços financeiros pedidos de acesso a sites para segurança de sistemas transferências de fundos para lavagem de dinheiro sujo e sonegação de imposto chamadas para telecomunicações Finanças e segurança Detecção de tentativas de intrusão • mineração de padrões temporais de comandos de protocolos em arquivos de log de servidores • batch e tempo real Jogos, esportes e recursos humanos Jogos: • mineração de regras estratégicas e táticas a partir de BD de partidas (xadrez, futebol de robôs) Jogos, esportes e re-engenharia de organizações: • OLAP, agrupamento e mineração multi-dimensional de séries de resultados para identificar fatores internos (ex: composição do time, tática usada) e externos (ex: tipo de adversário, local do jogo) contribuindo a vitórias e a derrotas Jogos, esportes e recursos humanos Jogos de esportes virtuais, esportes e recrutamento: • previsão do desempenho e popularidade futura de atletas, artistas e funcionários para contratação e transferência Serviços de infra-estrutura: energia, água, transporte, telecomunicação, Internet descrição multi-dimensional e previsão comparativa de demanda e da capacidade das fontes ou equipamentos para: • planejar investimentos e otimizar rotas para evitar interrupção de serviços e congestionamento • definir vários níveis de qualidade de serviços, seus preços e seus clientes potenciais • detecção de fraudes Serviços de infra-estrutura: energia, água, transporte, telecomunicação, Internet previsão de falha de equipamento para definir política de prevenção de falha mineração de regras de diagnóstico para análise de falha Saúde Indústria farmacêutica: • previsão dos efeitos de um novo remédio composto a partir dos efeitos dos seus componentes em remédios testados Medicina e epidemiologia: • mineração de regras de diagnóstico • previsão de predisposição a doenças e resposta a tratamento • a partir de BD de órgãos de saúde (CDC, ministério da saúde) Saúde Pesquisa em genética e biologia molecular: • mineração comparativa de seqüências de genes em células sadias e doentes (adaptação da mineração de séries temporais para dados categóricos) • mineração de associações e grupos de genes baseada na sua co-ocorrência em várias classes de células • previsão da forma 3D de uma proteína a partir da sua seqüência de ácidos-amidos Conclusão sobre a aplicabilidade de KDD Ainda existe muito mais tarefas e domínios de aplicação prática da descoberta de conhecimento em BD não mencionadas Ubiqüidade da necessidade por mineração de dados e descoberta de conhecimento em BD O mais difícil não é identificar setores de atividade que precisam dessa tecnologia e sim identificar setores que não podem beneficiar-se dela Sistemas e Protótipos de Data Mining Como escolher um Sistema de Data Mining? Os sistemas comerciais de data mining tem pouco em comum • Diferentes funcionalidades ou metodologias de data mining • Podem trabalhar com conjuntos de dados de tipos completamente diferentes Tipos de dados: relacional, transacional, texto, seqüência temporal, espacial? Questões sobre o sistema • execução em um ou vários sistemas operacionais? • arquitetura cliente/servidor? • Fornece interfaces baseadas na Web e permite dados XML como entrada e/ou saída? Como escolher um Sistema de Data Mining? (2) Fontes de dados • arquivos texto ASCII, fontes de dados relacionais múltiplas • suporte de conexões ODBC (OLE DB, JDBC)? Funções e metodologias de Data mining • Única vs. múltiplas funções de data mining • Único vs. vários metodos por função Mais funções e métodos por função fornece ao usuário grande flexibilidade e poder de análise Como escolher um Sistema de Data Mining? (2) Acoplamento com BD e/ou data warehouse • Quatro formas de acoplamento: sem acoplamento, acoplamento “frouxo”, acoplamento semifirme, e acoplamento firme Idealmente, um sistema de data mining deve ser firmemente acoplado com um sistema de bases de dados Como escolher um Sistema de Data Mining? (3) Escalabilidade • Escalabilidade por linhas • Escalabilidade por coluna • realizar um sistema com escalabilidade por coluna é um desafio muito maior do que realizar um sistema com escalabilidade por linha Ferramentas de Visualização • “Uma figura vale milhares de palavras” • Categorias de visualização: visualização de dados, visualização dos resultados da mineração, vizualização do processo de mineração, e visual data mining Interface gráfica e linguagem de interrogação (query) de Data mining • Interface gráfica de alta qualidade e fácil de usar Exemplos de Sistemas de Data Mining (1) IBM Intelligent Miner SAS Enterprise Miner • Uma ampla faixa de algoritmos de data mining • Algoritmos de mineração escaláveis • Kit de ferramentas: algoritmos de redes neurais, métodos estatísticos, preparação de dados, ferramentas de visualização • Firme integração com o sistema de bases de dados relacionais IBM's DB2 • Grande variedade de ferramentas de análise estatística • Ferramentas de Data warehouse e múltiplos algoritmos de data mining Microsoft SQLServer 2000 • Integração de BD e OLAP com mineração Exemplos de Sistemas de Data Mining (2) SGI MineSet • Múltiplos algoritmos de data mining e métodos estatísticos avançados • Ferramentas de visualização avançadas Clementine (SPSS) • Meio ambiente de desenvolvimento integrado de data mining para usuários e programadores • Múltiplos algoritmos de data mining e ferramentas de visualização Exemplos de Sistemas de Data Mining (2) DBMiner (DBMiner Technology Inc.) • Múltiplos módulos de data mining: análise OLAP, associação, classificação, agrupamento • Funções eficientes de mineração de padrões seqüenciais e associação, ferramentas de classificação visual • Mineração de bases de dados relacionais e de data warehouses Temas Adicionais em Mineração de Dados Data Mining Visual Visualização: uso de computação gráfica para criar imagens visuais que ajudam a entender representações massivas e complexas de dados Data Mining Visual: processo de descoberta de conhecimento implícito a partir de grandes conjuntos de dados usando técnicas de visualização Computação Gráfica Computação de alto desempenho Multimídia Interface Homem Máquina Reconhecimento de Padrões Visualização Propósito da Visualização • Fornecer uma visão geral qualitativa de grandes conjuntos de dados • Busca de padrões, tendências, estrutura, irregularidades, relações entre dados. • Ajuda para encontrar regiões interessantes e parâmetros apropriados para posterior análise qualitativa. Data MiningVisual & Visualização de Dados Integração • • • • da visualização e do data mining visualização de dados visualização dos resultados de data mining visualização do processo de data mining data mining visual interativo Visualização de dados • Dados em um BD ou em um data warehouse podem ser visualizados em diferentes níveis de abstração via diferentes combinações de atributos (ou dimensões) • Os dados podem ser apresentados em várias formas visuais Visualização dos Resultados do Data Mining Apresentação visual dos resultados (ou conhecimento) obtidos da mineração de dados Exemplos • Scatter plots e boxplots (obtidos de data mining descritivo) • Árvores de Decisão • Regras de Associação • Agrupamentos • Outliers • Regras de generalização Boxplots (Statsoft): Múltiplas Combinações de Variáveis Visualização dos resultados de Data Mining (SAS Enterprise Miner): Scatter Plots Visualização de Regras de Associação (SGI/MineSet 3.0) Visualização de uma Árvore de decisão (SGI/MineSet 3.0) Visualização do Processo de Data Mining Apresentação dos vários processos de data mining em formas visuais de modo que o usuário pode ver • O processo de extração de dados • Onde os dados são extraídos • Como os dados são limpados, integrados, processados e minerados • O método selecionado para data mining • Onde os resultados são armazenados • Como eles podem ser vistos Data Mining Visual Interativo Uso de ferramentas de visualização no processo de mineração para ajudar os usuários a realizarem decisões locais astuciosas para a mineração Exemplo • Mostrar a distribuição dos dados em um conjunto de atributos usando setores coloridos • Usar o resultado para decidir qual setor deve ser selecionado para a classificação e onde fica um “bom” ponto de corte desse setor Áudio Data Mining Usar sinais de áudio para ressaltar padrões de dados ou características dos resultados da mineração Alternativa a mineração visual Data mining visual pode ressaltar padrões interessantes usando gráficos, mas exige que o usuário se concentre na busca visual de padrões Em vez disso: transformar padrões em sons e música e ouvir ritmos, tons, e melodias para identificar algo interessante ou não usual Impactos sociais da Mineração de Dados Data Mining é uma moda ou é algo persistente? Data mining é uma tecnologia Ciclo de vida tecnológico • Inovação • Adesão inicial • Ruptura • Maioridade inicial • Maioridade tardia • Legado Cilco de vida de adoção tecnológica Data mining está na ruptura!? • Os sistemas de data mining existentes são muito genéricos • É necessário soluções de data mining específicas e integração da lógica das organizações com as funções da mineração Impactos Sociais: Ameaça a privacidade e a segurança dos dados? Data mining é uma ameaça para a privacidade e segurança dos dados? • “Big Brother”, “Big Banker”, e “Big Business” estão vigiando você cuidadosamente • Informações de perfil são coletadas o tempo todo cartão de crédito, cartão de fidelidade, etc Surfar na Web, alugar um vídeo, preencher um formulário, • Coletar dados pessoais pode ser benéfico para as organizações e as pessoas, mas existe o perigo de uso indevido Registros médicos, Avaliação do empregado, Etc. Proteção da Privacidade e da Segurança dos Dados Práticas corretas • Regras internacionais para a proteção da privacidade de dados • Cobre aspectos relacionados a coleta de dados, propósito, uso, qualidade, acesso, participação individual, etc • Especificação do propósito e Limitação do Uso • Acesso: Indivíduos tem o direito de conhecer que informação é coletada sobre ele, quem tem acesso aos dados, e como os dados são usados Desenvolvimento de técnicas de segurança • criptografia • bases de dados anônimas Tendências em Mineração de Dados Tendências em Data Mining (1) Aplicações • desenvolvimento de sistemas de data mining para aplicações específicas • Data mining invisível (mineração como função interna) Métodos de data mining com escalabilidade • Constraint-based mining: uso de restrições para guiar os sistemas de data mining na busca por padrões interessantes Integração de data mining com bases de dados, data warehouse e bases de dados na Web Data mining invisível Tendências em Data Mining (2) Padronização da linguagem de data mining • A padronização facilitará o desenvolvimento sistemático, melhorará a interoperabilidade, e promoverá a instrução e o uso de sistemas de data mining na indústria e na sociedade Data mining Visual Novos métodos para minerar tipos de dados complexos • Maior esforço de pesquisa para a integração de métodos de mineração de dados com técnicas existentes da análise de dados para os tipos complexos de dados Web mining Proteção da privacidade e segurança da informação na mineração dos dados