Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING Asterio K. Tanaka http://www.uniriotec.br/~tanaka/tin0036 [email protected] Introdução a Data Warehousing e OLAP Asterio K. Tanaka Introdução a Data Warehouse e Modelagem Dimensional • Visão Geral de BI – ERM, EAI, CRM, PRM, ERP, ... • • • • OLTP x OLAP Definições e Arquitetura de DW Projeto de DW Modelagem dimensional – Esquema Estrela » Fatos » Dimensões » Hierarquias e Agregados – Esquema Snowflake Asterio K. Tanaka Sistemas na Pirâmide Organizacional (Sprague & Watson, 1991) Asterio K. Tanaka Visão Geral da Arquitetura ERM – Enterprise Relationship Management (BI-Business Intelligence, C. Barbieri, Axcel Books, 2001) Alta Gerência BSC Business Intelligence KMS CI EAI Enteprise Application Integration CRM B2C Clientes PRM B2B ERP Outros sistemas transacionais Parceiros/Fornecedores Asterio K. Tanaka Suporte à Decisão Produção e distribuição de INFORMAÇÃO ÚTIL para gerentes, executivos e analistas do conhecimento. INFORMAÇÃO ÚTIL! Mas de que forma? Com: • • • Agilidade Flexibilidade Precisão Asterio K. Tanaka Ambiente de Sistemas de Aplicação Operacionais • Dão suporte às funções associadas à execução do negócio da empresa: – ERP, SCM – B2C, B2B – Sistemas transacionais legados – etc. Informacionais • Dão suporte às funções associadas à concepção do negócio da empresa – – – – DSS, EIS DW, CRM, PRM Ferramentas OLAP Ferramentas de Data Mining – etc. Asterio K. Tanaka Business Inteligence • Inteligência Aplicada aos Negócios – BI é um conjunto de tecnologias que permitem o cruzamento de informações e suportam a análise dos indicadores de desempenho de um negócio. • Data Warehouse é um componente essencial de BI (é o banco de dados da BI) • Ferramentas OLAP e de Data Mining são usadas como ferramentas de apoio à decisão, para análise e extração de dados de Data Warehouses. Asterio K. Tanaka OLTP x OLAP Características Dados operacionais Dados informacionais Conteúdo Valores correntes, detalhados Valores históricos, sumariados Organização dos dados Por aplicação, sistema de informação Por assunto, negócio Natureza dos dados Dinâmica, sujeita a atualizações freqüentes Estática, atualização apenas com “refreshment” Estrutura de dados Relacional, própria para processamento transacional Dimensional, própria para processamento analítico Uso Estruturado, repetitivo Desestruturado, consultas sob diferentes perspectivas Desempenho Otimizado para tempo de resposta (máximo 2 a 3 segundos) Análises complexas, com tempos de respostas maiores Asterio K. Tanaka Suporte à Decisão “Tradicional” Analista do negócio Ambiente Operacional • • • • Dados não estão adequados para suporte à decisão Sistemas de suporte à decisão desenvolvidos ad-hoc Analista do Negócio vira “Programador” Longo tempo de espera Asterio K. Tanaka Porque um ambiente de Data Warehouse? Aplicação Ferramenta Aplicação EIS SD OLAP 9 Integrar dados de múltiplas fontes DW 9 Facilitar o processo de análise sem impacto para o ambiente de dados operacionais 9 Obter informação de qualidade 9 Atender diferentes tipos de usuários finais 9 Flexibilidade e agilidade para atender novas análises BDs Operacionais Asterio K. Tanaka Data Warehouse - Definições • Processos, ferramentas e recursos para gerenciar e disponibilizar informações de negócios precisas e inteligíveis para que indivíduos possam tomar decisões efetivas. • Um ambiente para adequadamente organizar, gerenciar e disponibilizar informações oriundas de fontes diversas, fornecendo um visão única de parte ou de todo o negócio com o objetivo de dar suporte a operações analíticas. Asterio K. Tanaka Definição de Data Warehouse “A Data Warehouse is a subject-oriented, integrated, time-variant, non-volatile collection of data in support of management’s decision-making process.” (W. Imnon) Um banco de dados destinado a sistemas de suporte à decisão, cujos dados são armazenados em estruturas lógicas dimensionais, possibilitando o seu processamento analítico por ferramentas OLAP e de mineração de dados. Asterio K. Tanaka Arquitetura Genérica de um Data Warehouse Meta Dados FERRAMENTAS DE CONSULTA FONTES DE DADOS OLAP BDs Operacionais Extração Transformação Carga Atualização Análise Data Mining Data Warehouse Relatórios Fontes Externas Data Marts OLAP Chaudhri&Dayal, SIGMOD RECORD 1997 Asterio K. Tanaka Estratégias de projeto de DW • O Data Warehouse Corporativo • Data Warehouses Departamentais • Data Warehouses Funcionais – Marketing, Financeiro, Admnistrativo, etc. • Data Warehouses para projetos especiais • ... Asterio K. Tanaka O Mito Para serem úteis, os Data Warehouses devem possuir grande abrangência, com dados de variadas fontes abrangendo os diversos aspectos da Empresa. • Pré-requisito : empresa totalmente informatizada e integrada. • Implicação : projetos extremamente complexos e com alta probabilidade de insucesso. Asterio K. Tanaka A Realidade • Projetos evolutivos • Enfoque inicial nos aspectos mais críticos • Aproveitamento da estrutura operacional disponível • Retorno mais rápido • Acúmulo de experiência : menor risco e menor custo Asterio K. Tanaka Abordagem corrente : • Estratégia – – – – Desenvolver incrementalmente Visão Integrada Dividir para conquistar Errar pequeno • Implementação – Planejamento Top-Down – Desenvolvimento Bottom-Up, um Data Mart de cada vez, resultados devem ser atingidos em pequenos ciclos (ex.: a cada 3 meses) – Cada Data Mart deve ser encarado de forma evolutiva • Desafio – Garantir a coerência entre os vários Data Marts Asterio K. Tanaka Data Mart - Conceito “Um subconjunto lógico do Data Warehouse, geralmente visto como um data warehouse setorial.” (Kimball) Uma perspectiva top-down considera que um DW completo, centralizado deva ser desenvolvido antes que partes dele, sumariadas, possam ser derivadas na forma de Data Marts. Uma perspectiva bottom-up, considera que um DW possa ser composto a partir de Data Marts previamente desenvolvidos. Asterio K. Tanaka Fatores Críticos de Sucesso em Projetos de DW/DM • Foco bem definido • Patrocinador forte • Existência dos dados necessários • Envolvimento dos usuários • Qualificação da equipe de projeto • Arquitetura tecnológica bem definida • Marketing interno e acompanhamento • Gerência e manutenção de metadados Asterio K. Tanaka Modelagem para Data Warehouse • Requisitos distintos das aplicações do ambiente transacional: –flexibilidade quanto às análises a suportar –medidas a analisar precisam ser vistas sob diferentes perspectivas • Enfoque diferente da modelagem no ambiente operacional • Abordagem utilizada: MODELAGEM DIMENSIONAL Asterio K. Tanaka Visão multidimensional • Facilita o entendimento e visualização de problemas típicos de suporte à decisão • Mais intuitiva para o processamento analítico • Utilizada pelas ferramentas OLAP A visão lógica é multidimensional, embora a estrutura física tenha a mesma visão tabular do modelo relacional. Asterio K. Tanaka Estrutura Relacional Volume de vendas (do revendedor GLEASON) MODEL COLOR SALES VOLUME MINI VAN BLUE 6 MINI VAN RED 5 MINI VAN WHITE 4 SPORTS COUPE BLUE 3 SPORTS COUPE RED 5 SPORTS COUPE WHITE 5 SEDAN BLUE 4 SEDAN RED 3 SEDAN WHITE 2 Asterio K. Tanaka Visão matricial ou multidimensional Volume de Vendas (do revendedor Gleason) M O D E L Mini Van 6 5 4 Coupe 3 5 5 Sedan 4 3 2 Blue Red White COLOR 9 Um array multidimensional tem um número fixo de dimensões e os valores são armazenados nas células 9 Cada dimensão consiste de um número de elementos Asterio K. Tanaka Acrescentando mais uma coluna... Volume de Vendas de todos os revendedores MODEL COLOR DEALERSHIP MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN MINI VAN SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SPORTS COUPE SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN SEDAN BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE BLUE BLUE BLUE RED RED RED WHITE WHITE WHITE CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR CLYDE GLEASON CARR VOLUME 6 6 2 3 5 5 2 4 3 2 3 2 7 5 2 4 5 1 6 4 2 1 3 4 2 2 3 Asterio K. Tanaka Visão multidimensional Volume de Vendas M O D E L Mini Van Coupe Carr Gleason Clyde Sedan Blue DEALERSHIP Red White COLOR • O cubo é, de fato, apenas uma metáfora visual. • É uma representação intuitiva do fato porque todas as dimensões coexistem para todo ponto no cubo e são independentes umas das outras. Asterio K. Tanaka Adicionando Dimensões - Hipercubos Volume de Vendas M O D E L Mini Van Mini Van Mini Van Coupe Coupe Coupe Carr Gleason Clyde Sedan Blue Red White COLOR JANUARY Carr Gleason Clyde Sedan Blue Red White COLOR FEBRUARY Carr Gleason Clyde Sedan Blue Red DEALERSHIP White COLOR MARCH Asterio K. Tanaka Níveis nas dimensões ou Hierarquias Total de vendas Produto Alfa1 Dimensão: área NE maio 15 30 SUL NO SE RS SC AC 34 23 45 62 56 23 92 73 23 234 13 87 21 34 14 PE Dimensão: 7 tempo 14 abril 21 29 1996 Brasil …..46 18 AM 150 ….. • Hierarquias são a base das agregações Asterio K. Tanaka Agregados Categoria Vendas Região Produto Trimestre XPTO ... XPTA XPTN o ril io ç ar Ab Ma ... M Mês ES SP RJ Estado Asterio K. Tanaka Problemas Calcular Calcularos osagregados agregadosno nomomento momento da darecuperação recuperaçãoou ouarmazená-los? armazená-los? Armazenamento X Tempo de Resposta BD3 BD4 BD2 BD1 BD3 BD4 BD2 BD1 Asterio K. Tanaka A Síndrome da Explosão no Volume de Dados Número de Agregações 70000 65536 60000 50000 40000 30000 20000 16384 10000 0 16 2 3 4 4096 1024 256 64 5 6 7 8 Número de Dimensões (4 níveis em cada dimensão) Asterio K. Tanaka Agregados • As hierarquias permitem que o usuário possa ter acesso a dados com maior ou menor detalhe • Os valores apresentados quando o analista consulta dados em níveis hierárquicos mais altos são valores agregados Asterio K. Tanaka Exemplo Qual a margem de contribuição de cada área de vendas? Asterio K. Tanaka Hierarquias e Agregados Produto Tempo Geografia Consultas Marca Ano País Categoria Trimestre Região Produto Mês Estado Vendas por Produto, Marca, Trimestre Ano e eRegião Região Asterio K. Tanaka Visão dos fatos e dimensões em uma ferramenta OLAP Asterio K. Tanaka Ferramentas OLAP • OLAP: On Line Analytical Processing – Conjunto de técnicas para tratar informações contidas em DW. – Visão Multidimensional dos Dados • Termo proposto por E.F. Codd, em 1993 – Providing OLAP to User-Analysts: An IT Mandate. • “Doze Regras de Codd” para ferramentas OLAP: – – – – – – – – – – – – Visão conceitual multidimensional Transparência Acessibilidade Desempenho de Informações consistentes Arquitetura Cliente Servidor Dimensionalidade genérica Manipulação de dados dinâmicos Suporte a multiusuários Operações ilimitadas em dimensões cruzadas Manipulação intuitiva de dados Flexibilidade nas consultas Níveis de dimensão e agregação ilimitados Asterio K. Tanaka “Doze Regras de Codd” para ferramentas OLAP • Visão conceitual multidimensional – Os dados são modelados em diversas dimensões podendo haver cruzamento de todos os tipos de informações • Transparência – OLAP deve atender a todas as solicitações do analista, não importando de onde os dados virão. Todas as implicações devem ser transparentes para os usuários finais. • Acessibilidade – As ferramentas OLAP devem permitir conexão com todas as bases de dados legadas. A distribuição de informações deve ser mapeada para permitir o acesso a qualquer base. • Desempenho de Informações consistentes – As ferramentas OLAP devem possuir conhecimento sobre todas as informações armazenadas que possa disponibilizar, sem complexidade para o usuário final, qualquer tipo de consulta. Asterio K. Tanaka “Doze Regras de Codd” para ferramentas OLAP • Arquitetura Cliente Servidor – OLAP deve ser construída em arquitetura C/S para que possa atender a qualquer usuário em qualquer ambiente operacional • Dimensionalidade genérica – Deve ser capaz de tratar informações em qualquer quantidade de dimensões • Manipulação de dados dinâmicos – Devido ao grande volume de informações armazenadas nas diversas dimensões de um modelo multidimensional, é comum a esparsidade dos dados, e então essas células nulas devem ser tratadas para evitar custos com memória. • Suporte a multiusuários – Nas grandes organizações, é comum vários analistas trabalharem com a mesma massa de dados. Asterio K. Tanaka “Doze Regras de Codd” para ferramentas OLAP • Operações ilimitadas em dimensões cruzadas – As ferramentas OLAP devem ser capazes de navegar nas diversas dimensões existentes. • Manipulação intuitiva de dados – O usuários devem ser capazes de manipular os dados livremente, sem necessitar de qualquer tipo de ajuda. • Flexibilidade nas consultas – O usuário deve ter a flexibilidade para efetuar qualquer tipo de consulta. • Níveis de dimensão e agregação ilimitados – Devido às várias dimensões existentes, deve haver vários níveis de agregação dos dados. Asterio K. Tanaka Operações OLAP • Ferramentas OLAP fornecem suporte para funções de análise de dados, típicas de aplicações avançadas de planilhas eletrônicas. • Operações dimensionais de ferramentas OLAP: – Slice and Dice (Ponto, Plano, Cubo) – Rotation (Rotação ou Pivotamento) – Drilling » Drill Down » Drill Across e Drill Through » Drill Up (Roll Up) – Ranking (Classificação por uma coluna) Asterio K. Tanaka Operadores Dimensionais • Ponto - Valor pontual – Interseção de valores (Fato) com relação aos eixos (Dimensões) • Plano – Slicing – Duas dimensões variando com outras fixas. • Cubo – Dicing – Todas as dimensões variando • Rotação – Pivotamento – Mudança dos eixos das dimensões, para fins de visualização – Vide tabelas dinâmicas no MS Excel Asterio K. Tanaka Operadores Drilling Drill-down Drill-up ou Roll-up Asterio K. Tanaka Operadores Drilling Drill Across Drill Through Asterio K. Tanaka Tipos de ferramentas OLAP • OLAP Multidimensional (MOLAP) – Utilizam estrutura de dados multidimensional e permitem a navegação pelos níveis de detalhamento em tempo real. – O BD e o SGBD são multidimensionais – Estrutura de dados é um array com um número fixo de dimensões. O (hiper)cubo é uma metáfora visual, onde as dimensões coexistem para todo ponto e são independentes entre si. • OLAP RELACIONAL (ROLAP) – Decorrência do uso consagrado de SGBDs relacionais nos BDs operacionais (transacionais), com as vantagens da tecnologia aberta e padronizada (SQL). – Utiliza os metadados no apoio à descrição do modelo de dados e na construção de consultas. Através de uma camada semântica acima do esquema relacional, os dados são apresentados ao usuário com visão multidimensional. • OLAP HÍBRIDO (HOLAP) – Tendência dos modernos SGBDs relacionais de adicionar uma arquitetura multidimensional para prover facilidades a ambientes de suporte a decisão. – Proporciona o desempenho e flexibilidade de um BD multidimensional e mantém a gerenciabilidade, escalabilidade, confiabilidade e acessibilidade conquistadas pelos BDs relacionais. Asterio K. Tanaka