Download BANCOS DE DADOS

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
BANCO DE DADOS
DISTRIBUÍDOS e DATAWAREHOUSING
Asterio K. Tanaka
http://www.uniriotec.br/~tanaka/tin0036
[email protected]
Introdução a Data Warehousing
e OLAP
Asterio K. Tanaka
Introdução a Data Warehouse e
Modelagem Dimensional
• Visão Geral de BI
– ERM, EAI, CRM, PRM, ERP, ...
•
•
•
•
OLTP x OLAP
Definições e Arquitetura de DW
Projeto de DW
Modelagem dimensional
– Esquema Estrela
» Fatos
» Dimensões
» Hierarquias e Agregados
– Esquema Snowflake
Asterio K. Tanaka
Sistemas na Pirâmide Organizacional
(Sprague & Watson, 1991)
Asterio K. Tanaka
Visão Geral da Arquitetura ERM – Enterprise Relationship Management
(BI-Business Intelligence, C. Barbieri, Axcel Books, 2001)
Alta Gerência
BSC
Business Intelligence
KMS
CI
EAI
Enteprise Application
Integration
CRM
B2C
Clientes
PRM
B2B
ERP
Outros sistemas
transacionais
Parceiros/Fornecedores
Asterio K. Tanaka
Suporte à Decisão
Produção e distribuição de INFORMAÇÃO ÚTIL para
gerentes, executivos e analistas do conhecimento.
INFORMAÇÃO ÚTIL! Mas de que forma?
Com:
•
•
•
Agilidade
Flexibilidade
Precisão
Asterio K. Tanaka
Ambiente de Sistemas de Aplicação
Operacionais
• Dão suporte às funções
associadas à execução
do negócio da
empresa:
– ERP, SCM
– B2C, B2B
– Sistemas transacionais
legados
– etc.
Informacionais
• Dão suporte às
funções associadas à
concepção do
negócio da empresa
–
–
–
–
DSS, EIS
DW, CRM, PRM
Ferramentas OLAP
Ferramentas de Data
Mining
– etc.
Asterio K. Tanaka
Business Inteligence
• Inteligência Aplicada aos Negócios
– BI é um conjunto de tecnologias que permitem o cruzamento
de informações e suportam a análise dos indicadores de
desempenho de um negócio.
• Data Warehouse é um componente essencial
de BI (é o banco de dados da BI)
• Ferramentas OLAP e de Data Mining são
usadas como ferramentas de apoio à decisão,
para análise e extração de dados de Data
Warehouses.
Asterio K. Tanaka
OLTP x OLAP
Características Dados operacionais
Dados informacionais
Conteúdo
Valores correntes, detalhados
Valores históricos, sumariados
Organização dos
dados
Por aplicação, sistema de
informação
Por assunto, negócio
Natureza dos dados
Dinâmica, sujeita a atualizações
freqüentes
Estática, atualização apenas
com “refreshment”
Estrutura de dados
Relacional, própria para
processamento transacional
Dimensional, própria para
processamento analítico
Uso
Estruturado, repetitivo
Desestruturado, consultas sob
diferentes perspectivas
Desempenho
Otimizado para tempo de resposta
(máximo 2 a 3 segundos)
Análises complexas, com
tempos de respostas maiores
Asterio K. Tanaka
Suporte à Decisão
“Tradicional”
Analista do negócio
Ambiente Operacional
•
•
•
•
Dados não estão adequados para suporte à decisão
Sistemas de suporte à decisão desenvolvidos ad-hoc
Analista do Negócio vira “Programador”
Longo tempo de espera
Asterio K. Tanaka
Porque um ambiente de Data Warehouse?
Aplicação Ferramenta Aplicação
EIS
SD
OLAP
9 Integrar dados de múltiplas
fontes
DW
9 Facilitar o processo de análise
sem impacto para o ambiente de
dados operacionais
9 Obter informação de qualidade
9 Atender diferentes tipos de
usuários finais
9 Flexibilidade e agilidade para
atender novas análises
BDs Operacionais
Asterio K. Tanaka
Data Warehouse - Definições
• Processos, ferramentas e recursos para gerenciar e
disponibilizar informações de negócios precisas e
inteligíveis para que indivíduos possam tomar
decisões efetivas.
• Um ambiente para adequadamente organizar,
gerenciar e disponibilizar informações oriundas de
fontes diversas, fornecendo um visão única de parte
ou de todo o negócio com o objetivo de dar suporte a
operações analíticas.
Asterio K. Tanaka
Definição de Data Warehouse
“A Data Warehouse is a
subject-oriented,
integrated,
time-variant,
non-volatile
collection of data in support
of management’s decision-making process.”
(W. Imnon)
Um banco de dados destinado a sistemas de suporte à
decisão, cujos dados são armazenados em estruturas lógicas
dimensionais, possibilitando o seu processamento analítico
por ferramentas OLAP e de mineração de dados.
Asterio K. Tanaka
Arquitetura Genérica de um
Data Warehouse
Meta Dados
FERRAMENTAS
DE CONSULTA
FONTES DE DADOS
OLAP
BDs Operacionais
Extração
Transformação
Carga
Atualização
Análise
Data Mining
Data Warehouse
Relatórios
Fontes Externas
Data Marts
OLAP
Chaudhri&Dayal, SIGMOD RECORD 1997
Asterio K. Tanaka
Estratégias de projeto de DW
• O Data Warehouse Corporativo
• Data Warehouses Departamentais
• Data Warehouses Funcionais
–
Marketing, Financeiro, Admnistrativo, etc.
• Data Warehouses para projetos especiais
• ...
Asterio K. Tanaka
O Mito
Para serem úteis, os Data Warehouses devem
possuir grande abrangência, com dados de
variadas fontes abrangendo os diversos
aspectos da Empresa.
• Pré-requisito : empresa totalmente
informatizada e integrada.
• Implicação : projetos extremamente complexos
e com alta probabilidade de insucesso.
Asterio K. Tanaka
A Realidade
• Projetos evolutivos
• Enfoque inicial nos aspectos mais críticos
• Aproveitamento da estrutura operacional
disponível
• Retorno mais rápido
• Acúmulo de experiência : menor risco e
menor custo
Asterio K. Tanaka
Abordagem corrente :
• Estratégia
–
–
–
–
Desenvolver incrementalmente
Visão Integrada
Dividir para conquistar
Errar pequeno
• Implementação
– Planejamento Top-Down
– Desenvolvimento Bottom-Up, um Data Mart de cada vez,
resultados devem ser atingidos em pequenos ciclos (ex.: a
cada 3 meses)
– Cada Data Mart deve ser encarado de forma evolutiva
• Desafio
– Garantir a coerência entre os vários Data Marts
Asterio K. Tanaka
Data Mart - Conceito
“Um subconjunto lógico do Data Warehouse, geralmente
visto como um data warehouse setorial.” (Kimball)
Uma perspectiva top-down considera que um DW completo,
centralizado deva ser desenvolvido antes que partes dele,
sumariadas, possam ser derivadas na forma de Data Marts.
Uma perspectiva bottom-up, considera que um DW possa ser
composto a partir de Data Marts previamente desenvolvidos.
Asterio K. Tanaka
Fatores Críticos de Sucesso em
Projetos de DW/DM
• Foco bem definido
• Patrocinador forte
• Existência dos dados necessários
• Envolvimento dos usuários
• Qualificação da equipe de projeto
• Arquitetura tecnológica bem definida
• Marketing interno e acompanhamento
• Gerência e manutenção de metadados
Asterio K. Tanaka
Modelagem para Data Warehouse
• Requisitos distintos das aplicações do
ambiente transacional:
–flexibilidade quanto às análises a suportar
–medidas a analisar precisam ser vistas sob
diferentes perspectivas
• Enfoque diferente da modelagem no ambiente
operacional
• Abordagem utilizada:
MODELAGEM DIMENSIONAL
Asterio K. Tanaka
Visão multidimensional
• Facilita o entendimento e visualização de
problemas típicos de suporte à decisão
• Mais intuitiva para o processamento analítico
• Utilizada pelas ferramentas OLAP
A visão lógica é multidimensional, embora a
estrutura física tenha a mesma visão tabular
do modelo relacional.
Asterio K. Tanaka
Estrutura Relacional
Volume de vendas (do revendedor GLEASON)
MODEL
COLOR
SALES VOLUME
MINI VAN
BLUE
6
MINI VAN
RED
5
MINI VAN
WHITE
4
SPORTS COUPE
BLUE
3
SPORTS COUPE
RED
5
SPORTS COUPE
WHITE
5
SEDAN
BLUE
4
SEDAN
RED
3
SEDAN
WHITE
2
Asterio K. Tanaka
Visão matricial ou multidimensional
Volume de Vendas (do revendedor Gleason)
M
O
D
E
L
Mini Van
6
5
4
Coupe
3
5
5
Sedan
4
3
2
Blue
Red
White
COLOR
9 Um array multidimensional tem um número fixo de dimensões e
os valores são armazenados nas células
9 Cada dimensão consiste de um número de elementos
Asterio K. Tanaka
Acrescentando mais uma coluna...
Volume de Vendas
de todos os
revendedores
MODEL
COLOR
DEALERSHIP
MINI VAN
MINI VAN
MINI VAN
MINI VAN
MINI VAN
MINI VAN
MINI VAN
MINI VAN
MINI VAN
SPORTS COUPE
SPORTS COUPE
SPORTS COUPE
SPORTS COUPE
SPORTS COUPE
SPORTS COUPE
SPORTS COUPE
SPORTS COUPE
SPORTS COUPE
SEDAN
SEDAN
SEDAN
SEDAN
SEDAN
SEDAN
SEDAN
SEDAN
SEDAN
BLUE
BLUE
BLUE
RED
RED
RED
WHITE
WHITE
WHITE
BLUE
BLUE
BLUE
RED
RED
RED
WHITE
WHITE
WHITE
BLUE
BLUE
BLUE
RED
RED
RED
WHITE
WHITE
WHITE
CLYDE
GLEASON
CARR
CLYDE
GLEASON
CARR
CLYDE
GLEASON
CARR
CLYDE
GLEASON
CARR
CLYDE
GLEASON
CARR
CLYDE
GLEASON
CARR
CLYDE
GLEASON
CARR
CLYDE
GLEASON
CARR
CLYDE
GLEASON
CARR
VOLUME
6
6
2
3
5
5
2
4
3
2
3
2
7
5
2
4
5
1
6
4
2
1
3
4
2
2
3
Asterio K. Tanaka
Visão multidimensional
Volume de Vendas
M
O
D
E
L
Mini Van
Coupe
Carr
Gleason
Clyde
Sedan
Blue
DEALERSHIP
Red White
COLOR
• O cubo é, de fato, apenas uma metáfora visual.
• É uma representação intuitiva do fato porque todas as
dimensões coexistem para todo ponto no cubo e são
independentes umas das outras.
Asterio K. Tanaka
Adicionando Dimensões - Hipercubos
Volume de Vendas
M
O
D
E
L
Mini Van
Mini Van
Mini Van
Coupe
Coupe
Coupe
Carr
Gleason
Clyde
Sedan
Blue
Red
White
COLOR
JANUARY
Carr
Gleason
Clyde
Sedan
Blue
Red
White
COLOR
FEBRUARY
Carr
Gleason
Clyde
Sedan
Blue
Red
DEALERSHIP
White
COLOR
MARCH
Asterio K. Tanaka
Níveis nas dimensões ou Hierarquias
Total de vendas
Produto
Alfa1
Dimensão:
área
NE
maio
15
30
SUL
NO
SE
RS
SC
AC
34
23
45
62
56
23
92
73
23
234
13
87
21
34
14
PE
Dimensão: 7
tempo
14
abril
21
29
1996
Brasil
…..46
18
AM
150
…..
• Hierarquias são a base das agregações
Asterio K. Tanaka
Agregados
Categoria
Vendas
Região
Produto
Trimestre
XPTO
...
XPTA
XPTN
o ril io
ç
ar Ab Ma ...
M
Mês
ES
SP
RJ
Estado
Asterio K. Tanaka
Problemas
Calcular
Calcularos
osagregados
agregadosno
nomomento
momento
da
darecuperação
recuperaçãoou
ouarmazená-los?
armazená-los?
Armazenamento
X
Tempo de
Resposta
BD3
BD4
BD2
BD1
BD3
BD4
BD2
BD1
Asterio K. Tanaka
A Síndrome da Explosão no
Volume de Dados
Número de Agregações
70000
65536
60000
50000
40000
30000
20000
16384
10000
0
16
2
3
4
4096
1024
256
64
5
6
7
8
Número de Dimensões
(4 níveis em cada dimensão)
Asterio K. Tanaka
Agregados
• As hierarquias permitem que o usuário possa ter
acesso a dados com maior ou menor detalhe
• Os valores apresentados quando o analista
consulta dados em níveis hierárquicos mais altos
são valores agregados
Asterio K. Tanaka
Exemplo
Qual a margem de
contribuição de cada
área de vendas?
Asterio K. Tanaka
Hierarquias e Agregados
Produto
Tempo
Geografia
Consultas
Marca
Ano
País
Categoria
Trimestre
Região
Produto
Mês
Estado
Vendas por
Produto,
Marca,
Trimestre
Ano e
eRegião
Região
Asterio K. Tanaka
Visão dos fatos e dimensões em uma ferramenta OLAP
Asterio K. Tanaka
Ferramentas OLAP
• OLAP: On Line Analytical Processing
– Conjunto de técnicas para tratar informações contidas em DW.
– Visão Multidimensional dos Dados
• Termo proposto por E.F. Codd, em 1993
– Providing OLAP to User-Analysts: An IT Mandate.
• “Doze Regras de Codd” para ferramentas OLAP:
–
–
–
–
–
–
–
–
–
–
–
–
Visão conceitual multidimensional
Transparência
Acessibilidade
Desempenho de Informações consistentes
Arquitetura Cliente Servidor
Dimensionalidade genérica
Manipulação de dados dinâmicos
Suporte a multiusuários
Operações ilimitadas em dimensões cruzadas
Manipulação intuitiva de dados
Flexibilidade nas consultas
Níveis de dimensão e agregação ilimitados
Asterio K. Tanaka
“Doze Regras de Codd” para ferramentas OLAP
• Visão conceitual multidimensional
– Os dados são modelados em diversas dimensões podendo
haver cruzamento de todos os tipos de informações
• Transparência
– OLAP deve atender a todas as solicitações do analista, não
importando de onde os dados virão. Todas as implicações
devem ser transparentes para os usuários finais.
• Acessibilidade
– As ferramentas OLAP devem permitir conexão com todas as
bases de dados legadas. A distribuição de informações deve
ser mapeada para permitir o acesso a qualquer base.
• Desempenho de Informações consistentes
– As ferramentas OLAP devem possuir conhecimento sobre
todas as informações armazenadas que possa disponibilizar,
sem complexidade para o usuário final, qualquer tipo de
consulta.
Asterio K. Tanaka
“Doze Regras de Codd” para ferramentas OLAP
• Arquitetura Cliente Servidor
– OLAP deve ser construída em arquitetura C/S para que
possa atender a qualquer usuário em qualquer ambiente
operacional
• Dimensionalidade genérica
– Deve ser capaz de tratar informações em qualquer
quantidade de dimensões
• Manipulação de dados dinâmicos
– Devido ao grande volume de informações armazenadas nas
diversas dimensões de um modelo multidimensional, é
comum a esparsidade dos dados, e então essas células
nulas devem ser tratadas para evitar custos com memória.
• Suporte a multiusuários
– Nas grandes organizações, é comum vários analistas
trabalharem com a mesma massa de dados.
Asterio K. Tanaka
“Doze Regras de Codd” para ferramentas OLAP
• Operações ilimitadas em dimensões cruzadas
– As ferramentas OLAP devem ser capazes de navegar nas
diversas dimensões existentes.
• Manipulação intuitiva de dados
– O usuários devem ser capazes de manipular os dados
livremente, sem necessitar de qualquer tipo de ajuda.
• Flexibilidade nas consultas
– O usuário deve ter a flexibilidade para efetuar qualquer tipo
de consulta.
• Níveis de dimensão e agregação ilimitados
– Devido às várias dimensões existentes, deve haver vários
níveis de agregação dos dados.
Asterio K. Tanaka
Operações OLAP
• Ferramentas OLAP fornecem suporte para funções
de análise de dados, típicas de aplicações avançadas
de planilhas eletrônicas.
• Operações dimensionais de ferramentas OLAP:
– Slice and Dice (Ponto, Plano, Cubo)
– Rotation (Rotação ou Pivotamento)
– Drilling
» Drill Down
» Drill Across e Drill Through
» Drill Up (Roll Up)
– Ranking (Classificação por uma coluna)
Asterio K. Tanaka
Operadores Dimensionais
• Ponto - Valor pontual
– Interseção de valores (Fato) com relação aos eixos (Dimensões)
• Plano – Slicing
– Duas dimensões variando com outras fixas.
• Cubo – Dicing
– Todas as dimensões variando
• Rotação – Pivotamento
– Mudança dos eixos das dimensões, para fins de visualização
– Vide tabelas dinâmicas no MS Excel
Asterio K. Tanaka
Operadores Drilling
Drill-down
Drill-up ou Roll-up
Asterio K. Tanaka
Operadores Drilling
Drill
Across
Drill
Through
Asterio K. Tanaka
Tipos de ferramentas OLAP
• OLAP Multidimensional (MOLAP)
– Utilizam estrutura de dados multidimensional e permitem a navegação pelos
níveis de detalhamento em tempo real.
– O BD e o SGBD são multidimensionais
– Estrutura de dados é um array com um número fixo de dimensões. O
(hiper)cubo é uma metáfora visual, onde as dimensões coexistem para todo
ponto e são independentes entre si.
• OLAP RELACIONAL (ROLAP)
– Decorrência do uso consagrado de SGBDs relacionais nos BDs operacionais
(transacionais), com as vantagens da tecnologia aberta e padronizada
(SQL).
– Utiliza os metadados no apoio à descrição do modelo de dados e na
construção de consultas. Através de uma camada semântica acima do
esquema relacional, os dados são apresentados ao usuário com visão
multidimensional.
• OLAP HÍBRIDO (HOLAP)
– Tendência dos modernos SGBDs relacionais de adicionar uma arquitetura
multidimensional para prover facilidades a ambientes de suporte a decisão.
– Proporciona o desempenho e flexibilidade de um BD multidimensional e
mantém a gerenciabilidade, escalabilidade, confiabilidade e acessibilidade
conquistadas pelos BDs relacionais.
Asterio K. Tanaka