Download Baixar Agora - Maceiras Sistemas

Survey
yes no Was this document useful for you?
   Thank you for your participation!

* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project

Document related concepts
no text concepts found
Transcript
Data Quality
Don’t Sacrifice the “Intelligency” in BI
Francisco Gomes da Silva / RM 34674
Alexandre Moya / RM 34235
Daniel Alvares / RM 34207
Milton Terra / RM 34468
Por que se preocupar?
• A má qualidade dos dados custa US$ 600 bi para os
EUA (estudo patrocinado por Dataflux e SAS);
• A maior parte das análises gasta 50%-80% do tempo
buscando e “limpando” dados;
• Dados ruins levam a decisões inadequadas e geram
gastos (por exemplo, perda de clientes e de
credibilidade);
• A qualidade dos dados e o Data Mining estão ligados:
problemas com dados podem sugerir padrões
enganosos.
Processo de Produção de Dados
Coletor de Dados
Dados
Coletados
Processo 1
Administrador de Dados
Consumidor de Dados
Armazenamento e
Manutenção de Dados
Utilização
de Dados
Processo 2
Processo 3
Fonte: Knowing-Why About Data Processes and Data Quality, MIT
Origem dos Dados
• Compilações automáticas e obscuras de
dados, enormes volumes;
• Dados de toda corporação: diversas fontes
de dados, integradas a força;
• Falta de conexão entre a análise e os
dados compilados.
Interpretação dos Dados
• Temos a informação correta para interpretar os
dados? (metadata)
• Os modelo de dados estão corretos e
atualizados?
• Os dados estão de acordo com o modelo?
• Os dados e metadados são de fácil acesso?
Ciclo de Qualidade dos Dados
Obtenção e Distribuição de Dados
Armazenamento
de Dados
Integração de Dados
Recuperação de Dados
Data Mining/Análise Estatística
Respostas, Soluções e Decisões Corretas
Fonte: Overview of Data Quality, DataQuality-Research.com
Obtenção de Dados
• Fontes de problemas:
–
–
–
–
–
Entrada manual de dados;
Falta de padrões para formatos e conteúdos;
Entrada paralela de dados (duplicações);
Aproximações e substituições;
Erros de julgamento.
Obtenção de Dados
• Sugestões:
– Preemptiva:
• Arquitetura do processo;
• Gerenciamento do processo.
– Retrospectiva:
• Foco na limpeza (remover dados duplicados, fusão/exclusão,
comparação de nomes e endereços);
• Foco no diagnóstico (detecção automática de erros).
Distribuição de Dados
• Problemas:
– Destruição ou adulteração de dados por um
pré-processamento inadequado;
– Perda de dados:
• Estouro de buffer;
• Problemas de transmissão;
• Falta de checagens.
Distribuição de Dados
• Soluções:
– Usar checksums;
– Verificar o envio e a necessidade de
re-transmissão prontamente;
– Monitorar múltiplas fontes.
Armazenamento de Dados
• Problemas:
– Metadados escassos ou desatualizados;
– Modelos de dados e estruturas inadequados;
– Modificações e alterações por demanda
• Soluções:
– Metadados;
– Planejar com visão de futuro e personalizado por
domínio;
– Monitorar o perfil dos dados.
Integração de Dados
• Problemas:
– Múltiplas fontes de dados;
– Sincronização (tempo);
– Dados informais;
– Sistemas legados;
– Fatores sociais;
– Junções temporárias e por demanda ;
Integração de Dados
• Soluções
– Utilização obrigatória de timestamps;
– Soluções comerciais:
• Migração de dados;
• Limpeza e identificação do perfil de dados.
– Ferramentas das comunidades de pesquisa.
Recuperação de Dados
• Problemas:
– Erro humano;
– Restrições computacionais;
– Restrições e incompatibilidades de software.
• Soluções:
– Planejamento: dimensionar adequadamente o
equipamento ao problema (ou vice-versa).
Data Mining/Análise Estatística
• Problemas:
– Questões de escala, performance e garantia
de confiabilidade;
– Preso a uma família de modelos;
– Falta de expertise;
– Falta de familiaridade com os dados;
– Utilização equivocada da experiência.
Data Mining/Análise Estatística
• Soluções:
– Aumentar o grau de responsabilidade dos
analistas;
– Realizar análises contínuas ao invés de
soluções rápidas;
– Amostragem x Análise total;
– Ciclos re-alimentados.
Fatores de Qualidade em um DW
Data Quality
Interpretability
usefulness
relevancy
to the DW
acessibility
data usage
believability
completeness
sintax
aliases
version
control
accuracy
consistence
system
availablity
source
currency
origin
semantic
s
Timeliness
privileges
non-volatility
DW currency
transaction
availability
credibility
Fonte: Data Warehouse Quality: A Review of the DWQ Project, MIT
Conclusões
A qualidade dos dados utilizados para suportar o
processo decisório dentro de um empresa é fator
crítico para o sucesso.
A qualidade dos dados é um processo, envolvendo
todos níveis da empresa, seja na obtenção, no
armazenamento, na compilação ou na análise dos
dados, exigindo comprometimento com a qualidade
do produto final – as informações – em todas as
etapas.
Conclusões
"A ignorância é a maior ameaça para os negócios
modernos.O risco da falta de conhecimento é imenso. A
informação incompleta pode ser mais prejudicial que não
ter a informação, pois nós acreditamos que conhecemos a
verdadeira situação e tomamos decisões erradas.”
Howard Dresner - Gartner Group
Bibliografia
•
FRIEDMAN, T. & HWANG, E. – Data Quality: Don’t Sacrifice the ‘Intelligence’ in BI. Internet: www.fiap.com.br, 27/Junho/2001.
•
JARKE, Matthias & VASSILIOU, Yannis – Data Warehouse Quality: A Review of the DWQ Project – Internet:
http://www.cs.brown.edu/courses/cs227/Papers/Projects/iq97_dwq.pdf, 1997.
•
DUBOIS, Len – The ROI of Data Quality.pdf – Internet: http://www.tdwi.org/research/display.aspx?ID=6354, 13/Maio/2002.
•
DUBOIS, Len – Ten Critical Factors for Successful Enterprisewide Data Quality – Internet:
http://www.tdwi.org/research/display.aspx?ID=6341, 13/Maio/2002.
•
DUBOIS, Len – Data Quality in the Integrated Enterprise – Internet: http://www.tdwi.org/research/display.aspx?ID=6457,
14/Novembro/2002.
•
KNIGHTSBRIDGE Solutions LLC – Top 10 Trends in Business Intelligence and Data Warehousing for 2005. Internet:
www.knightsbridge.com/pdfs/ white_papers/trends_01_2005.pdf, Janeiro/2005.
•
DASU, Tamraparni & JOHNSON, Theodore – Problems, Solutions & Research in Data Quality. Internet: http://dataqualityresearch.com/topics/SDM.ppt, 12/Abril/2002.
•
LEE, Yang W. & STRONG, Diane M. – Knowing-Why About Data Processes and Data Quality. Internet:
http://web.mit.edu/tdqm/www/tdqmpub/Knowing-why.pdf, 2000.
•
LEE, Yang – Crafting Rules: Context-Reflective Data Quality Problem Solving. Internet:
http://web.mit.edu/tdqm/www/tdqmpub/CraftingRules.pdf, 2000.