Survey
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
* Your assessment is very important for improving the workof artificial intelligence, which forms the content of this project
Data Quality Don’t Sacrifice the “Intelligency” in BI Francisco Gomes da Silva / RM 34674 Alexandre Moya / RM 34235 Daniel Alvares / RM 34207 Milton Terra / RM 34468 Por que se preocupar? • A má qualidade dos dados custa US$ 600 bi para os EUA (estudo patrocinado por Dataflux e SAS); • A maior parte das análises gasta 50%-80% do tempo buscando e “limpando” dados; • Dados ruins levam a decisões inadequadas e geram gastos (por exemplo, perda de clientes e de credibilidade); • A qualidade dos dados e o Data Mining estão ligados: problemas com dados podem sugerir padrões enganosos. Processo de Produção de Dados Coletor de Dados Dados Coletados Processo 1 Administrador de Dados Consumidor de Dados Armazenamento e Manutenção de Dados Utilização de Dados Processo 2 Processo 3 Fonte: Knowing-Why About Data Processes and Data Quality, MIT Origem dos Dados • Compilações automáticas e obscuras de dados, enormes volumes; • Dados de toda corporação: diversas fontes de dados, integradas a força; • Falta de conexão entre a análise e os dados compilados. Interpretação dos Dados • Temos a informação correta para interpretar os dados? (metadata) • Os modelo de dados estão corretos e atualizados? • Os dados estão de acordo com o modelo? • Os dados e metadados são de fácil acesso? Ciclo de Qualidade dos Dados Obtenção e Distribuição de Dados Armazenamento de Dados Integração de Dados Recuperação de Dados Data Mining/Análise Estatística Respostas, Soluções e Decisões Corretas Fonte: Overview of Data Quality, DataQuality-Research.com Obtenção de Dados • Fontes de problemas: – – – – – Entrada manual de dados; Falta de padrões para formatos e conteúdos; Entrada paralela de dados (duplicações); Aproximações e substituições; Erros de julgamento. Obtenção de Dados • Sugestões: – Preemptiva: • Arquitetura do processo; • Gerenciamento do processo. – Retrospectiva: • Foco na limpeza (remover dados duplicados, fusão/exclusão, comparação de nomes e endereços); • Foco no diagnóstico (detecção automática de erros). Distribuição de Dados • Problemas: – Destruição ou adulteração de dados por um pré-processamento inadequado; – Perda de dados: • Estouro de buffer; • Problemas de transmissão; • Falta de checagens. Distribuição de Dados • Soluções: – Usar checksums; – Verificar o envio e a necessidade de re-transmissão prontamente; – Monitorar múltiplas fontes. Armazenamento de Dados • Problemas: – Metadados escassos ou desatualizados; – Modelos de dados e estruturas inadequados; – Modificações e alterações por demanda • Soluções: – Metadados; – Planejar com visão de futuro e personalizado por domínio; – Monitorar o perfil dos dados. Integração de Dados • Problemas: – Múltiplas fontes de dados; – Sincronização (tempo); – Dados informais; – Sistemas legados; – Fatores sociais; – Junções temporárias e por demanda ; Integração de Dados • Soluções – Utilização obrigatória de timestamps; – Soluções comerciais: • Migração de dados; • Limpeza e identificação do perfil de dados. – Ferramentas das comunidades de pesquisa. Recuperação de Dados • Problemas: – Erro humano; – Restrições computacionais; – Restrições e incompatibilidades de software. • Soluções: – Planejamento: dimensionar adequadamente o equipamento ao problema (ou vice-versa). Data Mining/Análise Estatística • Problemas: – Questões de escala, performance e garantia de confiabilidade; – Preso a uma família de modelos; – Falta de expertise; – Falta de familiaridade com os dados; – Utilização equivocada da experiência. Data Mining/Análise Estatística • Soluções: – Aumentar o grau de responsabilidade dos analistas; – Realizar análises contínuas ao invés de soluções rápidas; – Amostragem x Análise total; – Ciclos re-alimentados. Fatores de Qualidade em um DW Data Quality Interpretability usefulness relevancy to the DW acessibility data usage believability completeness sintax aliases version control accuracy consistence system availablity source currency origin semantic s Timeliness privileges non-volatility DW currency transaction availability credibility Fonte: Data Warehouse Quality: A Review of the DWQ Project, MIT Conclusões A qualidade dos dados utilizados para suportar o processo decisório dentro de um empresa é fator crítico para o sucesso. A qualidade dos dados é um processo, envolvendo todos níveis da empresa, seja na obtenção, no armazenamento, na compilação ou na análise dos dados, exigindo comprometimento com a qualidade do produto final – as informações – em todas as etapas. Conclusões "A ignorância é a maior ameaça para os negócios modernos.O risco da falta de conhecimento é imenso. A informação incompleta pode ser mais prejudicial que não ter a informação, pois nós acreditamos que conhecemos a verdadeira situação e tomamos decisões erradas.” Howard Dresner - Gartner Group Bibliografia • FRIEDMAN, T. & HWANG, E. – Data Quality: Don’t Sacrifice the ‘Intelligence’ in BI. Internet: www.fiap.com.br, 27/Junho/2001. • JARKE, Matthias & VASSILIOU, Yannis – Data Warehouse Quality: A Review of the DWQ Project – Internet: http://www.cs.brown.edu/courses/cs227/Papers/Projects/iq97_dwq.pdf, 1997. • DUBOIS, Len – The ROI of Data Quality.pdf – Internet: http://www.tdwi.org/research/display.aspx?ID=6354, 13/Maio/2002. • DUBOIS, Len – Ten Critical Factors for Successful Enterprisewide Data Quality – Internet: http://www.tdwi.org/research/display.aspx?ID=6341, 13/Maio/2002. • DUBOIS, Len – Data Quality in the Integrated Enterprise – Internet: http://www.tdwi.org/research/display.aspx?ID=6457, 14/Novembro/2002. • KNIGHTSBRIDGE Solutions LLC – Top 10 Trends in Business Intelligence and Data Warehousing for 2005. Internet: www.knightsbridge.com/pdfs/ white_papers/trends_01_2005.pdf, Janeiro/2005. • DASU, Tamraparni & JOHNSON, Theodore – Problems, Solutions & Research in Data Quality. Internet: http://dataqualityresearch.com/topics/SDM.ppt, 12/Abril/2002. • LEE, Yang W. & STRONG, Diane M. – Knowing-Why About Data Processes and Data Quality. Internet: http://web.mit.edu/tdqm/www/tdqmpub/Knowing-why.pdf, 2000. • LEE, Yang – Crafting Rules: Context-Reflective Data Quality Problem Solving. Internet: http://web.mit.edu/tdqm/www/tdqmpub/CraftingRules.pdf, 2000.