O sistema gerenciamento de dados é essencial para as empresas organizarem as informações e alcançar bons resultados. Contudo, para garantir a qualidade do seu funcionamento é preciso contar com um produto eficiente, como o data warehouse.
A ferramenta traz vários benefícios para os negócios, como a redução da carga de trabalho da equipe de atendimento ao cliente. Em poucas palavras, o data warehouse é capaz de coletar, limpar, armazenar e compartilhar dados. Sem dúvida, algo em que o DPO (Encarregado de Proteção de Dados) deve ficar de olho.
O que é data warehouse?
Data warehouse, ou DW, significa, em português, armazém de dados. É um tipo de sistema de gerenciamento de dados projetado para habilitar e apoiar atividades de business intelligence (BI). Em resumo, o data warehouse serve exclusivamente para consulta e análise, além de armazenar dados históricos extensos.
Em geral, as informações de um data warehouse derivam de uma variedade de fontes. Por exemplo, uma planilha ou um banco de dados, que capturam ou guardam dados de interesse.
Os arquivos são salvos em um ou mais servidores, fixos ou em nuvem. Quando necessário, usuários de várias divisões da empresa podem acessar e analisar dados de acordo com as necessidades.
Pode-se pensar que um data warehouse é um grande banco de dados relacional. Na verdade, embora ambos sejam sistemas de dados relacionais, eles possuem propósitos diferentes.
Um data warehouse é construído para armazenar grandes quantidades de dados históricos. Assim, permite consultas rápidas e complexas em todos os dados por meio do Online Analytical Processing (OLAP).
Em vez disso, um banco de dados relacional é mais simples. Da mesma forma que o DW, é capaz de armazenar transações atuais e permitir acesso rápido a transações específicas apenas para processos de negócios em andamento pelo Online Transaction Processing (OLTP).
Como funciona um data warehouse?
Em sua forma mais simples, um data warehouse funciona como um armazém central onde as informações vêm de uma ou mais fontes de dados. As informações fluem a partir do sistema transacional e de outros bancos de dados relacionais após serem processados, transformados e carregados.
Dessa forma, os usuários podem acessá-lo para realizar análises ao utilizar ferramentas de business intelligence, SQL Developer e planilhas.
O processo de extração, transformação e carregamento é realizado pelo ETL (Extract Transform Load). O objetivo é mesclar todas essas informações em um só lugar.
O processo ETL no data warehouse
1. Extração
A primeira etapa do procedimento ETL na governança de dados é extrair dados de várias fontes e aplicativos para processamento posterior. Isso pode ser feito por:
- Extração completa: os sistemas são incapazes de reconhecer os dados que passaram por alteração. Como resultado, todos os dados armazenados na fonte retornam sem a necessidade de monitorar as alterações da última extração. Só para ilustrar, uma instrução SQL apresenta a tabela completa com todos os registros e valores;
- Extração incremental: neste caso, alguns sistemas de origem são capazes de identificar as alterações feitas no banco de dados. Dessa maneira, é possível extrair os dados que sofreram modificação na forma de uma nova tabela ou coluna no aplicativo de origem. Nessa abordagem, é preciso rastrear as alterações feitas na fonte de dados desde a última extração.
2. Transformação
Muitos dos data warehouses não permitem transformações durante a fase de extração, mas promovem a extração completa, especialmente ao lidar com grandes quantidades de dados.
É importante que o processo de extração seja executado de forma que não danifique a fonte de dados original em termos de desempenho e tempo de resposta.
A segunda fase do ETL é a transformação, que implementa algumas regras sobre os dados extraídos para transformá-los de acordo com os requisitos.
Em outras palavras, é a aplicação de várias consultas e funções no banco de dados atual para recuperar um conjunto ordenado de registros, sem repetições.
As operações de transformação incluem mesclar dados de duas fontes de dados diferentes. Entre as tarefas estão a agregação, conexão e classificação dos itens, além de muitas regras de validação avançadas que seguem instruções do SQL.
3. Carregamento
A última etapa consiste em carregar os dados trabalhados e transformados no data warehouse para análise posterior. Embora seja permitido fazer transformações durante o carregamento, se necessário, é recomendado que a execução seja feita antes da conclusão do processo.
O carregamento bem-sucedido e eficiente de dados no banco de dados de destino garante a integridade e a adequação dos dados.
Embora o processo ETL seja simples, alguns deles podem falhar devido a trechos ausentes ou valores incorretos nas tabelas referenciadas ou simplesmente um erro de conexão.
Portanto, é importante que a ferramenta ETL mantenha a integridade referencial e implemente tolerância a falhas à medida que os dados são carregados no data warehouse.
Tipos de data warehouses
Existem muitos tipos de data warehouses no mercado. Os mais comuns são:
- Enterprise Data Warehouse: nada mais é do que um warehouse central que fornece serviço de suporte para toda a empresa e oferece uma abordagem uniforme que organiza e representa os dados. A classificação das informações é por tópico e o acesso pode ser restrito a alguns usuários com base nessas divisões;
- Arquivo de dados operacionais: também chamado de ODS (Operational Data Store), são os dados de arquivo necessários quando os sistemas OLTP falham por algum motivo. Esse tipo de data warehouse tem atualização em tempo real e é ideal para tarefas de rotina, como manter registros de funcionários;
- Data Mart: muita gente confunde com o data warehouse, mas, na verdade, trata-se de um subconjunto do DW que serve para uma determinada linha de negócios, como vendas, finanças ou manufatura. Outro detalhe é que em um data mart independente, os dados vêm diretamente das fontes.
Vantagens do data warehouse
As empresas que usam um data warehouse para auxiliar em suas análises e inteligência de negócios obtêm vários benefícios:
- Dados com mais qualidade: adicionar fontes de dados a um data warehouse permite um melhor manejo das informações. Não é preciso perguntar se os dados estarão acessíveis ou inconsistentes quando entrarem no sistema, o que é assertivo nas tomadas de decisão;
- Acesso rápido e fácil aos dados: a velocidade é um fator importante que pode fazer a diferença. Os usuários podem acessar os dados com rapidez de várias fontes de um data warehouse, o que significa que um tempo valioso não será desperdiçado no trabalho;
- Melhora a tomada de decisões: os tomadores de decisões de negócios não se baseiam apenas em dados e insights limitados. Os data warehouses armazenam fatos e estatísticas confiáveis, e os executivos podem recuperar essas informações do data warehouse de acordo com as necessidades. Além disso, um data warehouse também pode ajudar na segmentação do marketing, gerenciamento de estoque, financeiro e vendas;
- Grande arquivo: um data warehouse armazena grandes quantidades de dados históricos para a análise posterior de diferentes períodos de tempo e tendências, a fim de fazer previsões futuras.
Agora que você já entendeu a importância de uma boa governança de dados pelo data warehouse, saiba que esse sistema considera o sigilo das informações, uma das exigências da Lei Geral de Proteção de Dados (LGPD), o que constitui outro benefício para esse sistema.
O objetivo da lei é assegurar a privacidade e segurança de dados pessoais, independente da ferramenta, como o data warehouse ou outros sistemas de armazenamento de informações.