Blog da Five Acts

12 de Agosto de 2020

data-lake-data-warehouse

Você conhece a fundo a diferença entre Data Lake e Data Warehouse? E qual pode ser a melhor opção para ser implementada em uma empresa? Neste artigo, iremos trazer o conceito de cada estrutura para te auxiliar nesta decisão.

Continue conosco!

Qual a imagem que vem a sua mente quando você escuta o termo armazém? Provavelmente um grande galpão, com prateleiras categorizadas e cheias de produtos, não é mesmo?

Bem, podemos visualizar um Data Warehouse da mesma forma. 

Carinhosamente chamado de DW, ele é aquele repositório central onde todos os dados importantes da empresa estão armazenados.

Dentro do DW os dados podem ser agrupados em conjuntos que fazem sentido para o negócio, como dados de RH, financeiro, vendas, etc. Chamamos esses conjuntos de Data Marts. 

Bem, se isso é um Data Warehouse o que é um Data Lake? Quais são as diferenças? Como podemos comparar um “armazém de dados” a um “lago de dados”?

Data Lake e Data Warehouse: Tipo dos dados armazenados

A primeira grande diferença entre um data lake e data warehouse é o tipo de dados que são armazenados dentro deles.

Enquanto um Data Lake armazena qualquer tipo de dados, incluindo arquivos, logs, imagens ou dados de sensores, por exemplo, o Data Warehouse armazena primariamente dados estruturados.

Estrutura de armazenamento de dados

Antes de criar um Data Warehouse é necessário definir como os dados serão armazenados.

Isso é feito através de uma modelagem de dados, onde são definidas as tabelas, colunas e os tipos dos dados que serão armazenados.

Em um DW, primeiro você define o esquema de dados e depois você armazena os dados dentro do que foi especificado.

Já em Data Lake, o funcionamento é oposto. Você armazena qualquer tipo de dados e apenas no momento de ler esses dados é que você define como ele deverão ser estruturados.

Diversidade de casos de uso

Normalmente os dados armazenados no DW são massivamente utilizados em casos de uso de Business Intelligence (BI) através de ferramentas de consulta que se baseiam em consultas SQL.

Os casos de uso ferramentas de Data Lake, por sua vez, podem ser dos mais variados.

Além de BI, os dados em um Data Lake são normalmente utilizados por cientistas de dados para realização de estudos e criação de modelos preditivos, APIs, aplicativos, entre outros.

Nível de detalhe dos dados armazenados

diferença entre data lake e data warehouse: armazenamento de dados

Além dessa já citada, outra grande diferença entre essas duas formas de armazenamento de dados é o nível de detalhe ou granularidade na qual os dados são armazenados.

Em um Data Lake, são armazenados tanto dados transacionais quanto dados processados e agregados.

Já um Data Warehouse é ideal para armazenarmos dados que são acessados com mais frequência, de forma agregada e consolidada.

Por exemplo, você poderia armazenar os dados brutos de cada transação de vendas no seu Data Lake, e apenas os dados agrupados das vendas diárias por produto e loja no seu Data Warehouse.

Armazenamento e processamento entre o Data Lake e Data Warehouse

A forma como os dados são armazenados e processados diferem quando comparamos um Data Lake a um Data Warehouse.

Em uma solução de Data Warehouse o armazenamento e o processamento dos dados estão quase sempre acoplados.

Ou seja, o dado é armazenado dentro do banco de dados responsável por processá-lo.

Em um Data Lake, por outro lado, os dados são armazenados em um repositório e o processamento depende da ferramenta que você irá utilizar para acessá-lo.

Estrutura Data Lake: 3 razões para a sua empresa ter uma

data lake ferramentas para empresas

Agora que você entendeu a comparação entre Data Warehouse e Data Lake, você deve estar se perguntando: Quais são as razões pelas quais a minha empresa precisaria de uma Data Lake? É uma boa pergunta.

Aqui estão três razões que podem justificar a criação de um Data Lake para sua empresa:

  1. Crescimento exponencial dos dados: caso você tenha um volume crescente de dados de diferentes origens, como logs web, dados de sensores, transações detalhadas, logs de infraestrutura, dados de redes sociais, etc, e acredite que é de fato necessários armazená-los.
  2. Consumidores de dados diversos: se os seus dados precisam ser consumidos por tipos diferentes de públicos, como cientistas de dados, aplicações, analistas de negócio e clientes externos.
  3. Formas de acesso diversas: se os seus dados precisam ser acessados de diferentes formas, como APIs, Notebooks e ferramentas de BI.

A esta altura é importante deixar claro que um Data Lake não substitui um Data Warehouse.

Na realidade, o Data Lake estende a capacidade do seu Data Warehouse e até utiliza o DW como um dos seus repositórios, permitindo que a sua empresa suporte uma quantidade maior de casos de uso de dados.

Bem, espero que tenha conseguido esclarecer um pouco sobre a diferença entre Data Lake e Data Warehouse.

Enquanto no nosso “armazém de dados” a “mercadoria” deve ser armazenada em prateleiras adequadamente categorizadas para seu tipo de volume, o nosso “lago de dados” possui um ecossistema muito mais complexo e variado que pode ser explorado de diversas formas.

Para resumir, segue uma pequena tabela comparativa. Bons estudos!

Data lakeData warehouse
Armazenamento de dados desestruturados, Dados semi-estruturados e estruturadosDados estruturados
Esquema definido na leituraEsquema definido na escrita
Ciência de dados, análise preditivas, BIBI baseado em SQL
Armazenamento de dados detalhados, brutos e também processadosArmazenamento de dados frequentemente acessados, assim como dados agregados e sumarizados
Separação entre o armazenamento e o processamentoAcoplamento entre o armazenamento e o processamento

Entenda como a Análise de Dados é capaz de ajudar na tomada de decisão em uma empresa

INSCREVA-SE EM NOSSA NEWSLETTER