Blog da Five Acts

01 de Setembro de 2021

Data lakes são repositórios nos quais são disponibilizados todos os tipos de dados brutos. Esses repositórios são únicos e ficam disponíveis para as pessoas da organização que queiram fazer análise sobre eles. Os dados chegam ao on-premise ou cloud data lake (armazenamento no local ou em nuvem) vindos de diversas fontes e são armazenados no formato original.

No entanto, para essas duas soluções, as possibilidades são diversas e isso impactará em toda a estrutura da sua empresa.

Quer saber mais? Então confira:

Principais características do data lake

Um data lake é projetado para o consumo de dados, o que inclui as ações de coletar, importar e processar os dados para armazenamento ou uso posterior. Sua principal característica é de permitir que sejam armazenados dados de diferentes fontes e formatos, em seu estado cru, sem nenhum tipo de tratamento prévio.  

Ou seja, os dados podem ser consumidos e o esquema aplicado somente quando as informações forem usadas e as finalidades forem estabelecidas.

O data lake só requer um esquema, na fase de leitura, quando forem necessárias as informações. Dessa forma, permite manter grandes quantidades de informações estruturadas ou semi estruturadas em um determinado local, apenas aguardando para serem utilizadas.

No DL podem ser importadas informações de websites, sistemas empresariais, ferramentas analíticas, redes sociais, internet das coisas, dentre outras fontes. 

Além disso, o suporte 3v do Big Data pode ser oferecido: variedade, volume e velocidade.

Assim, os lakes  possibilitam análises diversas, como cruzamentos de fontes distintas e identificação de padrões e correlações, com a finalidade de promover dicas e insights para a gestão. 

Tipos de data lakes

Os data lakes podem ser implantados localmente (on-premise,) na nuvem (cloud data lake), híbridos ou multi-cloud.

Veja algumas informações sobre cada um desses tipos:

  • On-premise: para esta implantação se deve considerar requisitos como design, espaço e energia, gerenciamento, aquisição de software e hardware, competências para as operações e os custos constantes.
  • Cloud data lake: este formato fornece inúmeros benefícios, como escalabilidade, atualizações frequentes, confiabilidade, ampla cobertura geográfica e segurança, dentre outros. Outro benefício que se destaca é o investimento, já que os custos são associados à utilização real, ou seja, é pago somente o que é utilizado com processamento e armazenamento.
  • Hybrid data lake: data lakes locais e em nuvem simultaneamente, assim funcionam os data lakes híbridos. Embora tenham muitos benefícios, também apresentam alguns desafios. O gerenciamento de uma operação local demanda conhecimento adicional de engenharia, bem como a migração constante entre o local e a nuvem. Por outro lado, essa abordagem dupla permite que os dados menos relevantes sejam mantidos no local e os dados mais importantes na nuvem, aproveitando, assim, a flexibilidade e a dinamicidade dos serviços em nuvem. 
  • Multi-cloud data lake: neste tipo há a combinação de várias ofertas de nuvem para o gerenciamento e manutenção dos data lakes. Dessa forma, é possível aproveitar as vantagens de cada plataforma, mas também exigem muita experiência para permitir que diferentes plataformas se comuniquem entre si.
tipos de data lake

 

É importante salientar que os data lakes demandam governança e manutenção contínuas para garantir que os dados possam ser acessados e usados. Se não houver esse controle, eles podem se tornar lixo eletrônico (inacessíveis, pesados e inúteis). Quando isso acontece são denominados “data swamps”, em tradução livre, “pântano de dados”. 

Como funciona o cloud data lake?

Entenda como funciona a estrutura e a lógica do cloud data lake, conhecendo o caminho dos dados desde a entrada, chamada de ingestão (ingestion) até sua análise. Veja:

  • Ingestion: nesta primeira etapa da jornada dos dados, acontece a absorção de dados estruturados e não estruturados. Eles são coletados e agrupados de várias fontes, e vão em seu formato original para o data lake, ou seja, brutos. Uma grande vantagem do cloud data lake é que o escalonamento pode ser feito sem a necessidade de reconsiderar esquemas, estruturas ou transformações, como precisaria ser feito em um data warehouse tradicional. 
  • Storage: o armazenamento é a segunda etapa na jornada de dados. Essa etapa consiste num repositório controlado onde todos os dados ingeridos são armazenados antes de passarem por qualquer transformação. Lembrando que todos os dados podem manter seu estado original, sejam estruturados ou não. O sistema simplificado de armazenamento permite que as empresas coletem infinitas quantidades de dados e forneçam alta disponibilidade, acessibilidade, segurança e escalonamento automático. 
  • Processing: nesta terceira etapa da jornada, os dados são convertidos de seu estado bruto,se tornando compatíveis com as informações já armazenadas no lake.. Após serem processados, eles são novamente armazenados no lake, mas dessa vez junto dos dados que eles se assemelham , para que possam ser analisados. 
  • Analytics: na etapa final da jornada de dados, os que estão processados e armazenados são disponibilizados para análise. Essa análise é feita por usuários de business intelligence e cientistas de dados. Este é o objetivo final de qualquer empresa.

 

Benefícios do cloud data lake

A esta altura, você pode estar se perguntando sobre os benefícios do cloud data lake. São muitos, e para que tenha uma ideia, separamos alguns:

1. Foco no valor do negócio e não na infraestrutura

Armazenar big data na nuvem elimina a necessidade de construção e manutenção de uma infraestrutura física. 

Assim, os recursos que seriam utilizados para essas finalidades podem ser direcionados ao desenvolvimento de novas funcionalidades, que podem ser agregadas ao valor comercial do negócio.

2. Baixos custos de engenharia

É possível construir pipelines de dados de forma mais eficiente com ferramentas em nuvem. Esse pipeline é geralmente pré-integrado, dessa forma, é possível obter soluções funcionais sem que seja preciso investir muitas horas em engenharia de dados. 

3. Escalonamento automático

Os cloud data lakes são projetados para promover funcionalidade de escalonamento imediato, ou seja, as empresas não se preocupam em expandir sua capacidade quando necessário.

4. Cloud data lake e a infraestrutura ágil

Serviços em nuvem são flexíveis, com infraestrutura sob demanda. Caso surjam novos casos para o data lake, este pode ser repensado, redesenhado e reprojetado de forma mais fácil. 

5. Tecnologias atualizadas

Cloud data lakes têm atualização automática e disponibilizam tecnologias mais recentes. É possível adicionar novos serviços em nuvem assim que se tornarem disponíveis sem que precise mexer na arquitetura.

6. Segurança de dados 

Todas as empresas têm a  responsabilidade de proteger seus dados. Com os data lakes projetados para armazenar dados de todos os tipos (detalhes de clientes, informações financeiras etc.), a segurança se torna ainda mais importante. 

Os provedores de nuvem asseguram a segurança dos dados conforme definição no modelo de responsabilidade compartilhada.

7. Capacidade

O armazenamento em nuvem permite começar com poucos arquivos e aumentar o data lake para exabytes de tamanho, sem que seja preciso se preocupar com expansão do armazenamento e manutenção interna dos dados.

8. Eficiência de custos

Os provedores em nuvem permitem muitas classes de armazenamento e opções de preços. Dessa forma, as empresas investem somente pelo armazenamento que precisam.

Os principais desafios na implementação do cloud data lake

Apesar de todos os benefícios vistos acima, o cloud data lake não é uma solução perfeita, pois também apresenta desafios.

Veja alguns:

1. Migração

O processo de migração dos dados para a nuvem é um dos maiores desafios para os data lakes. Além de complexo, pode exigir um pouco mais de investimento, especialmente se ocorrer repetidamente. 

2. Gerenciamento de dados

O benefício pode ser também um desafio. Como os data lakes podem suportar diversos tipos de dados — estruturados, não estruturados etc.—, a gestão e  a limpeza podem se tornar um processo intensivo.

Além disso, se algo sair do controle, pode ocorrer o que já mostramos para você anteriormente como “pântano de dados” — muitos dados mal-formados, repetidos, inúteis, pesados…e isso tem muito pouco valor para uma empresa, além de demandar muito esforço para ser corrigido. 

3. Análise de autoatendimento

O principal benefício de configurar um data lake é a possibilidade de combinar, organizar e transformar fontes de dados díspares. No entanto, isso requer uma solução analítica igualmente robusta.

Assim, mesmo que os provedores de nuvem ofereçam soluções de análise, nem sempre é fácil utilizá-las e se conectar a essas plataformas de análise. 

Você precisa de dados agora, não depois

Sempre falamos nas transformações que mudaram a forma como as pessoas fazem negócios, como se conectam a seus potenciais clientes e como conseguem analisar cenários e mercados. Assim mesmo, no futuro. 

No entanto, esse futuro já está dando as cartas. A afirmação “você precisa de dados agora, não depois” é totalmente correta.

Os dados são a nova riqueza e fundamentais para negócios de qualquer segmento. Ficar estagnado e não acompanhar esse movimento deixará muitas empresas para trás quando se trata de vantagem competitiva e garantir sua fatia de mercado. 

Comece a entender o verdadeiro potencial dos dados de seu negócio.

INSCREVA-SE EM NOSSA NEWSLETTER