29 de Setembro de 2020

data lake o que é e conceitos

O que acha de utilizar o data lake a favor da sua estratégia? Para isso, é claro, você primeiro precisa entender do que se trata e como aplicar.

É justamente esse tipo de informação que vamos trazer ao longo do texto.

Para começar, vale saber que, no contexto do data science, diversos outros conceitos são agregados para dar forma às mais diversas práticas de gestão de dados.

Um deles é o de data lake que, pela tradução “lago de dados”, já nos dá pistas bem claras sobre o que trata.

Contudo, embora a imagem de um espelho d’água azul e cristalino nos remeta a um lugar pacífico e inerte, o que está por trás dele é algo muito mais valioso.

Afinal, hoje, as empresas data driven, ou seja, orientadas por dados, têm na informação o seu “novo petróleo”.

Onde entraria, então, este recurso na história?  É o que mostramos a partir de agora. 

Confira!

O que é Data Lake?

O conceito de data lake foi mencionado com destaque pela primeira vez pelo Chief Technical Officer (CTO) do Pentaho, James Dixon.

Ele usou o termo para descrever o imenso repositório de dados que as empresas usam para operacionalizar um outro recurso: o big data.

Desde então, a definição aceita de data lake é a de uma fonte de dados.

É dela que negócios de todos os segmentos tiram informações que serão, posteriormente, tratadas e estruturadas para orientar a tomada de decisões.

Afinal, qual é a diferença entre Data Lake e Data Warehouse?

Paralelamente ao conceito de data lake caminha o de data warehouse, ou armazém de dados, traduzido para o português.

Nesse caso, a diferença entre data lake e data warehouse está na maneira como as informações estão dispostas em cada um desses repositórios. 

Neste conceito, os dados ficam “estocados” em estado bruto, sem qualquer tratamento.

Já nos data warehouses, eles recebem uma certa filtragem, sendo armazenados apenas depois de serem catalogados ou hierarquizados de alguma forma.

Por que a sua empresa precisa de Data Lake?

data lake para empresas

Dados sempre fizeram parte dos processos decisórios das empresas, pelo menos naquelas em que a gestão é mais profissional.

A diferença, hoje, é que trabalhamos com volumes realmente colossais de informação.

Portanto, sem esse recurso, o trabalho de prospecção e posterior modelagem desses dados seria uma tarefa humanamente impossível.

É por isso que é tão necessário: com ele, a sua empresa passa a ter um recurso que fará toda a diferença em suas decisões.

Veja algumas das suas vantagens a seguir.

Dados sempre disponíveis

Você conhece o caso da UPS, que passou a economizar milhões de litros de combustível pelo realinhamento das rotas dos seus caminhões por meio do big data?

Para ter resultados como esse, a empresa precisou de fontes de dados confiáveis e, acima de tudo, sempre disponíveis.

É onde um data lake se mostra um ponto de apoio fundamental, já que é dele que se extrai a informação que precisa.

Mais flexibilidade

Nem sempre um processo de análise de dados começa de forma clara e com a informação a ser tratada pronta para o uso.

Nesse caso, um data lake é útil no sentido de permitir uma garimpagem de dados de diversos tipos e que poderão ser tomados como ponto de partida de futuros diagnósticos.

Informação no volume ideal

Como você viu, a diferença da análise de dados de hoje para a do passado é que, agora, se trabalha com volumes na casa dos terabytes para cima.

Sendo assim, esse recurso é a maneira mais prática de assegurar que a gestão da empresa terá à disposição a quantidade de informação certa para gerar insights de valor.

Custos menores de implementação

Um data warehouse pode ser a melhor solução quando se tem um orçamento mais folgado ou a empresa já está mais amadurecida digitalmente.

Por outro lado, nos negócios que ainda não são propriamente data driven, um data lake se mostra um recurso mais adequado, já que abre um leque de possibilidades maior.

Data warehouses trazem um certo nível de sofisticação que, para quem não está habituado, pode tornar os dados armazenados de pouca utilidade.

Por isso, o data lake, além de ser mais simples de assimilar, demanda custos menores, já que dispensa toda uma arquitetura para estruturar a informação.

Entenda os estágios de desenvolvimento do Data Lake

Por falar em arquitetura de data lake, ainda que seja mais fácil de implementar, é preciso considerar também as etapas a serem seguidas nesse processo.

Vamos conhecer quais são?

Landing Zone

O estágio inicial consiste em construir um data lake destacado dos principais sistemas de TI da empresa.

A ideia aqui é bem simples: criar um ambiente virtual de captura de dados, o que justifica o seu baixo custo e escalabilidade.

Nessa fase, ele não passa de um local onde as informações serão armazenadas em estado bruto, ou seja, sem qualquer tipo de tratamento ou classificação.

Data Science Environment

No segundo estágio de implementação do data lake, os profissionais passam a acessá-lo em regime experimental.

Assim, será possível retirar dados para posterior criação de protótipos, por exemplo.

Tudo aqui não passa de experimento. Na verdade, a ideia é já ir testando o data lake e conferir se ele atende às demandas para as quais foi projetado.

Por essa razão, neste momento, é possível implantar ferramentas de código aberto, que, por sua vez, são úteis para a criação de outros ambientes de teste.

Offload for Data Warehouses

Avançando pela implementação desse recurso, agora, as informações passam a se integrar aos enterprise data warehouse (EDW) da empresa.

Nesse estágio, os dados “frios”, isto é, aqueles que não se espera utilizar, pelo menos não em curto prazo, já ocupam um espaço significativo no data lake. 

Critical Component of Data Operations

Na última etapa, o data lake já substituiu os data marts, os tradicionais repositórios de pequena escala que fazem parte de um data warehouse.

Com isso, as empresas podem optar por criar sistemas de varredura de dados externos ao data lake, permitindo extrair a informação como se fosse um motor de busca interno.

Quais são os principais desafios do Data Lake?

data lake desafios

Um data lake é, em essência, um espaço virtual onde vale mais a quantidade do que a qualidade dos dados.

Não por acaso, há quem o chame de data swamp, ou pântano de dados, já que existe sempre o risco de que ele venha a se tornar um grande aglomerado de informação sem utilidade.

Por isso, o maior desafio ao implementar um data lake é torná-lo efetivo para a empresa, ou seja, uma verdadeira fonte de dados relevantes e que possam ser estruturados para os fins propostos.

Para que essa seja uma verdadeira solução analítica, conte com especialistas para ajudá-lo: fale com a FiveActs!

Conclusão

Na maioria das empresas orientadas por dados, o data lake é um recurso essencial.

Afinal, como trabalhar com big data sem uma referência ou, pelo menos, um ponto de apoio para dar os primeiros passos na análise de dados?

Esse é o propósito principal quando se adota o conceito de data lake: permitir que os gestores encontrem informações úteis e a um baixo custo, de forma a usá-las na formulação de estratégias.

No entanto, o trabalho não para por aí.

É preciso tratar os dados extraídos do data lake e, para isso, a melhor alternativa é começar experimentando a versão gratuita do Tableau Desktop, disponibilizada pela FiveActs.

Experimente e entenda o verdadeiro potencial dos dados do seu negócio.

INSCREVA-SE EM NOSSA NEWSLETTER