Blog da Five Acts

02 de Abril de 2021

Utilizar o data lake a favor da sua estratégia tem tudo a ver com os desafios atuais.

Na era do big data, há um vasto universo de dados e suas incontáveis fontes.

Todos eles precisam ser coletados e, posteriormente, armazenados pelas empresas para serem tratados e, só então, utilizados como informação útil.

Nesse processo, o data lake é um elemento fundamental, porque será a partir dele que o tratamento de dados começa.

Avance na leitura, descubra o que isso significa e como aplicar em suas rotinas e projetos.

Data Lake: o que é?

Data lake é o repositório de dados usado pelas empresas para operacionalizar um outro recurso: o big data.

O conceito foi mencionado com destaque pela primeira vez pelo Chief Technical Officer (CTO) do Pentaho, James Dixon.

Desde então, a definição aceita de data lake é a de uma fonte de dados.

É dele que negócios de todos os segmentos tiram informações que serão, posteriormente, tratadas e estruturadas para orientar a tomada de decisões.

Qual é a diferença entre Data Lake e Data Warehouse?

Paralelamente ao conceito de data lake, caminha o de data warehouse, ou armazém de dados, traduzido para o português.

Nesse caso, a diferença entre data lake e data warehouse está na maneira como as informações estão dispostas em cada um desses repositórios. 

Neste conceito, os dados ficam “estocados” em estado bruto, sem qualquer tratamento.

Já nos data warehouses, eles recebem uma certa filtragem, sendo armazenados apenas depois de serem catalogados ou hierarquizados de alguma forma.

Data Lake: por que devo ter na minha empresa?

data lake por que ter na empresa

Dados sempre fizeram parte dos processos decisórios das empresas, pelo menos naquelas em que a gestão é mais profissional.

A diferença, hoje, é que operamos com volumes realmente colossais de informação.

Portanto, sem essa solução, o trabalho de prospecção e modelagem desses dados seria uma tarefa humanamente impossível.

É por isso que é tão necessário: com ele, a sua empresa passa a ter um recurso que fará toda a diferença em suas decisões.

Veja algumas das suas vantagens a seguir.

Dados sempre disponíveis

Você talvez conheça o caso da UPS, que passou a economizar milhões de litros de combustível pelo realinhamento das rotas dos seus caminhões por meio do big data.

Para ter resultados como esse, a empresa precisou de fontes de dados confiáveis e, acima de tudo, constantemente disponíveis.

É onde um data lake se mostra um ponto de apoio fundamental, já que é dele que se extrai a informação necessária.

Mais flexibilidade

Nem sempre um processo de análise de dados começa de forma clara e com a informação a ser tratada pronta para o uso.

Nesse caso, um data lake é útil no sentido de permitir uma garimpagem de dados de diversos tipos e que poderão ser tomados como ponto de partida de futuros diagnósticos.

Informação no volume ideal

Como você viu, a diferença da análise de dados de hoje para a do passado é que, agora, trabalha-se com volumes na casa dos terabytes para cima.

Sendo assim, esse recurso é a maneira mais prática de assegurar que a gestão da empresa terá à disposição a quantidade de informação certa para gerar insights de valor.

Custos menores de implementação

Um data warehouse pode ser a melhor solução quando se tem um orçamento mais folgado ou a empresa já está mais amadurecida digitalmente.

Por outro lado, nos negócios que ainda não são propriamente data driven, um repositório de dados se mostra um recurso mais adequado, já que abre um leque de possibilidades maior.

Data warehouses trazem um certo nível de sofisticação que, para quem não está habituado, pode tornar os dados armazenados de pouca utilidade.

Por isso, o data lake, além de ser mais simples de assimilar, demanda custos menores, já que dispensa toda uma arquitetura para estruturar a informação.

Quais são os principais desafios?

principais desafios data lake

Um data lake é, em essência, um espaço virtual onde vale mais a quantidade do que a qualidade dos dados.

Não por acaso, há quem o chame de data swamp, ou pântano de dados, já que existe sempre o risco de que ele venha a se tornar um grande aglomerado de informação sem utilidade.

Por isso, o maior desafio ao implementar um data lake é torná-lo efetivo para a empresa, ou seja, uma verdadeira fonte de dados relevantes e que possam ser estruturados para os fins propostos.

Para que essa seja uma verdadeira solução analítica, conte com especialistas para ajudá-lo: fale com a FiveActs!

Arquitetura do Data Lake

Por falar em arquitetura de data lake, ainda que seja mais fácil de implementar, é preciso considerar também as etapas a serem seguidas nesse processo.

Vamos conhecer quais são?

Landing zone

O estágio inicial consiste em construir um data lake destacado dos principais sistemas de TI da empresa.

A ideia aqui é bem simples: criar um ambiente virtual de captura de dados, o que justifica o seu baixo custo e escalabilidade.

Nessa fase, ele não passa de um local onde as informações serão armazenadas em estado bruto, ou seja, sem qualquer tipo de tratamento ou classificação.

Data science environment

No segundo estágio de implementação do data lake, os profissionais passam a acessá-lo em regime experimental.

Assim, será possível retirar dados para posterior criação de protótipos, por exemplo.

Tudo aqui não passa de experimento. Na verdade, a ideia é já ir testando o repositório de dados e conferir se ele atende às demandas para as quais foi projetado.

Por essa razão, neste momento, é possível implantar ferramentas de código aberto, que, por sua vez, são úteis para a criação de outros ambientes de teste.

Offload for data warehouses

Avançando pela implementação desse recurso, agora, as informações passam a se integrar aos enterprise data warehouses (EDW) da empresa.

Nesse estágio, os dados “frios”, isto é, aqueles que não se espera utilizar, pelo menos não em curto prazo, já ocupam um espaço significativo no data lake.

Critical component of data operations

Na última etapa, o data lake já substituiu os data marts, os tradicionais repositórios de pequena escala que fazem parte de um data warehouse.

Com isso, as empresas podem optar por criar sistemas de varredura de dados externos, permitindo extrair a informação como se fosse um motor de busca interno.

Data Lake: exemplo e aplicação

Casos de sucesso não faltam para ilustrar o quanto a aplicação de data lake gera retorno para as empresas que o fazem.

Veja a seguir três exemplos extraídos de situações reais de companhias que tiveram bons resultados ao implementá-lo.

Farmacêutica poupa tempo, dinheiro e espaço

O primeiro caso é o de uma empresa farmacêutica com aproximadamente 7.000 funcionários e receita de cerca de US$ 10 bilhões. 

Com 450TB de dados espalhados por três locais, a organização estava ficando sobrecarregada e, por isso, recorreu a uma parceria para formatar seu data lake.

Primeiramente, o objetivo era mover o máximo possível dos processos em Business Intelligence para a nuvem.

No entanto, essa mudança trazia desafios: alto custo e longo tempo para ser concluída.

A solução encontrada foi criar um data lake virtual, uma alternativa que se revelou mais barata e que pôde ser implementada em menos tempo.

Vale destacar que, no processo, a empresa identificou 30% dos seus dados como redundantes, desatualizados ou triviais, o que permitiu um expressivo corte de dados.

Seguradora reorganiza dados em e-mails

Há também o caso de uma famosa seguradora com 30.000 funcionários e US$ 25 bilhões em receita que tinha quase 3 bilhões de e-mails (280TB de dados) presos em um arquivo de e-mail legado.

Para processar tamanha quantidade de dados, ela precisou recorrer a soluções analíticas que permitissem reunir informações estatísticas sobre eles.

Inicialmente, a empresa deixou os dados onde estavam e em sua forma original.

Só em uma segunda fase ela extrairia todos os endereços de e-mail para construir o repositório físico do futuro data lake.

Muitos dados sem utilidade foram, em seguida, armazenados em uma nova estrutura, passando a ser tratados com uma solução em enterprise content management (ECM).

Com isso, ela manteve sua base de endereços de e-mail e pôde dar continuidade às suas estratégias de vendas utilizando ferramentas como o e-mail marketing.

Empresa médica encontra agulha em palheiro

O terceiro caso é o de uma empresa internacional de dispositivos médicos que acumulou mais de 90TB em discos rígidos externos e servidores, além de farto material com origem em processos judiciais.

O desafio era ousado: desenvolver uma única interface para encontrar uma “agulha em um palheiro” a qualquer momento. 

Depois de implementar um aplicativo específico, hoje, o data lake dessa empresa continua a ser preenchido, já tendo ultrapassado os 100TB de dados e caminhando para mais.

Seja qual for a “agulha” nesse palheiro, hoje, ela poderá ser encontrada com muito menos esforço.

Conclusão

Na maioria das empresas orientadas por dados, o data lake é um recurso essencial.

Afinal, como trabalhar com big data sem uma referência ou, pelo menos, um ponto de apoio para dar os primeiros passos na análise de dados?

Esse é o propósito principal quando se adota o conceito: permitir que os gestores encontrem informações úteis e a um baixo custo, de forma a usá-las na formulação de estratégias.

No entanto, o trabalho não para por aí.

Para implementar um data lake conforme as melhores práticas, sua opção é a consultoria da FiveActs.

Temos mais de 15 anos de experiência com soluções analíticas de dados, então, seja qual for o seu desafio, tenha certeza de que podemos ajudar a encontrar respostas.

tableau software para download

INSCREVA-SE EM NOSSA NEWSLETTER