top of page

Data Lake: Solucionando o problema de acesso à dados nas grandes empresas

Atualizado: 6 de mar. de 2020


Diariamente vemos grandes empresas lutando para estabelecer uma cultura de inovação baseada em dados. Mas, quem trabalha ou já trabalhou em uma grande empresa sabe: a existência de silos desconectados de informações é algo extremamente comum. Departamentos que deveriam trabalhar em sincronia não sabem o que os demais estão fazendo e o acesso a qualquer informação é, normalmente, extremamente burocrático e lento.

Na empresa em que você trabalha, qual a média de tempo entre uma

requisição feita à T.I. para um relatório que envolve uma grande quantidade de informações de diferentes departamentos e a sua eventual entrega?

Em diversos casos, a resposta é medida em semanas, ou até meses.


Atrelado a isso, com a geração de volumes cada vez maiores de dados, o armazenamento vem se tornando cada vez mais complexo e diversificado e, na maioria das vezes, é espelhado por políticas organizacionais massivas em torno da sua propriedade. Assim, muitas empresas acabam se atolando nestas políticas e silos, limitando os recursos de gerenciamento e, consequentemente, o desempenho e resultados da empresa como um todo.

Profissionais de marketing procuram incorporar dados não estruturados de redes sociais em suas análises de clientes. Gerentes de operações precisam ter melhor acesso às informações de streaming de sensores e dispositivos. Ter que confiar muito na TI para reunir essa grande variedade de dados coloca as organizações em desvantagem


Por esses motivos, as empresas precisam começar a pensar em maneiras de reduzir a dependência da TI no processo de acesso a dados e em diferentes formas de armazenamento e acesso a esses dados, quebrando barreiras desnecessárias no intercâmbio de informações e capacitando seus usuários em relação à um acesso a self-service de dados, de modo a produzir um valor real para seus negócios.


Estes são grandes desafios à serem enfrentados, mas por onde começar?


Atualmente, as empresas orientadas por dados mais bem-sucedidas utilizam os dados como base de suas atividades analíticas, ao invés de armazená-los e ofertá-los somente por exigências regulatórias ou mandatos corporativos. Para se tornar como essas empresas, é preciso, antes de mais nada, “colocar a casa em ordem”, desenvolvendo uma base sólida de dados. E arquiteturas como data lake podem ajudar nessa estruturação.


Embora esteja longe de ser trivial de implementar, um data lake corporativo fornece a base necessária para eliminar o problema de acesso à dados nas empresas. Abrindo a porta para análises exploratórias e mineração de dados anteriormente indisponíveis. Com um data lake bem desenvolvido e colaboradores bem treinados é possível encontrar uma forma de oferecer acesso rápido a todos os dados necessários.


Mas afinal, o que é um data lake?


Um data lake é um repositório que permite armazenar uma grande quantidade de dados brutos em seu formato nativo, incluindo dados estruturados, semiestruturados e não estruturados, que traz diversos benefícios para aqueles que o adotam, tais como:

  • Centralização: dados de várias fontes são centralizados em um local compartilhado;

  • Escalabilidade: permite armazenar uma grande quantidade de dados e tem potencial para expandir seu tamanho à medida que a quantidade de dados aumenta;

  • Baixo custo de armazenamento: os custos de armazenamento são uma grande preocupação que precisa ser levada em conta. O data lake oferece um armazenamento de baixo custo para os dados;

  • Variedade de dados: o data lake tem a capacidade de armazenar diferentes tipos de dados, como dados transacionais, dados de APIs, dados de sensores, dados binários, dados de mídias sociais, bate-papo, etc.;

  • Burocracia zero: usuários de vários departamentos podem rapidamente acessar o conteúdo do data lake, uma vez que ele é armazenado em um repositório central. Como resultado, um usuário pode coletar facilmente dados considerados importantes para conduzir decisões de negócios em qualquer área.

Um data lake fornece aos cientistas de dados um caminho mais rápido para explorar dados e criar hipóteses, aos usuários corporativos um caminho mais rápido para explorar esses dados, aos analistas de dados um caminho mais rápido para analisarem esses dados e encontrarem padrões e aos analistas de relatórios um caminho mais rápido para criarem relatórios e apresentarem às partes interessadas


Quando os dados de origem estão em um data lake, sem uma única estrutura ou esquema de controle incorporado — em um data lake a estrutura e os requisitos dos dados não são definidos até que os dados sejam necessários — o suporte a um novo caso pode ser muito mais direto e rápido, permitindo que os colaboradores acessem qualquer informação necessária e com isso, desenvolvam os relatórios que desejam, utilizando as ferramentas que desejam. Dessa forma, a TI se torna a guardiã da infraestrutura e dos dados na nuvem, enquanto os demais assumem a responsabilidade de explorá-la e extraí-la.


Como o valor dos dados não é claro desde o início, eles não são classificados no momento que são armazenados no data lake, eles são carregados no seu formato bruto e colocados à disposição para uso. Somente quando os dados são acessados, eles então são classificados. Como resultado, a preparação dispendiosa dos dados é eliminada. Além disso, tendo em vista que o custo de armazenamento de dados é mínimo e grandes volumes de dados podem ser armazenados a qualquer momento, não há necessidade de decidir quais dados são relevantes, pode-se apenas armazenar todos os dados no data lake. Até mesmo porque, dados que parecem insignificantes no momento, podem se tornar significativos no futuro.


Em resumo, um data lake funciona como um centro de inteligência para as empresas, um banco de dados unificado cujo objetivo é estar pronto para uma necessidade de uso desconhecida.


No entanto, é importante frisar que, um armazenamento de dados centralizado é útil apenas quando os dados armazenados precisam ser extraídos para uso por departamentos diferentes. Ademais, para implantar um data lake a nível corporativo, é preciso dispor de certos recursos que permitam sua integração na estratégia geral de gerenciamento de dados e aplicativos de TI, bem como no cenário de fluxo de dados da organização. Também, é extremamente importante garantir que o data lake esteja obtendo os dados certos no momento certo. Portanto, plataformas de integração que operam em segundo plano devem ser capazes de enviar dados de várias ferramentas, em tempo real e sob demanda, com base nos diferentes casos de negócios.


Além disso, um data lake não consiste apenas em armazenar dados centralmente e fornecê-los de acordo com diferentes departamentos. Com mais e mais usuários começando a utiliza-lo diretamente ou por meio de aplicativos e ferramentas analíticas, a importância da governança para o data lake aumenta. Nesse contexto, o principal desafio é garantir que as políticas e procedimentos de governança de dados existam e sejam aplicados. Deve haver uma definição clara do proprietário para cada conjunto de dados além de informações de como e quando esses dados entram no data lake. Tudo precisa estar muito bem documentado em relação à acessibilidade, integridade, consistência e atualizações de cada dado, envolvendo rastreio e registros da manipulação de ativos de dados presentes no data lake, com base em políticas e diretrizes bem definidas.


Nas grandes empresas, talvez o impacto mais poderoso de um data lake seja a ativação da inovação. Uma vez que a tecnologia tem o potencial de ajudar a quebrar os silos de informações e outras barreiras. Ao dar aos gestores uma imagem mais clara dos negócios permite que eles entendam as restrições entre as unidades funcionais e facilita a colaboração, o que pode, a longo prazo, transformar a cultura do negócio.


Por esses diversos motivos, os data lakes estão se tornando cada vez mais cruciais, especialmente para as grandes empresas. Criando um novo nível de desafios e oportunidades, a partir de conjuntos de dados diversificados de diferentes repositórios que permitem uma ampla exploração sobre os dados, embasando a tomada de decisões de uma forma mais rápida e clara.

348 visualizações0 comentário
bottom of page