Data Lake e Delta Lake: entenda a diferença

“O que é Data Lake?” e “O que é Delta Lake?”, neste artigo o dataholic Eduardo Van Gasse responde essas perguntas, esclarecendo de forma clara e objetiva a diferença entre os dois. Boa leitura!

(Imagem: Pixabay)


Muitas pessoas se deparam com Data Lakes e Delta Lakes e ficam com dúvidas quanto a diferença entre os dois. Eles são a mesma coisa? São completamente diferentes? Neste artigo irei explicar o que é cada um e quais são as principais diferenças entre eles.



Sumário

  1. O que é Data Lake?

  2. O que é Delta Lake?

  3. Principais vantagens no uso de um Delta lake

O que é Data Lake?

Os Data Lakes são grandes repositórios onde são armazenados os dados em sua forma bruta, ou seja, eles ainda não passaram por um processo com uma finalidade específica. Sejam eles dados estruturados ou dados não estruturados, todos tipos de dados podem ser armazenados no Data Lake.

Com todos os dados sendo armazenados em um só lugar, você pode agora utilizá-los e analisar com base no que é necessário. Esse armazenamento é feito com os dados em sua forma bruta, nenhuma informação é perdida, pois o tratamento para análise desses dados é feito diretamente da fonte e não tem nenhum processo de transformação desses dados antes do armazenamento.

O que é Delta Lake?

O Delta Lake é um projeto open source desenvolvido pela mesma empresa que criou o apache spark, acrescentando características ACID (Atomicidade, Consistência, Isolamento e Durabilidade) aos Data Lakes, assim, trouxe uma diminuição de arquivos duplicados, o que acontecia para garantir a integridade dos dados caso ocorresse alguma falha.

Um Delta Lake comum usa tabelas que correspondem a diferentes níveis de qualidade, adicionando estrutura aos dados. Os níveis de qualidades estão separados por Bronze, Silver e Gold:

  1. Tabelas Bronze: São tabelas relacionadas a ingestão de dados. Em sua grande maioria são os dados ‘crus’, que não passaram por nenhuma transformação;

  2. Tabelas Silver: São as tabelas que já passaram ou vão passar por uma transformação para remover alguns dados que não serão necessários;

  3. Tabelas Gold: São tabelas prontas para serem usadas para treinar ou fazer predições com ML

Juntos, chamamos essas tabelas de arquitetura “multi-hop”. Ele permite que os engenheiros de dados construam um pipeline que trata os dados brutos como a “fonte verdadeiramente única” da qual tudo flui.

Principais vantagens no uso de um Delta lake

  1. Transformações ACID – Os delta lakes proporcionam ACID para seus Data Lakes, fazendo com que os dados tenham sua integridade garantida;

  2. Versionamento de dados – O versionamento dos dados existentes no Delta Lake, permite com que os desenvolvedores possam acessar versões anteriores dos dados, seja para reverter ou reproduzir algum evento;

  3. Tratamento de metadados – O Delta Lake se aproveita do poder de processamento do spark para processar e lidar com os metadados gerados, o que permite que o Delta Lake lide com tabelas em escalas de petabytes com bastante facilidade;

  4. Formato Parquet – Todos os dados em um Delta Lake são armazenados no formato Parquet, fazendo com que os esquemas de compactação e codificação nativos desse formato sejam aproveitados pelo Delta Lake.

Gostou desse conteúdo? Curta, comente e compartilhe. Pensou em dados, pensou Dataside. 💙

Referências: Databricks; Redhat e Aprendizado de Máquina.

#DataLakeDeltaLake