Forum posts

Posts do fórum

marcelo.henrique

30 de mar. de 2023

Qual a diferença entre escrever em .parquet no lake e criar uma tabela delta?

In Big Data

Tanto o Parquet quanto o Delta Lake são formatos de armazenamento de dados colunares que são projetados para lidar com grandes conjuntos de dados e fornecer alta velocidade de leitura e gravação. No entanto, existem algumas diferenças significativas entre escrever um arquivo .parquet no lake e criar uma tabela Delta. Aqui estão algumas das principais diferenças entre os dois: 1. Gerenciamento de dados: O Delta Lake oferece um conjunto de recursos avançados para gerenciamento de dados que não estão disponíveis no Parquet. O controle de versão permite que você acompanhe as alterações em seus dados ao longo do tempo, criando um histórico completo das modificações. As transações ACID garantem que todas as operações de gravação sejam consistentes e duráveis, mesmo em caso de falhas. A otimização de ingestão de dados, por sua vez, permite que você ingira grandes volumes de dados com alta velocidade e eficiência. 2. Atualização de dados: O Delta Lake permite a atualização e exclusão de registros individuais, enquanto o Parquet é um formato de arquivo de armazenamento apenas de gravação, ou seja, uma vez escrito, os dados não podem ser alterados. Essa capacidade de atualização e exclusão é importante em muitos cenários de análise de dados em tempo real, onde a precisão e a consistência dos dados são críticas. 3. Suporte de linguagem: O Delta Lake é compatível com várias linguagens de programação, incluindo Python, R e SQL, enquanto o Parquet é principalmente compatível com o Spark. Isso significa que você pode usar as ferramentas e bibliotecas de sua escolha para trabalhar com dados armazenados no Delta Lake, sem precisar de uma nova infraestrutura para isso. 4. Integração: O Delta Lake é projetado para ser integrado facilmente com outras ferramentas do ecossistema do Spark, como o Spark SQL, o Spark Streaming e o MLlib. Além disso, o Delta Lake pode ser usado em outras plataformas de computação em nuvem, como Amazon Web Services (AWS) e Microsoft Azure, além do próprio Spark. Já o Parquet pode ser usado em outras plataformas além do Spark, mas não possui a mesma integração com outras ferramentas do ecossistema do Spark. 5. Performance: O Delta Lake é projetado para fornecer desempenho de leitura e gravação mais rápido em comparação com o Parquet, especialmente em ambientes de grande escala. Isso se deve ao fato de que o Delta Lake possui uma arquitetura de armazenamento otimizada para trabalhar com grandes volumes de dados, com um mecanismo de indexação avançado que acelera as consultas. Delta Lake é um mecanismo de gerenciamento de dados completo para o armazenamento de dados em larga escala no Apache Spark, enquanto o Parquet é apenas um formato de arquivo de armazenamento colunar. Em resumo, o Delta Lake é uma escolha melhor se você precisa de recursos avançados de gerenciamento de dados, suporte a transações ACID, atualização e exclusão de registros, além de alto desempenho em ambientes de grande escala. Já o Parquet é uma escolha adequada se você estiver trabalhando com o Spark e precisar apenas de um formato de armazenamento de dados colunar. What is Delta Lake? - Azure Databricks | Microsoft Learn Parquet Files - Spark 3.3.2 Documentation (apache.org) Migrate a Parquet data lake to Delta Lake - Azure Databricks | Microsoft Learn

Qual a diferença entre escrever em .parquet no lake e criar uma tabela delta? content media

576

marcelo.henrique

14 de mar. de 2023

Introdução ao Regex

In Linguagem de programação

O REGEX (ou expressões regulares) em Python é uma poderosa ferramenta para trabalhar com padrões de texto/string. Com o uso de expressões regulares, é possível buscar, substituir e manipular textos/strings de forma eficiente e precisa. Em Python, as expressões regulares são implementadas pelo módulo/biblioteca "re". O módulo/biblioteca "re" contém várias funções para trabalhar com expressões regulares, incluindo a função "search", que pode ser usada para buscar padrões em texto, e a função "sub", que pode ser usada para substituir padrões em texto. * span=(22, 28) - posição indexada de onde foi encontrado o padrão* Alguns dos caracteres especiais que podem ser usados em expressões regulares em Python incluem: "." (ponto): usado para corresponder a qualquer caractere, exceto uma nova linha "^" (circunflexo): usado para corresponder ao início de uma linha "$" (símbolo de dólar): usado para corresponder ao final de uma linha "*" (asterisco): usado para corresponder a zero ou mais ocorrências do padrão anterior "+" (sinal de adição): usado para corresponder a uma ou mais ocorrências do padrão anterior "?" (ponto de interrogação): usado para corresponder a zero ou uma ocorrência do padrão anterior "|" (barra vertical): usado para corresponder a uma das várias opções [] (colchetes): usado para definir um conjunto de caracteres que podem corresponder Alguns exemplos: A função "compile" do módulo/biblioteca "re" do Python permite compilar uma expressão regular em um objeto de padrão de expressão regular, que pode ser armazenado e reutilizado posteriormente para buscar e manipular texto de maneira mais eficiente. A função "compile" é geralmente usada para criar padrões complexos que precisam ser usados várias vezes em um programa. Ao compilar a expressão regular uma vez e armazená-la em um objeto de padrão, o Python pode economizar tempo e recursos ao executar a busca e manipulação de texto várias vezes. A sintaxe básica da função "compile" é a seguinte: Onde "pattern" é a expressão regular que deve ser compilada e "flags" é um conjunto opcional de sinalizadores que podem ser usados para modificar o comportamento do padrão. Por exemplo, o seguinte código Python compila um padrão de expressão regular que corresponde a um endereço de e-mail válido: Ao compilar o padrão de expressão regular uma vez e armazená-lo em "padrao_email", o Python pode executar a busca de texto de maneira mais eficiente, economizando tempo e recursos em comparação com a compilação do padrão em cada chamada da função de busca. Até aqui, dei uma pequena introdução do uso do regex na linguagem ESTRUTURAL. Vale ressaltar que há outras diversas formas de usar e aplicar o regex. Por fim, darei um último exemplo utilizando do regex em linguagem orientada a objeto (POO), pois é de extrema importância visualizar a importância deste módulo em nosso cotidiano. Como podem ver, é utilizado do módulo/biblioteca "re" e da função "search" para validar um padrão, buscando uma sequência de um ou mais dígitos (algarismos entre 0-9) dentro da string novo_preco. Aprendam Regex! rs Regular Expression HOWTO — Python 3.11.2 documentation