Forum posts

Posts do fórum

Diogo Vieira

31 de mar. de 2023

Qualidade de dados - Conceitos e importância.

In Big Data

Não é novidade que os dados são fundamentais e de extrema importância para a tomada de decisões estratégicas por parte das empresas. É com base neles que uma companhia define suas estratégias, lançamento de produtos, campanhas de marketing, investimentos, analisa o comportamento do consumidor, gerencia seus indicadores, etc. Porém, para que todas essas analises sejam assertivas e seguras, estes dados devem possuir características que garantam sua integridade e confiabilidade. Em resumo, esses dados devem possuir qualidade. Mas o que seria qualidade dos dados ou data quality? Neste artigo vamos conhecer um pouco melhor sobre esse conceito e seus principais fundamentos. De um modo geral a qualidade dos dados é a medida de algumas condições referentes a este dado. Leva em conta fatores como consistência, confiabilidade, precisão, integridade e atualidade, é importante para garantir que os mesmos sejam precisos, consistentes e uteis. Também indica o valor atribuído a um determinado dado e se o mesmo é relevante e satisfaz as necessidades e demandas de um determinado projeto ou área de negócio. Este conceito possui algumas variações, já que o valor de determinada informação pode variar conforme a necessidades especificas de cada caso e empresa. Portanto, é necessário uma análise prévia que leve em conta algumas informações como histórico, particularidades dos dados, especificidade da empresa e dos requisitos de negócios de forma a determinar o que seria um dado de qualidade que atenda todos os requisitos. A preocupação com a qualidade dos dados tem aumentado conforme as empresas se tornam data-driven, e as informações se tornam mais valiosas e ligadas diretamente as operações dos negócios. Dados de qualidade permitem gerar análise e insights que geram valor e impulsionam negócios. De modo contrário, a baixa qualidade nos dados podem gerar consequências negativas para uma empresa. Levando a análises imprecisas, falhas operacionais, erros na tomada de decisões estratégicas e aumento nos custos. Em estimativa recente, a IBM calculou que o problema com a qualidade dos dados nos EUA gera um custo anual aproximado de US$3,1 trilhões. E que, em média, custe as empresas entre 15% a 25% de sua receita anual para corrigir e contornar erros e problemas de negócios causados por dados incorretos. Mas então, como podemos medir e avaliar a qualidade dos dados?? Não é exatamente uma tarefa simples. Devemos utilizar algumas métricas e indicadores para auxiliar nessa análise. Um dos métodos mais utilizados consiste em avaliar os seguintes fatores: Consistência, precisão, relevância, cobertura e atualidade. · Precisão: está ligada a confiabilidade dos dados. Visa garantir que os dados presentes no sistema estão corretos, se estão completos e se são consistentes. Por exemplo, um campo idade no cadastro de um cliente. Se informado pelo próprio cliente, pode ter inconsistência, erros de digitação. No caso de um campo que seja obtido por meio da data de nascimento, por exemplo, já é possível esperar um nível maior de precisão desse dado. · Consistência: indica a uniformidade dos dados, garantindo que os dados não estejam sujeitos a grandes alterações ou erros. Também está ligada a possibilidade de conferência desses dados e sua integridade. Por exemplo, dados extraídos de fontes diferentes podem ter regras diversas, gerando inconsistências. Podendo ocasionar em valores ausentes, presença de caracteres especiais, etc. · Relevância: indica o quanto de informação útil e relevante se tem sobre um determinado tema. É importante que os dados sejam relevantes para as análises que se propõem. Por exemplo, a cor do cabelo de um cliente cadastrado pode ser relevante? Depende, caso a informação tenha importância para a análise em questão, então sim, será um dado relevante. A relevância de um dado vai depender da realidade de cada empresa. · Cobertura: indica o volume de dados disponíveis para uso. Para uma análise assertiva, é importante ter uma base com informações confiáveis e em quantidade suficiente. Para tanto, é preciso que os dados sejam coletados de todos os locais possíveis e estejam disponíveis. Por exemplo, dados de vendas devem estar disponíveis em todos os PDV e canais (físico e digital), sob o risco da falta de algum informação afetar a análise. · Atualidade: se refere ao quão recente e atualizado é um dado. É importante garantir que os dados estejam sempre atuais. Assim podem refletir com exatidão aquilo que está sendo analisado no momento. Por exemplo, dados demográficos da década de 1970 podem não fazer sentido para uma empresa que iniciou suas atividades no ano de 2012. Dados atualizados são aqueles que são suficientes para necessidade de análise da empresa. O valor do dado não está nele em si, mas sim naquilo que se faz com ele. E para isso, é preciso ter qualidade nos dados. É importante avaliar constantemente essa qualidade, seja por meio da verificação de erros (digitação, dados ausentes, formatação) para confirmar se as amostras estão no padrão desejado. Ou ainda por meio de analises estatísticas com o intuito de identificar padrões e desvios. Os dados devem ser constantemente testados, para observar se estão corretos e em conformidade com as especificações esperadas. Também devem ser avaliados se estão dentro de limites esperados, se as regras estão corretas e qual a fonte de onde esses dados são extraídos. Para garantir a qualidade e corrigir possíveis problemas, alguns processos são possíveis de serem utilizadas. Podemos realizar a limpeza desses dados, removendo os em duplicidade, incompletos ou irrelevantes. Padroniza-los, convertendo para um formato comum (datas, nomes, códigos), tratar os valores ausentes, seja excluindo ou utilizando técnicas de interpolação com base em alguma regra de negócio. Corrigir erros de digitação, tratar caracteres especiais ou sobreposição de colunas. Assim garantindo que esses dados sejam confiáveis, uteis e relevantes. Podendo servir de base para a elaboração de análises e projetos que irão nortear de forma assertiva, a tomada de decisão por parte da empresa. Gerando resultados positivos e retorno sobre os investimentos. Com isso, podemos concluir o qual vital e importante é manter uma boa qualidade de dados. Podendo ser a diferença entre uma decisão acertada que vai gerar lucro ou uma decisão equivocada, que pode gerar custos. Referências: https://blog.tecnospeed.com.br/qualidade-de-dados/

Qualidade de dados - Conceitos e importância.
content media

Diogo Vieira

30 de mar. de 2023

Conceitos - O que é um pipeline de dados?

In Big Data

Em uma tradução do inglês, pipeline significa gasoduto. Basicamente uma rede de tubulações para o transporte de gás natural do seu local de origem para seu local de destino. O mesmo conceito pode ser aplicado a diversos tipos de produtos como água encanada, esgoto, petróleo e, porque não, aos dados. Este artigo tem como objetivo esclarecer o conceito geral de pipeline de dados. Pipeline de dados é um conceito, consiste em uma série de etapas que visam mover os dados brutos de sua origem, transforma-los e entregar em um destino final. Esses dados transformados e otimizados são entregues de forma que possam ser utilizados em projetos diversos de análise, visualização de dados, machine learning e IA com o objetivo de gerar insights e valor que possam agregar ao negócio da empresa, seja por meio da melhoria de um processo ou do lançamento de um novo produto. Essas transformações podem variar conforme as regras de negócios ou qual o destino final dos dados. Os pipeline podem sem implementados em ambientes diversos (cloud, on-premisse, híbrido) com ferramentas variadas, sejam elas no-code, ou com o uso de linguagens de programação como Python, Java, Scala, R, C++ entre outras. Por se tratar de um conceito, é bastante flexível e adaptável a cada necessidade de projeto e pode incluir o uso de ferramentas e plataformas diversas. Em geral os pipeline de dados são compostos por 3 etapas: · 1º - Origem: O local onde os dados brutos se encontram. São diversas, podendo ser desde um banco de dados relacional, até APis, dispositivos IoT, arquivos pdf, tabelas Excel entre outras. O que exige cuidados com a forma como esses dados são extraídos, além da preocupação com a segurança e sensibilidade desses dados · 2º - Processamento: Aqui os dados brutos são tratados. Passam por processos de limpeza, transformação e enriquecimento, com o objetivo de facilitar os processos de análise. Esses processos vão depender das regras de negócios de cada projeto e da finalidade e especificidade de cada pipeline. · 3º - Destino: Local onde os dados serão armazenados depois de limpos e tratados. Novamente, vai depender das particularidades de cada projeto. De um modo geral, os dados podem ter seu destino final em um datalake, datawarehouse, em um storage local ou ainda, podem ser consumidos em tempo real. Existem dois tipos principais de modelos. Em batch ou em streaming. O processamento em batch consiste no transporte e tratamento de conjuntos de dados que foram armazenados durante um determinado período. Como por exemplo, as vendas do último mês. Estes dados são tratados em grandes lotes, sendo esse o modelo mais adequado para o processamento de grandes volumes de dados. Já o modelo em streaming, executa seus processos e movimentações de dados em tempo real. Dessa forma, é possível identificar com maior velocidade as informações e obter análises com maior rapidez. Sendo possível realizar as análises a medida que os eventos ocorrem. O pipeline de dados gera valor e traz vários benefícios para os projetos de dados de uma empresa: · Maior qualidade de dados: Os dados limpos e tratados são de maior utilidade para os usuários. Trazendo padronização de formatos e tipos, eliminando erros e redundâncias. Dessa forma, tornando os dados consistentes e valiosos. · Maior eficiência: Os pipeline modernos permitem a automatização e orquestração das tarefas de carga e transformação dos dados. Aumentando a velocidade do processo e agregando valor aos dados. Permite que a equipe do projeto foque seu tempo em ações de melhoria e na obtenção de melhores insights que beneficiem o negócio. · Maior integração: Permite corrigir inconsistências de dados oriundos de diferentes fontes ao integra-los em conjuntos, realizando o cruzamento desses valores e os corrigindo quando necessário. Resumindo, um pipeline bem estruturado permite a uma empresa coletar, analisar, gerenciar e utilizar seus dados com eficiência e rapidez. Fornecendo valiosos insights que podem gerar melhorias de processos, oportunidades de negócios e de crescimento. Em um cenário cada vez mais competitivo e de mudanças rápidas, estar pronto para responder a essas mudanças em um tempo hábil e com assertividade é fundamental. De encontro a essa necessidade, percebemos o quão importante e crítico é o trabalho de construção dessa pipeline. Sendo, portanto, um conceito fundamental dentro da Engenharia de Dados. Referências: https://www.datascienceacademy.com.br/ https://www.astera.com/pt/type/blog/etl-pipeline-vs-data-pipeline/#:~:text=O%20que%20%C3%A9%20um%20pipeline%20de%20dados%3F,com%20outras%20fontes%20de%20dados. https://aws.amazon.com/pt/what-is/data-pipeline/

Conceitos - O que é um pipeline de dados? content media

Diogo Vieira

14 de mar. de 2023

Microsoft Certified: Azure Fundamentals

In Azure

Este artigo tem como objetivo trazer um overview sobre a Azure Fundamentals, abordando seu conteúdo e formas de preparação para o exame. Como seu nome sugere, a AZ-900 é uma certificação que aborda os fundamentos relativos a nuvem e ao Microsoft Azure. Ela valida os conhecimentos básicos em conceitos, arquitetura, serviços, segurança, privacidade, preços e suporte. Sendo um excelente ponto de partida dentro da trilha de conhecimento e certificações Azure tanto para profissionais em início de carreira como para aqueles mais experientes. Para obtê-la, é preciso ser aprovado em um exame composto por 45 questões, alcançando a pontuação de 700 em 1000 pontos possíveis. Seu conteúdo é divido em 3 grandes tópicos cada um com um peso relativo no exame (pode variar de prova a prova). Entraremos em maiores detalhes e teremos uma visão geral sobre o que esperar em cada um dos módulos. Assim como veremos as opções de preparação para o exame a seguir: Princípios básicos do Microsoft Azure: descrever os conceitos de nuvem (25-30%): Aqui são apresentadas as principais definições de nuvem (o que são, como funcionam), informações sobre o modelo de responsabilidade compartilhada (servidor x cliente), modelos de nuvem (pública x privada x híbrida), casos de usos e apresentação do modelo baseado em consumo. Também temos os principais benefícios e vantagens que a nuvem pode oferecer. Escalabilidade e alta disponibilidade (facilidade para escalar e provisionar recursos tendo eles a sua disposição sem interrupções), previsibilidade e confiabilidade (capacidade do serviço em se recuperar de uma falha e continuar operando aliada a uma facilidade em prever custos e desempenho de operação), segurança, governança e capacidade de gerenciar todos esses recursos e serviços. E os diferentes tipos de serviços, seus benefícios e exemplos de casos de uso. IaaS (Infraestrutura como serviço), PaaS (Plataforma como serviço) e SaaS (Software como serviço). Conceitos básicos do Azure: descrever a arquitetura e os serviços do Azure (35-40%): Este módulo trata da infraestrutura do Microsoft Azure e como são organizadas, divididas e gerenciadas. Aqui temos informações sobre regiões do Azure, zonas de disponibilidade, datacenters, recursos, assinaturas e grupos de gerenciamento. Também são descritos os principais serviços de computação e de rede fornecidos. Maquinas virtuais (VMs), contêineres, funções, suas aplicações e opções. Assim como as opções de rede virtual, DNS, Gateway de VPN e o ExpressRoute Os serviços de armazenamento e seus diferentes tipos são apresentados (Blobs, Arquivos do Azure, Filas do Azure e Azure Disk) e suas vantagens e usos são explicados. Assim como as opções de camadas e redundância de armazenamento. É aqui também que vemos as opções para movimentar, transferir e migrar arquivos on e off-line. Por último, são abordados os diferentes métodos de autenticação e de autorização disponíveis para usuários. Conceitos básicos do Azure: Descrever o gerenciamento e a governança do Azure (30-35%): Por último, temos as informações referentes aos recursos de gerenciamento e governança que vão permitir gerenciar seus recursos locais e na nuvem. São apresentadas as ferramentas para acompanhar e gerenciar seus custos no Azure, quais fatores podem influenciar nesses custos, como estimar com a calculadora de preços e como comparar uma opção on premise x nuvem. Também somos apresentados as opções Azure para assegurar a governança e a conformidade do nosso ambiente. Desde ferramentas que controlam e gerenciam politicas (Azure Policy), passando por outra que permite padronizar a implementação de diversos recursos (Azure Blueprints) além das opções para bloquear recursos. Para gerenciar todos esses recursos, são oferecidas diferentes opções. É possível acessar e gerenciar por meio do portal Azure, de forma visual. Ou por meio de linha de comando, fazendo uso do Azure Cloud Shell (CLI ou PowerShell). Por fim, temos as ferramentas que permitem monitorar a saúde e o estado geral do ambiente. O Assistente do Azure realiza avaliações constantes dos recursos e com base nessas informações, realiza recomendações de melhorias. O serviço de integridade atua oferecendo o status de diferentes serviços em diferentes regiões. Já o Azure Monitor opera coletando e analisando dados sobre os recursos e oferecendo informações para tomada de decisões. A Microsoft fornece a trilha de aprendizado com opções de estudo individuais (gratuito) ou com instrutor (pago). A trilha abrange todos esses tópicos além de contar com verificações de conhecimentos e exemplos práticos. https://learn.microsoft.com/pt-br/certifications/azure-fundamentals/ Além da trilha, temos um recurso valiosíssimo na preparação para a prova. É possível realizar um simulado gratuito de 50 questões com temas que são abordados no exame de certificação quantas vezes forem necessárias. Vale lembrar que as questões do simulado não possuem o mesmo formato das questões do exame e que estão disponíveis somente em Inglês. O simulado permite verificar se a resposta está correta ou não. Em caso de resposta errada, ele sinaliza a correta e fornece a explicação. Ao final do simulado temos uma visão geral da performance, assim como podemos avaliar os resultados por cada uma das seções. Dessa forma, é possível identificar em quais pontos os resultados foram bons e quais pontos precisam ser melhorados. Como recomendação, a Microsoft sugere que se busque uma pontuação de 80% ou mais em diversas tentativas, como forma de melhor se preparar para o exame oficial. Frequentemente são realizados eventos online e gratuitos de treinamento por parte da Microsoft, os chamados Azure Virtual Training Days. Que possibilitam o aprendizado do conteúdo do exame além da possibilidade de se obter vouchers de descontos para a realização da prova. https://events.microsoft.com/pt-br/mvtd-azure?clientTimeZone=1 Concluindo, a AZ-900 é uma certificação que trata de fundamentos e conceitos básicos, e serve como base para se aprofundar e explorar trilhas e certificações mais avançadas e que demandam um conhecimento prévio maior. É possível realizar seu estudo, preparação e exame de forma gratuita, sendo portanto uma excelente porta de entrada para aqueles que buscam conhecimento e aprimorar suas habilidades em Cloud dentro do ambiente Microsoft Azure.

Microsoft Certified: Azure Fundamentals content media