top of page

Os 5 V’s do Big Data

Você conhece os 5 V’s do Big Data? O #dataholic Lucas Costa escreveu um artigo para explicar melhor sobre eles. Bora conferir!

Muitos já ouviram falar do famigerado Big Data, porém nem todos sabem o que exatamente define o termo. Big Data não é uma tecnologia específica e sim um conceito, porém existem tecnologias que nos auxiliam a executar este conceito com mais facilidade. Como é o caso do Databricks, ferramenta que utilizamos constantemente aqui na Dataside.

Não entrarei no mérito de descrever as capacidades desta poderosa ferramenta neste artigo, acredito que a ele mereça uma postagem a parte. Portanto, se você tem interesse neste assunto, fique ligado em posts futuros aqui no nosso blog.

Big Data em sua tradução literal não nos diz muita coisa, apenas que são “dados grandes” ou uma quantidade “grande de dados”.  Com isso, muitas interpretações errôneas do termo podem surgir. O objetivo desta postagem é clarear o que realmente define Big Data, os 5 V’s:

  1. Volume

  2. Velocidade

  3. Variedade

  4. Veracidade

  5. Valor

O Big Data surgiu a partir da crescente quantidade de dados que geramos diariamente em nossas vidas e das diversas fontes em que estes dados são gerados. Um estudo da International Data Corporation (IDC) reportou que em 2018 existiam cerca de 33 Zettabytes de dados no mundo e estimam que até 2025 existirão cerca de 175 Zettabytes. Para conseguirmos visualizar melhor quão massiva é esta quantidade, podemos considerar que em média um computador pessoal possui um HD de 1 Terabyte de capacidade de armazenamento. 1 Zettabyte corresponde ao equivalente de 1 BILHÃO de Terabytes! Muita coisa né?

Esta quantidade enorme de dados se encaixa em nosso primeiro V, o Volume. Nem todas as empresas possuem um volume tão massivo de dados, muitas não chegam na casa dos Terabytes. Volume não é a única característica importante para que seu negócio possa aplicar soluções de Big Data. Muitos acreditam que Big Data se refere unicamente ao tamanho da base, uma concepção errada e, infelizmente, comum.

Agora olhe a sua volta. Quantos dos objetos que você possui já geraram dados? Quantos deles geram dados ativamente ou passivamente? Quantos sites e softwares que você utiliza capturam seus dados?

Para você entender melhor do que estou falando, irei dar o exemplo de uma caneca que estou usando para tomar café enquanto escrevo. A primeiro momento, pode parecer que ela nunca gerou dados. Afinal, é só uma caneca. Ela não tem wi-fi ou coisas do tipo. E de fato a caneca em si nunca gerou. Porém desde o momento em que eu a comprei até a chegada dela em minha casa, diversos dados foram gerados. Como por exemplo:

  1. Utilizei meu celular para encontrar um site que vendia canecas e acessá-lo. Agora a Google sabe da minha busca e interesse em canecas.

  2. Eu naveguei no site, clicando em vários produtos. Agora o site sabe quais produtos eu tenho maior interesse e quais produtos recomendar para mim. Claro, considerando que o site faça recomendações inteligentes.

  3. Eu me cadastrei no site, fornecendo meus dados pessoais como nome, idade e endereço. Além de outros dados coletados pelos cookies do site.

  4. O vendedor recebeu meu pedido, armazenando e alterando dados do estoque e de vendas.

  5. O produto foi encaminhado para uma transportadora, que gerou dados desde o recebimento de meu produto até a entrega dele.

  6. Após eu ter recebido a caneca, recebi um e-mail solicitando uma avaliação do produto. E então eu o avaliei.

Se levarmos em conta todos os tipos de dado que foram gerados, todos os dispositivos que geraram os dados e todos os formatos e fontes em que eles foram armazenados, temos nosso segundo V, a Variedade.

Pense bem na velocidade em que todos estes dados são gerados. Não só por esta compra, mas por todas as outras pessoas que acessam a internet. Independentemente do que elas estejam fazendo. Pense na velocidade em que sua última compra online foi aprovada e na velocidade em que seu aplicativo de cartão de crédito gerou uma notificação em seu celular informando a origem da compra e seu valor. No quão rápida foi a atualização de seu saldo na aplicação. Questão de segundos, certo? Talvez até mesmo milissegundos. Pois aí entramos em nosso terceiro V, a Velocidade.

O quarto V a ser abordado é a Veracidade. Veracidade nada mais é que a qualidade e precisão dos dados. Imagine o transtorno do vendedor ao descobrir que a caneca que estava sendo anunciada no site, a mesma que comprei, não está mais disponível no estoque. Os dados do site estavam desatualizados, mesmo que o processo de atualização do site seja feito de forma automática. Acontece que ocorreram diversas compras dessa caneca em um curto período e o processamento dos dados de venda é feito uma vez por dia. Ou seja, os valores que eram exibidos no site não eram os corretos e isso só iria mudar no dia seguinte. O transtorno é grande e poderia ser evitado se os dados fossem verídicos, precisos e atualizados em real-time.

Agora imagine que este mesmo vendedor está analisando sua base de dados completa. Existem dezenas de milhares de dados, de diversos períodos e fontes, diversos setores e times. Para converter estes dados em insights, é necessário definir qual pergunta ele deseja responder. Nem toda informação armazenada é útil ou relevante para responder perguntas específicas do negócio. Saber filtrar e selecionar quais dados são úteis para tomada de decisão é um fator de extrema importância. Não é à toa que este é o nosso quinto e último V, o Valor. Valor que os dados geram para o negócio em si.

Aqui na Dataside oferecemos soluções de Big Data para os mais diversos tipos de negócio! Ficou interessado? Que tal mandar uma mensagem para a gente?

Pensou em dados, pensou Dataside!

Comments


bottom of page