O que é Data Science?

No artigo de hoje, o dataholic Rodrigo Santana vai apresentar de forma clara e concisa uma das profissões que mais estão em alta no momento. Se você é, deseja ser ou conhece algum cientista de dados, chegou a hora de conhecer melhor esse ramo. Boa leitura!


Vemos diversos tipos de definições para esta profissão, a qual já recebeu até o título de “profissão mais sexy do século XXI” há 10 anos atrás, pela Harvard Business Review. Porém, ainda nos dias de hoje, vemos diversos tipos de definições quando é feita a seguinte pergunta:


O que é Data Science?


Certa vez encontrei uma definição, que mesmo sendo breve, acabou sendo objetiva o bastante para responder essa questão:

“Cientistas de dados fazem observações, verificações, medições, análises e classificações, procurando entender os fatos e traduzi-los para uma linguagem estatística.”


A partir dessa pequena frase podemos tirar algumas informações como:

  • A importância do conhecimento da área do projeto para traduzi-la e assim gerar perguntas assertivas para a tomada de decisão;

  • Perfil observador e curioso, pois será necessário realizar pesquisas e buscas constantes para adaptar seus trabalhos e torná-los robustos ao decorrer da criação de suas análises;

  • Conhecimento estatístico, matemático e computacional para transformar suas perguntas iniciais em respostas através de seus algoritmos e modelos gerados.

Em literaturas que abordam o conteúdo sobre Data Science, os três pilares que abordam esses pontos levantados são:

- Ciência da Computação;

- Matemática e Estatística;

- Inteligência de Negócio.

A junção desses três pilares nos levará a outros três campos de estudos, sendo eles:


Artificial Intelligence: Técnica que permite que um computador possa pensar por si só, e agir de forma igual ou similar ao comportamento humano.

Machine Learning: Podemos considerar como uma subárea da Inteligência Artificial, já que é neste estágio que as máquinas são treinadas através de métodos estatísticos e aprendem com a experiência dos testes dos modelos gerados.

Deep Learning: E temos o Deep Learning, que é uma subárea do Machine Learning que faz uso de multicamadas de redes neurais com grandes volumes de dados para o treinamento do modelo.


E para caminharmos para o fim deste breve artigo, gostaria de falar um pouco sobre Machine Learning, também conhecido como Aprendizado de Máquina.


Machine Learning

São divididos em três setores: Supervisionado, Não Supervisionado e Por Reforço.


Aprendizado Supervisionado: Supervisionado: Conjunto grande de dados que faz uso dos algoritmos para treino através de dados rotulados e identificados, para assim predizer os próximos valores;


Aprendizado Não Supervisionado:

Não Supervisionado: Conjunto grande de dados, porém, sem rótulos e não identificados, assim os algoritmos devem aprender e diferenciar por si só, para buscar montar grupos e padronizações entre os dados levantados;


Por Reforço:

Por Reforço: Poucos dados ou nenhum, na base de tentativa e erro, muito utilizado em robótica por exemplo e em ambientes controlados, buscando evoluir gradativamente a cada teste executado.


Para a realização dos aprendizados são utilizados procedimentos que levam a uma conclusão:


Algoritmo e Modelo

Algoritmos: São os passos/procedimentos realizados com início, meio e fim, com objetivo de obter um resultado.


Modelo: Podemos apontar como o resultado obtido do Algoritmo, ou seja, após o “treino” realizado, o modelo é gerado.


Uma das boas práticas para realizar esse treinamento do algoritmo/modelo é separar o dataset em duas bases, sendo elas Treino e Teste, e assim sempre que precisar verificar novos valores inseridos nas features, teremos valores mais precisos e próximos da realidade.

Exemplo:

  • Dataset Treino 80% ... 70%

  • Dataset Teste 20% ... 30%


O que são Features?


Podemos apontar as Features como as variáveis dentro do seu dataset, como por exemplo as colunas de uma tabela, cada informação se torna uma Feature para que você utilize dentro do seu algoritmo e gere análises para montar o seu modelo.


É possível realizar análises com uma, duas ou quantas mais Features desejar. Porém, existem cuidados importantes para cada situação a ser aplicada, como quando há um grande volume de Features analisadas, que pode levar um tempo maior para treino do modelo.


Viés e Variância O Viés, conforme for treinado o modelo, ao aumentar a sua complexidade irá apresentar melhores índices, mas com grandes chances de cair no Overfitting, que seria um sobreajuste onde o modelo se adapta de forma muito eficiente, levando a memorização dos dados do Dataset no ambiente de Treino. Mesmo assim, quando fosse implementado no ambiente de Teste, o desempenho não seria o desejado.


A Variância, por sua vez, é a métrica que pode ser utilizada para ver como o modelo se comporta em diferentes Datasets, a fim de encontrar o meio termo. Sendo ele um ajuste para os treinos executados e o ponto de equilíbrio para assim usar o modelo nos Datasets de Treino e Teste para garantir sua performance.


Avaliação do Modelo

Como mencionado anteriormente, após a realização do algoritmo é preciso aplicar o modelo gerado em Treino para verificar o desempenho em Teste. Porém não existe uma fórmula mágica para esta avaliação do modelo, então o melhor a ser feito é fazer uso das boas práticas a serem adotadas, para assim verificar como seu modelo irá se comportar até chegarmos no modelo final para implementação, vamos ver abaixo algumas possíveis opções:

- Ajustes de parâmetros no algoritmo aplicado, desse modo gerando diversos modelos com um mesmo algoritmo;

- Anotações das aplicabilidades realizadas, metodologia e parâmetros empregados para conseguir discernir os resultados obtidos e saber qual teve melhor desempenho;

- Verificar quanto de acurácia o modelo obteve ao fim do modelo, levando em consideração se todas as features analisadas obtiveram retornos positivos para todas as variáveis aplicadas;

- Teste com novos conjuntos de dados por meio de amostragem, para verificação de desempenho do modelo, validando assim sua performance;


- Validação Cruzada, é uma prática similar à da amostragem, porém é feita a coleta de informações de forma cruzada entre os 80% - 20% e/ou 70% - 30%, que inicialmente foram separados para Treino e Teste, e posteriormente pegar outros pontos desse menor valor para rodar novamente o modelo, e ao fim tirar uma média de desempenho de todos os testes realizados para aferir a performance do modelo. Conclusão


Por fim, o objetivo final deste artigo foi apresentar de forma breve e resumida a profissão Data Science que ainda gera dúvidas sobre: o que é e o que faz. Trazendo então alguns dos processos utilizados dentro do Machine Learning, que como foi citado, é apenas uma das vertentes dentro deste universo.

O conhecimento da regra de negócio e a área de atuação de acordo com o projeto, é importante para conseguir realizar uma boa leitura dos dados e prepará-los de forma a gerar informação ao fim de toda execução do projeto. Assim, minimizamos o retrabalho por falta de informação que outrora acabou por ser ignorada ou não identificada na etapa de preparação ou pré-processamento dos dados, aplicando então boas práticas durante todas as etapas do processo de Machine Learning. Espero que o conteúdo até aqui tenha sido proveitoso e você possa ter esclarecido algumas dúvidas sobre o tema.

Se você curtiu o conteúdo, compartilhe com quem mais possa se interessar pelo o assunto, siga nossas redes sociais e fique por dentro das novidades que a Dataside traz diariamente, para toda a comunidade.💙✔️