window.lintrk('track', { conversion_id: 13086145 }); Forum posts
top of page

Posts do fórum

antonio.araujo
28 de mar. de 2023
In Big Data
Um engenheiro de dados inevitavelmente enfrentará o processo de ETL ou ELT em algum momento, no qual uma das linguagens usuais é o Python. Para simplificar o uso dessa linguagem, foi criado o PySpark, um framework muito popular. No entanto, no início da carreira de um engenheiro de dados, esse framework pode ser um pouco confuso. Neste artigo, discutiremos o que é o PySpark, suas vantagens e usos, para ajudar a compreender melhor essa ferramenta. O que é o PySpark? O PySpark é uma API Python para Apache Spark, denominado como o mecanismo de processamento analítico para aplicações de processamento de dados distribuídos em larga escala e aprendizado de máquina. Ele oferece escalabilidade ao distribuir tarefas em vários nós de um cluster para processamento em paralelo, permitindo processar grandes conjuntos de dados. É uma das principais bibliotecas para processamento de Big Data e Machine Learning. O que isso quer dizer? Enquanto a linguagem python ocorre em processamento sequencial, que seria execuções uma após a outra, no pyspark com ajuda dos clusters (conjuntos de computadores conectados que trabalham em conjunto para processar grandes conjuntos de dados), esse processamento é feito de forma mais eficiente. Quais suas vantagens? Como citado anteriormente, o PySpark consegue através dos clusters, fazer um processamento paralelo e assim conseguir ser mais eficiente e rápido, porém existem outras coisas que fazem o PySpark ser uma ferramente tão útil no nosso dia a dia, são elas: • Com o uso do PySpark, é possível o processamento de dados em Hadoop (HDFS), AWS S3 e outros sistemas de arquivos. • Possui bibliotecas de aprendizado de máquina e gráficos. • Geralmente as aplicações criadas e executadas no PySpark são 100x mais rápidas que outras em sistemas de dados conhecidos. • Apesar de ser conhecida pela linguagem Python, PySpark suporta outras linguagens além do Python, como Java, Scala e R. • Ferramenta open source, o que significa que é totalmente gratuita para uso comercial e não comercial. • Pode ser facilmente integrado com outras ferramentas, como o Pandas e o Scikit-learn, permitindo a construção de pipelines de Machine Learning mais complexos. E o seu uso? Agora que comentamos um pouco sobre o PySpark, fica aquela dúvida, como podemos fazer o uso desse framework e aqui vamos desde a configuração até alguns casos de uso. Caso não tenha ainda instalado em sua máquina ou ambiente, usando o comando pip, faça a instalação do framework !pip install pyspark Para dar início ao uso, temos que fazer a importação e iniciar a sessão no Spark from pyspark.sql import SparkSession Spark = SparkSession.builder.appName('DataFrame').getOrCreate() Após isso podemos fazer a leitura de uma base dados junto com seus parâmetros header dizendo que possuem um cabeçalho com suas informações e inferSchema para criar um schema para a tabela lida daados = Spark.read.csv('dados_spark.csv', header=True, inferSchema=True) dados.printSchema() root |-- idade: integer (nullable = true) |-- nome: string (nullable = true) |-- cidade: string (nullable = true) |-- salario: integer (nullable = true) Para confirmar os dados que foram lidos, podemos utilizar o .show() para mostrar o dataframe e com o parâmetro n delimitamos as 10 primeiras linhas dados.show(n=10) +-----+--------+--------------+-------+ |idade| nome| cidade|salario| +-----+--------+--------------+-------+ | 30| João| São Paulo| 5000| | 25| Maria|Rio de Janeiro| 4500| | 40| Ana|Belo Horizonte| 7000| | 27| Carlos| Brasília| 5500| | 35| Juliana| São Paulo| 8000| | 28|Fernanda| Porto Alegre| 6000| | 33| Pedro| Curitiba| 5500| | 29| Luciana| Florianópolis| 7500| | 26| Gustavo| São Paulo| 4000| | 37| Mariana|Belo Horizonte| 9000| +-----+--------+--------------+-------+ Pode ser feita também a seleção de colunas especificas com o comando .select() dados.select(['nome', 'cidade']).show(n=10) +--------+--------------+ | nome| cidade| +--------+--------------+ | João| São Paulo| | Maria|Rio de Janeiro| | Ana|Belo Horizonte| | Carlos| Brasília| | Juliana| São Paulo| |Fernanda| Porto Alegre| | Pedro| Curitiba| | Luciana| Florianópolis| | Gustavo| São Paulo| | Mariana|Belo Horizonte| +--------+--------------+ Para criar uma nova coluna, por exemplo, aumento com 10% a mais na coluna salário pode ser feita o uso do withColumn() que cria uma nova dados = dados.withColumn('aumento', dados['salario'] * 1.1) dados.show(n=10) +--------+--------------+------+----------+-------+ | nome| cidade|idade| salario|aumento| +--------+--------------+------+----------+-------+ | João| São Paulo| 30| 4000.0|4400.00| | Maria|Rio de Janeiro| 25| 3500.0|3850.00| | Ana|Belo Horizonte| 35| 6000.0|6600.00| | Carlos| Brasília| 27| 4200.0|4620.00| | Juliana| São Paulo| 29| 3700.0|4070.00| |Fernanda| Porto Alegre| 31| 4800.0|5280.00| | Pedro| Curitiba| 24| 3200.0|3520.00| | Luciana| Florianópolis| 26| 3900.0|4290.00| | Gustavo| São Paulo| 28| 4500.0|4950.00| | Mariana|Belo Horizonte| 30| 5500.0|6050.00| +--------+--------------+------+----------+-------+ Para excluirmos uma coluna podemos fazer o famoso .drop() dados = dados.drop('aumento') dados.show(n=10) +--------+--------------+------+----------+ | nome| cidade|idade| salario| +--------+--------------+------+----------+ | João| São Paulo| 30| 4000.0| | Maria|Rio de Janeiro| 25| 3500.0| | Ana|Belo Horizonte| 35| 6000.0| | Carlos| Brasília| 27| 4200.0| | Juliana| São Paulo| 29| 3700.0| |Fernanda| Porto Alegre| 31| 4800.0| | Pedro| Curitiba| 24| 3200.0| | Luciana| Florianópolis| 26| 3900.0| | Gustavo| São Paulo| 28| 4500.0| | Mariana|Belo Horizonte| 30| 5500.0| +--------+--------------+------+----------+ Conclusão Poderia trazer infinitos exemplos, mas o objetivo desse artigo foi mostrar a importância do PysSpark no dia a dia e mostrar algumas formas de utilizar ele, que terá ajuda do processamento paralelo. Como também vimos que é uma ferramenta poderosa para processamento de dados em larga escala e aprendizado de máquina. Ele apresenta diversas vantagens, como a facilidade de programação em Python, o suporte a múltiplas fontes de dados, a capacidade de processamento distribuído e a escalabilidade horizontal. Com o PySpark, é possível realizar análises e extrações de informações em grandes volumes de dados com mais eficiência e agilidade. Além disso, com o uso do PySpark em conjunto com outras bibliotecas e ferramentas, é possível construir soluções completas de processamento e análise de dados.
PySpark: o que é, vantagens e usos content media
0
0
402
antonio.araujo
13 de mar. de 2023
In Discussões gerais
Se você é um profissional de tecnologia, provavelmente já considerou a possibilidade de obter uma certificação para validar suas habilidades e conhecimentos em uma determinada tecnologia, plataforma ou sistema. No entanto, as certificações podem parecer um assunto complexo e confuso para quem está começando a se aventurar no mundo da TI. Neste artigo, vamos desmistificar as certificações de TI e responder às perguntas mais comuns que as pessoas têm sobre o assunto. Vamos começar pelo básico: O que são as certificações? Certificações na área de tecnologia são como diplomas que atestam a capacidade e habilidades de profissionais de TI, após a conclusão de exames e testes específicos. Essas certificações podem ser obtidas por meio de organizações de certificação reconhecidas e são geralmente utilizadas para validar as habilidades técnicas de um indivíduo em um determinado conjunto de tecnologias, plataformas ou sistemas. Qual a importância? As certificações validam que um profissional possui as habilidades e conhecimentos necessários em uma determinada tecnologia, plataforma ou habilidade. Isso pode ajudar a aumentar a confiança dos empregadores e clientes nas habilidades e conhecimentos do profissional. Podem também ajudar os profissionais de TI a se destacarem em um mercado competitivo e a obterem melhores oportunidades de emprego. Muitas certificações exigem que os profissionais de TI participem de treinamentos e atualizações regulares. Isso ajuda a garantir que os profissionais estejam sempre atualizados com as tecnologias mais recentes e preparados para lidar com os desafios do trabalho. Quais os tipos de certificações? Fornecedores: fornecidas por empresas de tecnologia como Microsoft, Cisco e Oracle, essas certificações atestam as habilidades em produtos e tecnologias específicas. Segurança: atestam as habilidades em segurança cibernética, incluindo a proteção de redes, sistemas e dados contra ameaças. Gerenciamento de projetos: atestam as habilidades em gerenciamento de projetos, incluindo planejamento, execução, controle e encerramento de projetos de TI. Nuvem: atestam as habilidades em serviços e tecnologias de nuvem, incluindo AWS, Microsoft Azure e Google Cloud. Programação e desenvolvimento de software: atestam as habilidades em desenvolvimento de software. Análise de dados e inteligência artificial: atestam tecnologias relacionadas à inteligência artificial. Como se preparar? Agora que você entendeu como funcionam as certificações, para que servem e decidiu qual o tipo de certificação você quer tirar, agora é hora de começar sua preparação para ter o seu PASS. 1. Decidir qual empresa ou instituição você irá tirar, se atente a qual tecnologia você está utilizando para já ajudar no caminho. ex.: está trabalhando com azure, a empresa será Microsoft e uma boa para começar seria a Fundamentals AZ-900. 2. Procurar algum treinamento ou evento que deixe a sua prova de forma gratuita, isso fara que você economize seu dinheiro, nestes eventos ou treinamentos são dados vocuhers com porcentagem ou até mesmo 100% do valor da certificação. 3. Procure informações sobre a certificação, tais como os requisitos, a duração, a estrutura e o conteúdo do exame. Isso ajudará a entender melhor o que esperar e como se preparar adequadamente. 4. Obter materiais de estudo relevantes e atualizados para a certificação, como livros, cursos online, videoaulas, guias de estudo, são alguns deles que você encontrara muita informação importante. 5. Praticar, procure por simulados e questões parecidas, se atente sempre aos DUMPs que são questões vazadas das provas, ao resolver elas você estará apenas se enganando e aferindo um conhecimento que você não possui. 6. Terminado todos os pontos (imagina-se 1-2 meses de preparação), está na hora de realizar a prova, vá com calma e se não der certo, só tentar novamente, não existe um número padrão de tentativas para ser aprovado, cada um irá conseguir sua certificação no seu tempo. Conclusão As certificações de TI podem ser uma ótima maneira de validar suas habilidades e conhecimentos em uma determinada tecnologia, plataforma ou sistema. No entanto, é importante escolher a certificação certa, pesquisar e se preparar adequadamente para garantir o sucesso. Com as informações e dicas fornecidas neste artigo, você estará melhor equipado para começar sua jornada rumo à obtenção de uma certificação de TI.
Certificações de TI: o que são, sua importância, tipos e como se preparar para obter uma content media
0
0
37

antonio.araujo

Mais ações
bottom of page