A coleta de dados textuais é um processo crucial em muitas áreas, desde a pesquisa de mercado até a análise de sentimentos ela envolve a coleta, identificação e extração de informações relevantes de textos não estruturados. Existem várias técnicas diferentes que podem ser utilizadas para coletar dados textuais, cada uma com suas próprias vantagens e desvantagens.
A raspagem de dados é outra técnica comum para coletar dados textuais, existe ferramentas de raspagem de dados podem ser usadas para coletar informações de fontes da web. Isso é útil para coletar dados de fontes não estruturadas, como blogs e fóruns de discussão.
Neste artigo pretendo mostrar passo a passo sobre como extrair artigos do Google Notícias usando a biblioteca de extração : GoogleNews, ela é uma que permite acesso ao conteúdo de notícias de várias fontes de notícias de todo o mundo. Ela fornece uma maneira fácil e rápida de acessar notícias atuais e históricas de uma ampla variedade de fontes, incluindo jornais, revistas, blogs e fontes de notícias online.
Web Scraping Google Notícias com Python
Primeiro vamos instalar a biblioteca
!pip install GoogleNews
Em seguida carregar a bibloteca
from GoogleNews import GoogleNews #importação
googlenews = GoogleNews()
Configurando o idioma
googlenews = GoogleNews(lang='pt') # defindo para português
Ou podemos também escrever da seguinte forma :
googlenews = GoogleNews(lang='pt', region='BR') #definindo idioma e a região
Buscando os últimos 7 dias de noticias do Google noticia
googlenews = GoogleNews(period='7d')
Escolhendo um período especifico
googlenews = GoogleNews(start='01/01/2023',end='01/02/2023')
Pegando uma noticia
import pandas as pd
googlenews=GoogleNews(period='d')
googlenews.setlang('pt')
googlenews.search('dataside e inteligência artificial') #pesquisando termos
result=googlenews.result() #armazenando os resultados
df=pd.DataFrame(result) df.head() #transformando em um dataframe os resultados
Gostou da biblioteca ?
Segue algumas referências para você se aprofundar melhor
https://pypi.org/project/GoogleNews/