Forum posts

Posts do fórum

gilson.castro

07 de jun. de 2023

Por que os prompts são reis na nova era de LLMs

In A.I. e Machine Learning

Na era atual dos grandes modelos de linguagem (LLMs) os prompts se tornaram a chave para desbloquear todo o potencial dos modelos de linguagem. Com a tecnologia em constante evolução, o uso de LLMs está se tornando cada vez mais comum em uma variedade de aplicações, desde chatbots até a geração de texto automático. Para aproveitar ao máximo esses modelos poderosos, é preciso dominar a arte de criar prompts eficazes desse modo, é necessário começar a pensar em como construir os melhores prompts possíveis, é através deles que podemos orientar o modelo e obter resultados precisos e relevantes. Entretanto, para criar um prompt eficaz não é tão simples quanto parece, é preciso ter um bom conhecimento da linguagem natural e saber exatamente o que deseja que o modelo produza. Além disso, é importante levar em consideração fatores como comprimento, complexidade e contexto. Prompt muito curto ou longo ? Um prompt muito curto pode não fornecer informações suficientes para o modelo entender completamente o que você está pedindo, enquanto um prompt muito longo pode ser confuso e difícil de processar. Da mesma forma, um prompt que usa palavras incomuns ou termos técnicos pode causar problemas de compreensão para o modelo, resultando em respostas imprecisas ou irrelevantes. E é aí que entra a importância de saber criar prompts eficazes: com a combinação certa de palavras-chave, estrutura e contexto, você pode alavancar todo o potencial dos modelos de linguagem para gerar resultados precisos e úteis. Portanto , os prompts são uma ferramenta poderosa para ajudar a lidar com o problema da escassez de dados assim é possível "ensinar" o modelo sobre um tópico específico, mesmo com apenas algumas poucas amostras de dados. Prompt Engineering: a arte de como falar com uma inteligência artifical A Engenharia de Prompts é uma disciplina nova que visa otimizar prompts e aproveitar ao máximo modelos de linguagem para diversos aplicativos e tópicos de pesquisa. Essa técnica ajuda a entender melhor as limitações dos modelos de linguagem grandes (LLMs). De acordo com Oppenlaender, J. (2022) a geração de texto para imagens tem despertado um interesse explosivo desde o ano de 2021. Atualmente, é possível sintetizar belas e intrigantes obras de arte e imagens digitais a partir de entradas textuais, também conhecidas como "prompts", utilizando modelos generativos profundos. Os autores White, J., Fu, Q., Hays, S., Sandborn, et al (2023) afirma que a engenharia de prompt é uma habilidade essencial para estabelecer conversas eficazes com grandes modelos de linguagem, como o ChatGPT. Os padrões de prompt são um método de transferência de conhecimento análogo aos padrões de software, pois fornecem soluções reutilizáveis para problemas comuns enfrentados em um contexto particular, ou seja, geração de saída e interação ao trabalhar com LLMs. Qual é o objetivo da Engenheria de Prompt? O objetivo da Engenharia de Prompt é criar prompts eficazes para instruir modelos de inteligência artificial a produzir resultados desejados. Isso envolve a seleção cuidadosa de informações relevantes, incluindo contexto, exemplos e inputs, que podem ajudar o modelo a entender o que está sendo solicitado e produzir respostas mais precisas e úteis. Através dessa engenharia de prompt pode-se criar e aprimorar os textos e comandos dentro das inteligências artificiais, como o ChatGPT, Bard, Midjourney, DALL-E, Stable Diffusion, entre outros tais aplicativos geradores podem produzir respostas cada vez mais próximas à linguagem natural humana, com maior precisão e eficiência. Cabe ressaltar também que a profissão de engenheiro de prompts está em alta devido ao constante avanço das IAs. Esses profissionais usam sua criatividade e conhecimento em NLP para aprimorar algoritmos e criar prompts que simplificam tarefas, como identificar falhas em sistemas de segurança em softwares. Isso ajuda as empresas a melhorar seus produtos e serviços, atender às necessidades dos clientes de forma mais eficiente e aumentar a produtividade dos funcionários. A demanda por engenheiros de prompts está crescendo rapidamente no mercado. Segue abaixo as principais técnicas de engenharia de prompts Referências : OPPENLAENDER, Jonas. Prompt Engineering for Text-Based Generative Art. arXiv preprint arXiv:2204.13988, 2022. WHITE, Jules et al. A prompt pattern catalog to enhance prompt engineering with chatgpt. arXiv preprint arXiv:2302.11382, 2023. Prompt Engineering Guide LangChain AI Handbook

Por que os prompts são reis na nova era de LLMs content media

gilson.castro

23 de fev. de 2023

Coleta de dados textuais : Extração de artigos do Google Notícias

In A.I. e Machine Learning

A coleta de dados textuais é um processo crucial em muitas áreas, desde a pesquisa de mercado até a análise de sentimentos ela envolve a coleta, identificação e extração de informações relevantes de textos não estruturados. Existem várias técnicas diferentes que podem ser utilizadas para coletar dados textuais, cada uma com suas próprias vantagens e desvantagens. A raspagem de dados é outra técnica comum para coletar dados textuais, existe ferramentas de raspagem de dados podem ser usadas para coletar informações de fontes da web. Isso é útil para coletar dados de fontes não estruturadas, como blogs e fóruns de discussão. Neste artigo pretendo mostrar passo a passo sobre como extrair artigos do Google Notícias usando a biblioteca de extração : GoogleNews, ela é uma que permite acesso ao conteúdo de notícias de várias fontes de notícias de todo o mundo. Ela fornece uma maneira fácil e rápida de acessar notícias atuais e históricas de uma ampla variedade de fontes, incluindo jornais, revistas, blogs e fontes de notícias online. Web Scraping Google Notícias com Python Primeiro vamos instalar a biblioteca !pip install GoogleNews Em seguida carregar a bibloteca from GoogleNews import GoogleNews #importação googlenews = GoogleNews() Configurando o idioma googlenews = GoogleNews(lang='pt') # defindo para português Ou podemos também escrever da seguinte forma : googlenews = GoogleNews(lang='pt', region='BR') #definindo idioma e a região Buscando os últimos 7 dias de noticias do Google noticia googlenews = GoogleNews(period='7d') Escolhendo um período especifico googlenews = GoogleNews(start='01/01/2023',end='01/02/2023') Pegando uma noticia import pandas as pd googlenews=GoogleNews(period='d') googlenews.setlang('pt') googlenews.search('dataside e inteligência artificial') #pesquisando termos result=googlenews.result() #armazenando os resultados df=pd.DataFrame(result) df.head() #transformando em um dataframe os resultados Gostou da biblioteca ? Segue algumas referências para você se aprofundar melhor https://pypi.org/project/GoogleNews/

Coleta de dados textuais : Extração de artigos do Google Notícias content media

263

gilson.castro

13 de fev. de 2023

Análise de texto usando modelo de tópico

In A.I. e Machine Learning

A análise de texto com modelos de tópico é uma técnica de processamento de linguagem natural que visa identificar os tópicos principais presentes em um conjunto de documentos, a modelagem de tópico é amplamente utilizada em diversas aplicações, incluindo análise de sentimentos, classificação de documentos, análise de tendências, entre outras. Fonte de imagem: Elaboração própria Os modelos de tópico são treinados em dados de treinamento e, em seguida, utilizados para classificar novos documentos. Desse modo, o resultado da análise de tópico é geralmente representado como uma matriz de tópico-documento, onde cada linha representa um tópico e cada coluna representa um documento. A intensidade de cor na célula indica a probabilidade de um documento pertencer a um determinado tópico Como a biblioteca Gensim pode te ajudar implementar um modelo de tópico ? Gensim é uma biblioteca popular de processamento de linguagem natural (NLP) de software livre usada para modelagem de tópicos não supervisionada. Ele usa os melhores modelos acadêmicos e aprendizado de máquina estatístico moderno para executar várias tarefas complexas, como: Construir vetores de documentos ou palavras Corpora Realizando a identificação do tópico Realizar comparação de documentos (recuperar documentos semanticamente semelhantes) Analisando documentos de texto simples para estrutura semântica Caso tenha interesse leia mais aqui: Implementação usando python Instale o Gensim: !pip install gensim 2. Carregue seus dados textuais dados_textuais = ["sou um dataholic muito feliz","dataside melhor empresa","dataside tem soluções em IA","parceria top entre dataside e microsoft"...] 3. Pré-processamento dos dados textuais from nltk.tokenize import word_tokenize #tokenização from nltk.corpus import stopwords stop_words = set(stopwords.words("portuguese")) texts = [] for text in dados_textuais: tokenized_text = word_tokenize(text.lower()) cleaned_text = [word for word in tokenized_text if word not in stop_words] texts.append(texto_limpo) No pré-processamento dos dados textuais é feito uma limpeza dos textos tais como : remoção de pontuação , espaços , links dentre qualquer caractere que atrapalhe na aplicação do modelo de tópico. 4. Criação de um saco de palavras ou bag-of-words* from gensim.corpora import Dictionary dictionary = Dictionary(texto_limpo) corpus = [dictionary.doc2bow(texto_limpo) for text in texto_limpo] *O modelo bag-of-words é uma maneira de representar dados de texto ao modelar texto com algoritmos de aprendizado de máquina. 5. Aplicando modelo de tópico from gensim.models import LdaModel ldamodel = LdaModel(corpus, num_topics=3, id2word=dictionary, passes=50) 6. Visualização dos tópicos for topic in ldamodel.print_topics(num_topics=5, num_words=3): #número de tópicos print("Tópicos: ", topic) Para visualizar tópicos podemos utilizar também a biblioteca pyLDAvis, segue um exemplo abaixo de como ficaria: Esse artigo visou apresentar um exemplo básico de como aplicar um modelo de tópico em dados textuais e usando o pacote Gensim em Python em próximos artigos podemos aprofundar mais nossa análise principalmente métricas de modelo.

Análise de texto usando modelo de tópico content media

136

gilson.castro

06 de fev. de 2023

Introdução a métodos de agrupamento de texto

In A.I. e Machine Learning

A quantidade de dados de texto gerados nos últimos anos explodiu exponencialmente desse modo, é essencial que as empresas busque formas de coletar dados textuais para descobrir padrões , identificar falhas e insights no dados para assim projetar serviços , produtos. O que é clusterização de texto ? A clusterização de texto é um processo de aprendizado não supervisionado usado para agrupar documentos semelhantes em categorias ou clusters. Ele é utilizado na análise de dados textuais, como na recuperação de informações, mineração de dados, análise de opinião e análise de sentenças. Como funciona ? A clusterização de texto geralmente começa com a representação dos documentos em um espaço de características, convertendo-os em vetores numéricos. Fonte de imagem : Elaboração própria Os algoritmos de clusterização são aplicados a esses vetores para identificar grupos de documentos semelhantes. Existem vários algoritmos de clusterização, incluindo o k-means, o agrupamento hierárquico e o modelo de mistura gaussiano. Principais métodos de clusterização de texto : K-Means: um algoritmo de clusterização iterativo que atribui documentos a um número pré-determinado de clusters, com base na similaridade de seus vetores de características. Agrupamento Hierárquico: um algoritmo que constrói uma árvore de clusters, agrupando documentos sucessivamente em níveis mais elevados de similaridade. Modelo de Mistura Gaussiano: um modelo probabilístico que representa cada cluster como uma distribuição normal multivariada e atribui documentos aos clusters com base na probabilidade de pertencerem a cada distribuição. Modelo LSI (Latent Semantic Indexing): um método que utiliza a análise de singularidade latentes (LSI) para reduzir a dimensionalidade dos vetores de características dos documentos e melhorar a performance da clusterização. Modelo de Tópico: um modelo probabilístico que representa documentos como combinações de tópicos latentes e atribui documentos a tópicos com base na probabilidade de pertencerem a cada tópico. Referências: LI, Xue; ZAIANE, Osmar R.; LI, Zhanhuai. Advanced data mining and applications. Springer International Publishing, 2022.

Introdução a métodos de agrupamento de texto content media