top of page

Posts do fórum

gilson.castro
07 de jun. de 2023
In A.I. e Machine Learning
Na era atual dos grandes modelos de linguagem (LLMs) os prompts se tornaram a chave para desbloquear todo o potencial dos modelos de linguagem. Com a tecnologia em constante evolução, o uso de LLMs está se tornando cada vez mais comum em uma variedade de aplicações, desde chatbots até a geração de texto automático. Para aproveitar ao máximo esses modelos poderosos, é preciso dominar a arte de criar prompts eficazes desse modo, é necessário começar a pensar em como construir os melhores prompts possíveis, é através deles que podemos orientar o modelo e obter resultados precisos e relevantes. Entretanto, para criar um prompt eficaz não é tão simples quanto parece, é preciso ter um bom conhecimento da linguagem natural e saber exatamente o que deseja que o modelo produza. Além disso, é importante levar em consideração fatores como comprimento, complexidade e contexto. Prompt muito curto ou longo ? Um prompt muito curto pode não fornecer informações suficientes para o modelo entender completamente o que você está pedindo, enquanto um prompt muito longo pode ser confuso e difícil de processar. Da mesma forma, um prompt que usa palavras incomuns ou termos técnicos pode causar problemas de compreensão para o modelo, resultando em respostas imprecisas ou irrelevantes. E é aí que entra a importância de saber criar prompts eficazes: com a combinação certa de palavras-chave, estrutura e contexto, você pode alavancar todo o potencial dos modelos de linguagem para gerar resultados precisos e úteis. Portanto , os prompts são uma ferramenta poderosa para ajudar a lidar com o problema da escassez de dados assim é possível "ensinar" o modelo sobre um tópico específico, mesmo com apenas algumas poucas amostras de dados. Prompt Engineering: a arte de como falar com uma inteligência artifical  A Engenharia de Prompts é uma disciplina nova que visa otimizar prompts e aproveitar ao máximo modelos de linguagem para diversos aplicativos e tópicos de pesquisa. Essa técnica ajuda a entender melhor as limitações dos modelos de linguagem grandes (LLMs).   De acordo com Oppenlaender, J. (2022) a geração de texto para imagens tem despertado um interesse explosivo desde o ano de 2021. Atualmente, é possível sintetizar belas e intrigantes obras de arte e imagens digitais a partir de entradas textuais, também conhecidas como "prompts", utilizando modelos generativos profundos. Os autores White, J., Fu, Q., Hays, S., Sandborn, et al (2023) afirma que a engenharia de prompt é uma habilidade essencial para estabelecer conversas eficazes com grandes modelos de linguagem, como o ChatGPT. Os padrões de prompt são um método de transferência de conhecimento análogo aos padrões de software, pois fornecem soluções reutilizáveis ​​para problemas comuns enfrentados em um contexto particular, ou seja, geração de saída e interação ao trabalhar com LLMs. Qual é o objetivo da Engenheria de Prompt?   O objetivo da Engenharia de Prompt é criar prompts eficazes para instruir modelos de inteligência artificial a produzir resultados desejados. Isso envolve a seleção cuidadosa de informações relevantes, incluindo contexto, exemplos e inputs, que podem ajudar o modelo a entender o que está sendo solicitado e produzir respostas mais precisas e úteis.   Através dessa engenharia de prompt  pode-se criar e aprimorar os textos e comandos dentro das inteligências artificiais, como o ChatGPT, Bard, Midjourney, DALL-E, Stable Diffusion, entre outros tais aplicativos geradores  podem produzir respostas cada vez mais próximas à linguagem natural humana, com maior precisão e eficiência.   Cabe ressaltar também que a profissão de engenheiro de prompts está em alta devido ao constante avanço das IAs. Esses profissionais usam sua criatividade e conhecimento em NLP para aprimorar algoritmos e criar prompts que simplificam tarefas, como identificar falhas em sistemas de segurança em softwares. Isso ajuda as empresas a melhorar seus produtos e serviços, atender às necessidades dos clientes de forma mais eficiente e aumentar a produtividade dos funcionários. A demanda por engenheiros de prompts está crescendo rapidamente no mercado. Segue abaixo as principais técnicas de engenharia de prompts Referências : OPPENLAENDER, Jonas. Prompt Engineering for Text-Based Generative Art. arXiv preprint arXiv:2204.13988, 2022. WHITE, Jules et al. A prompt pattern catalog to enhance prompt engineering with chatgpt. arXiv preprint arXiv:2302.11382, 2023. Prompt Engineering Guide LangChain AI Handbook
Por que os prompts são reis na nova era de LLMs content media
0
0
27
gilson.castro
23 de fev. de 2023
In A.I. e Machine Learning
A coleta de dados textuais é um processo crucial em muitas áreas, desde a pesquisa de mercado até a análise de sentimentos ela envolve a coleta, identificação e extração de informações relevantes de textos não estruturados. Existem várias técnicas diferentes que podem ser utilizadas para coletar dados textuais, cada uma com suas próprias vantagens e desvantagens. A raspagem de dados é outra técnica comum para coletar dados textuais, existe ferramentas de raspagem de dados podem ser usadas para coletar informações de fontes da web. Isso é útil para coletar dados de fontes não estruturadas, como blogs e fóruns de discussão. Neste artigo pretendo mostrar passo a passo sobre como extrair artigos do Google Notícias usando a biblioteca de extração : GoogleNews, ela é uma que permite acesso ao conteúdo de notícias de várias fontes de notícias de todo o mundo. Ela fornece uma maneira fácil e rápida de acessar notícias atuais e históricas de uma ampla variedade de fontes, incluindo jornais, revistas, blogs e fontes de notícias online. Web Scraping Google Notícias com Python Primeiro vamos instalar a biblioteca !pip install GoogleNews Em seguida carregar a bibloteca from GoogleNews import GoogleNews #importação googlenews = GoogleNews() Configurando o idioma googlenews = GoogleNews(lang='pt') # defindo para português Ou podemos também escrever da seguinte forma : googlenews = GoogleNews(lang='pt', region='BR') #definindo idioma e a região Buscando os últimos 7 dias de noticias do Google noticia googlenews = GoogleNews(period='7d') Escolhendo um período especifico googlenews = GoogleNews(start='01/01/2023',end='01/02/2023') Pegando uma noticia import pandas as pd googlenews=GoogleNews(period='d') googlenews.setlang('pt') googlenews.search('dataside e inteligência artificial') #pesquisando termos result=googlenews.result() #armazenando os resultados df=pd.DataFrame(result) df.head() #transformando em um dataframe os resultados Gostou da biblioteca ? Segue algumas referências para você se aprofundar melhor https://pypi.org/project/GoogleNews/
Coleta de dados textuais : Extração de artigos do Google Notícias content media
0
0
446
gilson.castro
13 de fev. de 2023
In A.I. e Machine Learning
A análise de texto com modelos de tópico é uma técnica de processamento de linguagem natural que visa identificar os tópicos principais presentes em um conjunto de documentos, a modelagem de tópico é amplamente utilizada em diversas aplicações, incluindo análise de sentimentos, classificação de documentos, análise de tendências, entre outras. Fonte de imagem: Elaboração própria Os modelos de tópico são treinados em dados de treinamento e, em seguida, utilizados para classificar novos documentos. Desse modo, o resultado da análise de tópico é geralmente representado como uma matriz de tópico-documento, onde cada linha representa um tópico e cada coluna representa um documento. A intensidade de cor na célula indica a probabilidade de um documento pertencer a um determinado tópico Como a biblioteca Gensim pode te ajudar implementar um modelo de tópico ? Gensim é uma biblioteca popular de processamento de linguagem natural (NLP) de software livre usada para modelagem de tópicos não supervisionada. Ele usa os melhores modelos acadêmicos e aprendizado de máquina estatístico moderno para executar várias tarefas complexas, como: Construir vetores de documentos ou palavras Corpora Realizando a identificação do tópico Realizar comparação de documentos (recuperar documentos semanticamente semelhantes) Analisando documentos de texto simples para estrutura semântica Caso tenha interesse leia mais aqui: Implementação usando python Instale o Gensim: !pip install gensim 2. Carregue seus dados textuais dados_textuais = ["sou um dataholic muito feliz","dataside melhor empresa","dataside tem soluções em IA","parceria top entre dataside e microsoft"...] 3. Pré-processamento dos dados textuais from nltk.tokenize import word_tokenize #tokenização from nltk.corpus import stopwords stop_words = set(stopwords.words("portuguese")) texts = [] for text in dados_textuais: tokenized_text = word_tokenize(text.lower()) cleaned_text = [word for word in tokenized_text if word not in stop_words] texts.append(texto_limpo) No pré-processamento dos dados textuais é feito uma limpeza dos textos tais como : remoção de pontuação , espaços , links dentre qualquer caractere que atrapalhe na aplicação do modelo de tópico. 4. Criação de um saco de palavras ou bag-of-words* from gensim.corpora import Dictionary dictionary = Dictionary(texto_limpo) corpus = [dictionary.doc2bow(texto_limpo) for text in texto_limpo] *O modelo bag-of-words é uma maneira de representar dados de texto ao modelar texto com algoritmos de aprendizado de máquina. 5. Aplicando modelo de tópico from gensim.models import LdaModel ldamodel = LdaModel(corpus, num_topics=3, id2word=dictionary, passes=50) 6. Visualização dos tópicos for topic in ldamodel.print_topics(num_topics=5, num_words=3): #número de tópicos print("Tópicos: ", topic) Para visualizar tópicos podemos utilizar também a biblioteca pyLDAvis, segue um exemplo abaixo de como ficaria: Esse artigo visou apresentar um exemplo básico de como aplicar um modelo de tópico em dados textuais e usando o pacote Gensim em Python em próximos artigos podemos aprofundar mais nossa análise principalmente métricas de modelo.
Análise de texto usando modelo de tópico content media
1
0
268
gilson.castro
06 de fev. de 2023
In A.I. e Machine Learning
A quantidade de dados de texto gerados nos últimos anos explodiu exponencialmente desse modo, é essencial que as empresas busque formas de coletar dados textuais para descobrir padrões , identificar falhas e insights no dados para assim projetar serviços , produtos. O que é clusterização de texto ? A clusterização de texto é um processo de aprendizado não supervisionado usado para agrupar documentos semelhantes em categorias ou clusters. Ele é utilizado na análise de dados textuais, como na recuperação de informações, mineração de dados, análise de opinião e análise de sentenças. Como funciona ? A clusterização de texto geralmente começa com a representação dos documentos em um espaço de características, convertendo-os em vetores numéricos. Fonte de imagem : Elaboração própria Os algoritmos de clusterização são aplicados a esses vetores para identificar grupos de documentos semelhantes. Existem vários algoritmos de clusterização, incluindo o k-means, o agrupamento hierárquico e o modelo de mistura gaussiano. Principais métodos de clusterização de texto : K-Means: um algoritmo de clusterização iterativo que atribui documentos a um número pré-determinado de clusters, com base na similaridade de seus vetores de características. Agrupamento Hierárquico: um algoritmo que constrói uma árvore de clusters, agrupando documentos sucessivamente em níveis mais elevados de similaridade. Modelo de Mistura Gaussiano: um modelo probabilístico que representa cada cluster como uma distribuição normal multivariada e atribui documentos aos clusters com base na probabilidade de pertencerem a cada distribuição. Modelo LSI (Latent Semantic Indexing): um método que utiliza a análise de singularidade latentes (LSI) para reduzir a dimensionalidade dos vetores de características dos documentos e melhorar a performance da clusterização. Modelo de Tópico: um modelo probabilístico que representa documentos como combinações de tópicos latentes e atribui documentos a tópicos com base na probabilidade de pertencerem a cada tópico. Referências: LI, Xue; ZAIANE, Osmar R.; LI, Zhanhuai. Advanced data mining and applications. Springer International Publishing, 2022.
 Introdução a métodos de agrupamento de texto content media
1
0
59

gilson.castro

Mais ações
bottom of page