window.lintrk('track', { conversion_id: 13086145 }); Forum posts
top of page

Posts do fórum

liz.marques
27 de mar. de 2023
In A.I. e Machine Learning
Você sabe o que é Speech Recognition? Caso não saiba, fique comigo até o final deste artigo, pois, além de explicar o que é e como surgiu essa tecnologia, ainda vou citar 6 tipos de aplicações que já estão presentes no seu dia a dia. Speech Recognition ou Reconhecimento de Fala é o processo que permite um computador ou algum dispositivo eletrônico reconher e processar a fala humana em formato escrito. É possível que você encontre outras terminologias como: Automatic Speech Recognition (ASR) - Reconhecimento Automático de Fala, Computer Speech Recognition - Reconhecimento de Fala por Computador ou até mesmo Speech to Text (STT) - Fala para Texto, em suma, todas elas se referem a mesma tecnologia. Ao contrário do que muitos podem pensar, os estudos nesta área não são recentes. Nesse sentido, podemos destacar a Audrey, uma máquina de reconhecimento automático de dígitos criada pela Bell Labs em 1952. A Audrey conseguia reconhecer dígitos de 0 a 9 com precisão maior do que 90%, quando seu criador HK Davis falava. Já quando a comunicação era feita por outros locutores, ela mantinha uma precisão entre 70% e 80%. Nas décadas de 60 e 70, a área de reconhecimento de fala seguiu evoluindo. Em 1962, a IBM apresentou a Shoebox. Assim como a Audrey, a Shoebox conseguia reconhecer dígitos falados de 0 a 9, no entanto, além dos números, ela era capaz de reconhecer palavras como: menos, mais, subtotal, total, falso e desligado. Com o intuito de avançar ainda mais, em 1971, os pesquisadores de ciência da computação da Universidade Carnegie Mellon, através do Programa de Pesquisa de Compreensão da Fala (SUR) financiado pelo Departamento de Defesa dos Estados Unidos, desenvolveram a Harpy. A Harpy era uma uma máquina de reconhecimento de fala que compreendia 1.011 palavras. A década de 80, por sua vez, ganha destaque com relação aos primeiros passos em direção ao reconhecimento de fala contínuo. Graças a união do professor Fred Jelinek com a IBM, foi possível criar a Tangora - uma máquina de escrever ativada por voz com um vocabulário de 20.000 palavras. O grande diferencial era que seu funcionamento baseava-se em uma abordagem estatística, a qual utilizava dados para prever padrões de fala. Chegando em 1997, tivemos o lançamento do Dragon Naturally Speaking que era um software de ditado contínuo capaz de reconhecer 100 palavras por minuto. Na época, ele provocou uma grande revolução, já que os sistemas de reconhecimento de fala que existiam eram capazes de reconhecer somente 1 palavra por vez. A partir dos anos 2000, graças aos avanços que tivemos na área de machine learning, foi possível treinar os computadores para aprender as diferentes variações da linguagem humana como: sotaque, pronúncia e o contexto da fala. Além disso, é importante destacar que, em 2008, com o lançamento do Google Mobile App (GMA) - aplicativo criado para o iPhone, o qual permitia que os usuários realizassem buscas por voz - o Google conseguiu coletar grandes conjuntos de dados a partir das consultas de pesquisa realizadas no aplicativo. Dessa forma, com o resultado da análise desses dados, o Google foi capaz de implementar reconhecimento de fala personalizado em telefones Android. Nesse sentido, tanto a Apple quanto a Microsoft não ficaram muito atrás, pois, algum tempo depois, criaram suas próprias assistentes virtuais, a Siri e a Cortana respectivamente. Agora que já conhecemos um pouco da cronologia do Reconhecimento de Fala, vamos falar sobre 6 tipos de aplicações que existem nos dias de hoje: Assistentes virtuais: como acabamos de mencionar, as assistentes virtuais como a Siri, a Alexa e a Google Assistant são exemplos bem difundidos. Elas utilizam reconhecimento de fala para entender os comandos de voz do usuário e realizar tarefas como: enviar mensagens, fazer chamadas, tocar música ou até fornecer informações. Transcrição Automática: as ferramentas de transcrição automática também se utilizam da tecnologia de reconhecimento de fala. Tendo o potencial de garantir a transcrição do conteúdo na íntegra, otimizar a mão de obra reduzindo trabalhos operacionais e promover maior foco durante as reuniões, aulas e/ou consultas médicas, a transcrição automática pode ser útil em diversas áreas como: empresarial, educação, saúde, jurídica… Controle de Dispositivos: quando pensamos no conceito de smart home ou casa inteligente, a qual pode ser controlada de forma remota, por meio de um tablet ou smartphone, é inevitável pensar na integração de sistemas de reconhecimento de fala. Portanto, temos aqui mais uma aplicação desta tecnologia para realizar o controle de dispositivos inteligentes como luzes, termostatos, portas e janelas, simplesmente, através de comandos de voz. Acessibilidade e inclusão: com o objetivo de ajudar pessoas com deficiências na fala a se comunicar, o reconhecimento de fala pode ser utilizado para converter as suas palavras faladas em texto. No documentário The Age of A.I. (disponível no Youtube) é mostrado o caso do ex-jogador da NFL Tim Shaw, o qual foi diagnosticado com ELA (esclerose lateral amiotrófica). Por conta da doença, sua capacidade de falar ficou bem reduzida, dessa forma, o grupo Google AI desenvolveu 2 modelos de speech to text, o primeiro utilizando uma base de dados somente com a voz do Tim e um segundo com voz de outros participantes do ALS TDI (ALS Therapy Development Institute é uma organização de pesquisa em biotecnologia sem fins lucrativos focada em encontrar tratamentos para a Esclerose Lateral Amiotrófica - ELA). Reconhecimento de Emoções: o reconhecimento de fala pode ser utilizado também para detectar emoções em uma conversa, ajudando a entender o humor ou estado emocional de uma pessoa. Pensando no contexto empresarial, essa tecnologia pode trazer insights riquíssimos nas áreas de atendimento ao cliente, principalmente, quando agregamos um trabalho de speech analytics*. Além disso, é possível desenvolver aplicações na área da saúde ou até mesmo da segurança pública. Tradução Automática: talvez você não soubesse desse detalhe, mas, quando apertamos o microfone no Google Translate e ele realiza a tradução automática do que nós falamos, temos a tecnologia de speech recognition funcionando ali por trás. Bom pessoal, depois desses 6 exemplos, finalizamos por aqui. Gostaria de ressaltar que este artigo teve um caráter mais introdutório, em que o objetivo era explicar o que é o Speech Recognition, falar um pouco dos avanços tecnológicos ocorridos na área ao longo dos anos e citar suas principais aplicações no dia a dia. Espero que a leitura tenha sido útil. Até o próximo post! *Speech Analytics é o processo de análise de gravações de voz ou chamadas ao vivo de clientes para call centers com software de reconhecimento de fala para encontrar informações úteis e fornecer garantia de qualidade. O software de análise de fala identifica palavras e analisa padrões de áudio para detectar emoções e estresse na voz do interlocutor - definição extraída do site Evollo. Fontes: https://www.ibm.com/br-pt/cloud/learn/speech-recognition https://voximplant.com/pt/blog/what-is-automatic-speech-recognition https://blog.cyrela.com.br/smart-home/ https://www.youtube.com/watch?v=V5aZjsWM2wo&ab_channel=YouTubeOriginals https://www.als.net/about-als-tdi/ https://evollo.com.br/o-que-significa-e-pra-que-serve-o-speech-analytics/
Speech Recognition: conheça 6 tipos de aplicações content media
0
0
19
liz.marques
27 de mar. de 2023
In A.I. e Machine Learning
É muito bom abrir o Spotify e simplesmente ter milhares de músicas a sua disposição, não é?! Seja para ouvir uma playlist mais tranquila e relaxar ou até mesmo uma mais animada para praticar um exercício físico, opções não faltam. Dessa forma, a pergunta que fica é: o que tem por trás desse arquivo de áudio? Afinal, como um computador interpreta um sinal de áudio? Bom, se você já está curioso para saber as respostas dessas perguntas, vem comigo! Neste artigo vamos falar sobre: onda sonora, parâmetros, tipos de um sinal de áudio e, sobre o famoso sample rate (ou taxa de amostragem). Juntando todos esses conceitos, você vai entender o que de fato está acontecendo por trás do seu play no Spotify. Primeiro, precisamos entender o que é uma onda sonora. No vídeo acima, vocês podem observar um diapasão. De forma objetiva, o diapasão é um pequeno instrumento metálico, em forma de U montado sobre um cabo, que, quando posto em vibração, produz um som de determinada altura. Ok, mas como esse som é gerado? Basicamente, a vibração do diapasão faz com que as moléculas de ar se movimentem para frente e para trás e, essa movimentação faz com que elas transmitam a sua energia para as moléculas vizinhas. Portanto, a onda sonora é o resultado da transmissão de energia de uma molécula para outra. A partir do momento em que temos uma onda sonora, nós podemos representá-la, por exemplo, de forma digital, resultando assim em um sinal de áudio. Esse sinal possui diversos parâmetros, dentre eles: amplitude, crista/vale, comprimento de onda, ciclo e frequência. Abaixo, irei citar e explicar brevemente cada um deles. - Amplitude da onda: é o valor máximo que a onda pode alcançar, tanto positiva quanto negativamente. - Crista da onda: valor onde a amplitude da onda é máxima. - Vale da onda: valor onde a amplitude é mínima. - Comprimento de onda: pode ser calculado como a distância entre duas cristas ou dois vales consecutivos. - Ciclo: todo sinal de áudio percorre a forma de ciclos. Um ciclo é composto por uma crista e um vale - Frequência: é a velocidade com que um sinal está mudando ao longo de um período de tempo. A frequência de uma onda sonora é medida em Hertz (Hz), ou seja, Hertz indica a quantidade de “ciclos por segundo”. Eu não sei se você já tinha ouvido falar sobre todos esses parâmetros, mas, com certeza, a frequência acaba sendo a mais perceptível no nosso dia a dia. Digamos que você esteja ouvindo uma música e logo no início apareça o som de um baixo e um som de trompete. Bom, podemos dizer que o som do baixo é grave, ou seja, possui uma frequência mais baixa (menos ciclos por segundo). E o som do trompete, por sua vez, é um som agudo, ou seja, possui uma frequência mais alta (mais ciclos por segundo). Nesse sentido, é importante ressaltar a diferença entre frequência e decibel (dB). Enquanto a frequência está ligada diretamente à altura do som (grave ou agudo), a unidade de medida decibel é usada para medir a intensidade do som, ou seja, o “volume”. Ex: conversa normal: 60 dB; decolagem de um foguete próximo: 180 dB. Agora que já sabemos um pouco dos conceitos básicos, podemos voltar com a pergunta que foi feita lá no início do artigo que foi: como um computador interpreta um sinal de áudio? Para responder essa pergunta, vamos entender a diferença entre os tipos de sinais de áudio: analógico e digital. O sinal analógico é uma onda contínua que muda ao longo do tempo. Em um sinal analógico, existe um número infinito de amostras em um intervalo de tempo, ou seja, cada pontinho vermelho que você está vendo nesse gráfico precisa ser processado. Um exemplo clássico de som analógico é o do vinil. Já o sinal digital, consiste na representação digital de uma onda sonora por meio de código binário, ou seja, 0 ou 1. Quando escutamos uma música no Spotify, os dados que estão armazenados no arquivo de áudio se encontram no formato digital, isto é, em código binário. O formato de escada que podemos observar na imagem acima é a representação do sinal analógico de forma digital. Para deixar essa explicação um pouco mais clara, observe a imagem abaixo: Aqui, nós temos o sinal analógico oriundo, por exemplo, de um microfone e as amostras que correspondem ao valor do sinal medido em intervalos regulares. O sinal analógico acima seria representado de forma aproximada pelo vetor de amostras que está abaixo da imagem. Por fim, para amarrar os conceitos que vimos nesta última parte, precisamos falar sobre a taxa de amostragem (ou sample rate). De nada adianta nós conseguirmos representar um sinal de áudio analógico no formato digital se a qualidade sonora não é boa, certo?! Portanto, é neste contexto que entra o conceito de sample rate. A taxa de amostragem é definida pelo número de amostras do sinal analógico selecionadas por segundo. Quanto maior a taxa de amostragem, melhor é a representação digital do som, especialmente em frequências mais elevadas (em sons agudos). Lembre-se de que taxas de amostragem elevadas implicam em arquivos maiores. Valores típicos de taxas de amostragem são 48kHz (DVD) e 44,1kHz (CDs). Curiosamente na telefonia é utilizado 8000Hz. Apesar de ser uma taxa de amostragem baixa se comparada com outros valores, a taxa de 8000Hz se mostrou suficiente para nós pudéssemos falar e a outra pessoa do outro lado pudesse entender, por isso se convencionou este valor. Nas imagens acima, essa explicação fica bem evidente, pois, no canto esquerdo, o gráfico que possui 4 amostras, não consegue fazer uma representação fidedigna do sinal de áudio original. Já no gráfico da direita, o qual possui 9 amostras, é possível observar uma representação bem mais coerente do sinal analógico. Portanto, pessoal, quando apertamos o play para escutar uma música no Spotify, o sinal digital é convertido em analógico para que possamos ouvir as nossas músicas favoritas. Agora, você já sabe o que acontece por trás do seu simples play. Dessa forma, chegamos ao final deste artigo. Sei que tratei de muitos conceitos, mas espero que eles tenham sido suficientes para você acompanhar todo o conteúdo abordado. Até o próximo post! Fontes: https://www.leilaonaiarasantos.com.br/peca.asp?ID=13596178 https://www.physicsclassroom.com/class/sound/Lesson-1/Sound-is-a-Mechanical-Wave https://iaexpert.academy/courses/classificacao-de-audio-com-python-guia-completo/ https://tecnoblog.net/responde/qual-a-diferenca-entre-frequencia-e-decibeis/
Do bit ao play no Spotify: conceitos básicos content media
0
0
15
liz.marques
31 de out. de 2022
In A.I. e Machine Learning
Neste artigo, a dataholic Liz Marques fará a continuação e aprofundamento do artigo “Biometria de Voz e suas aplicabilidades”. Caso você ainda não tenha lido, é só clicar aqui. A leitura desse primeiro artigo é fundamental, pois ele traz conceitos iniciais sobre a biometria de voz que facilitarão a compreensão do que será abordado a seguir. Através do artigo anterior, ficou evidente que a tecnologia de biometria de voz pode ser aplicada em segmentos como: centrais de relacionamento com o cliente, autenticação de apps e validação de transações financeiras. Dessa forma, é possível obter mais segurança, prevenir fraudes, reduzir custos e melhorar a experiência do usuário. No entanto, talvez você esteja se perguntando como saímos de um arquivo de áudio para a identificação de uma pessoa, ou seja, qual é a tecnologia por trás dessa ferramenta? Como ela de fato verifica a voz e retorna para o usuário se ele está ou não autenticado? Bom, é isso que vamos entender a partir de agora. A voz é um elemento único e com características específicas, logo, ela se torna intransferível e pode ser utilizada como uma identidade. A forma como uma pessoa pronuncia as palavras, o timbre, o formato da boca, o sotaque, a velocidade e a respiração são alguns dos fatores que ajudam a identificar a voz de um indivíduo. E, através do espectrograma, podemos extrair diversas características do som, fazendo assim, com que seja possível verificar se determinada voz é ou não de uma pessoa. Para que nós possamos compreender como é feito o processo de verificação do locutor (biometria de voz), vamos a um exemplo. Digamos que João esteja querendo se autenticar no aplicativo do seu banco para fazer uma transação bancária, ou seja, o locutor João está tentando se verificar como o locutor João. Ao enviar o áudio solicitado, o verificador utiliza a chave de identificação do João para comparar o áudio enviado por ele com a base de locutores cadastrados. A partir dessa comparação ele gera uma pontuação entre o locutor teste e o locutor alvo, ou seja, uma autenticação 1:1. Quanto maior a pontuação, mais próxima a voz que está tentando se autenticar está da voz correspondente àquele locutor. Caso a pontuação seja maior que o parâmetro estabelecido, o usuário será autenticado. Agora, e se estivéssemos diante de um caso de fraude. Como o sistema funcionaria? Bom, digamos que nós tenhamos um locutor fraudador tentando se verificar como o locutor João. Nesse caso, quando o locutor fraudador enviar o áudio, o verificador realizará as comparações e retornará uma pontuação bem baixa, significando que o indivíduo que está tentando se autenticar, provavelmente não é o mesmo cadastrado na base de dados. Logo, sua autenticação será negada. Além disso, é importante ressaltar que todo esse processo de verificação pode ser feito através de frases fixas, ou seja, dependendo de um texto que o locutor tem que falar, ou independente de texto, utilizando frases diferentes. A fim de que consigamos chegar nesse estágio em que temos um modelo pronto para ser utilizado, é necessário construir uma arquitetura, logo, precisamos passar por 3 etapas: treinamento, cadastro e teste. No treinamento, são utilizados dados de diversas pessoas, é feita a extração de atributos e a geração de um modelo capaz de distinguir vozes de pessoas diferentes. A partir desse modelo genérico, passamos para a segunda etapa, que é de cadastro. Aqui ocorrerá, mais uma vez, a extração de atributos e o cadastro de uma nova voz, a qual não estava presente na fase de treinamento. Por fim, na etapa de teste, é feita a extração de atributos e o modelo irá comparar a nova voz cadastrada com as que estão presentes no banco de dados. Após realizar a comparação, o modelo emitirá uma pontuação e, a partir dela, será feita a autenticação ou não do usuário. Dentre as etapas mencionadas anteriormente, é importante destacar a fase de extração de atributos. Uma vez que o sistema de reconhecimento de locutor busca extrair toda a informação contida em um sinal de voz que o torna único, é fundamental compreender como isso é feito. Uma forma de fazer essa extração é através da técnica de características espectrais de curto prazo (short-term spectral features), a qual se utiliza da computação de quadros entre 20 e 30 milissegundos de duração. Em resumo, ao separar o áudio em pequenos quadros é possível obter uma variação do sinal e de suas características de forma relativamente estacionária, facilitando assim, a extração das características. Além disso, quando falamos em técnicas para obter características de um sinal de voz, podemos citar: MFCCs (Mel Frequency Cepstral Coefficients - é uma técnica bastante popular e também aplicada em short-term spectral features), LPC (Linear Predictive Coefficients) e PLP (Perceptual Linear Predictive). Depois de compreender como é feito o processo de verificação do locutor, a construção da arquitetura e a importância do processo de extração de atributos, para finalizar este artigo, vamos falar um pouco sobre a modelagem. Tendo em vista que as características obtidas através do processo de extração ainda não constituem dados biométricos adequados, se faz necessário a utilização de técnicas de modelagem probabilística com o intuito de analisar os vetores de características, reduzir redundâncias e/ou ruídos latentes. Isso se deve, principalmente, pelo fato de serem observadas muitas variações entre amostras de um mesmo locutor. Portanto, podemos fazer uso de técnicas como: VQ (Vector Quantization), Gaussian mixture model (GMM), SVM (Support Vector Machine) e Redes Neurais Profundas. Bom pessoal, hoje finalizamos por aqui. Sim, eu sei que este foi um artigo mais denso, mas espero que vocês tenham gostado e aprendido novos conceitos. O objetivo foi aprofundar um pouco mais nos processos que fazem parte de um sistema de verificação do locutor, e mostrar para vocês o que ocorre por "debaixo dos panos”. Com certeza existem muitos conceitos para serem explorados e, em breve, espero voltar aqui para compartilhar com vocês. Até o próximo post! Fontes: ● https://www.mobiletime.com.br/noticias/24/03/2022/minds-plataforma-de-reconhecimento-por-voz-tem-97-de-acuracia/ ● https://www.bry.com.br/blog/o-que-e-biometria/ ● https://www.youtube.com/watch?v=NTrSxgwp8-o&list=PL34w81iXr8CtgkVTr-ij7Tthv5Y0Qe6jJ&index=6&ab_channel=Ita%C3%BA ● https://gifconsulting.com/index.php/biometria-de-voz/ ● https://wiki.sj.ifsc.edu.br/images/1/17/TCC290_Henrique_Hilleshein.pdf ● https://repositorio.unesp.br/bitstream/handle/11449/151725/campos_va_me_sjrp.pdf;jsessionid=101226FC31FFEE65FE664883904254C6?sequence=3
Biometria de Voz, aprofundando conceitos content media
0
0
37

liz.marques

Mais ações
bottom of page