Aprendizado profundo para pós-edição de saídas de sistemas de reconhecimento automático de fala

Oliveira, Lucas

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31652

Título:	Aprendizado profundo para pós-edição de saídas de sistemas de reconhecimento automático de fala
Título(s) alternativo(s):	Deep learning for post-editing of automatic speech recognition system outputs
Autor(es):	Oliveira, Lucas
Orientador(es):	Aikes Junior, Jorge
Palavras-chave:	Redes neurais (Computação) Reconhecimento automático da voz Gerenciamento de memória (Computação) Neural networks (Computer science) Automatic speech recognition Memory Management (Computer science)
Data do documento:	21-Nov-2022
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Medianeira
Citação:	OLIVEIRA, Lucas. Aprendizado profundo para pós-edição de saídas de sistemas de reconhecimento automático de fala. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2022.
Resumo:	Através do uso de Redes Neurais Artificiais é possível realizar o reconhecimento de voz de forma automática, possibilitando a conversão de falas em texto. Esse artifício está presente em diversos dispositivos, como celulares inteligentes e assistentes pessoais, além de ser amplamente utilizado. Redes Neurais Artificiais possuem uma quantidade de nós que estão organizados em camadas, as quais estão divididas entre camada de entrada, camada oculta e camada de saída. Esses nós representam os neurônios e realizam o processamento da informação. Neste trabalho foi realizada a construção de uma rede neural artificial que tinha como objetivo realizar o aprimoramento da saída de um sistema de reconhecimento automático de voz aplicado em áudios, o qual resultou como saída uma base de dados contendo frases do Português Brasileiro. Para cumprir o objetivo proposto Redes Neurais Recorrentes do tipo Long Short-Term Memory foram utilizadas, pois apresentam como diferencial o fator de possuírem memória, ou seja, de carregarem, durante o processo de treinamento, informações passadas em momentos anteriores e fazerem uso dessas informações para determinar novos valores. Experimentos foram realizados utilizando bases de dados que vieram de sistemas de reconhecimento automático de voz com o objetivo de aprimorar a rede para que ela possa cumprir o propósito de ser capaz de corrigir as frases da maneira correta. Em seguida foi realizada a construção da rede final, alterando a metodologia utilizada até então e obtendo resultados melhores.
Abstract:	Through the use of Artificial Neural Networks it is possible to perform voice recognition ofautomatically, allowing the conversion of speeches into text. This artifact is present on various devices, such as cell phones, smartphones and personal assistants, in addition to being widely used. Artificial Neural Networks have a number of nodes that are organized into layers, which are divided into input layer, hidden layer and output layer. These nodes represent neurons and intensify information processing. In this work, the construction of an artificial neural network that had with the aim of improving the output of an automatic recognition system of voice Applied in audios, which resulted as output a database containing phrases of Brazilian Portuguese. To fulfill the proposed objective Current Neural Networks of the Long Short-Term Memory type were used, as they present as a differential the have memory, that is, to carry, during the training process, information past at previous times and make use of this information to determine new values. Experiments were performed using databases that came from systems of automatic voice recognition in order to improve the network so that it can fulfill the purpose of being able tocorrect the sentences in the correct way. Then the construction of the final network was carriedout, changing the methodology used until then and obtaining better results.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/31652
Aparece nas coleções:	MD - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
aprendizadoprofundoposedicao.pdf		1,34 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons