Detecção e classificação de categorias de disfonias com redes neurais convolucionais

Moura, Ronaldo da Silva

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31085

Título:	Detecção e classificação de categorias de disfonias com redes neurais convolucionais
Título(s) alternativo(s):	Detection and classification of categories of dysphonia with convolutional neural networks
Autor(es):	Moura, Ronaldo da Silva
Orientador(es):	Maia, Joaquim Miguel
Palavras-chave:	Distúrbios da voz Laringe - Doenças Análise espectral Redes neurais (Computação) Aprendizado do computador Voice disorders Larynx - Diseases Spectrum analysis Neural networks (Computer science) Machine learning
Data do documento:	28-Fev-2023
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Curitiba
Citação:	MOURA, Ronaldo da Silva. Detecção e classificação de categorias de disfonias com redes neurais convolucionais. 2023. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.
Resumo:	Pesquisas conduzidas ao redor do mundo mostram que entre 16,9% e 35,8% da população possui ou afirmam já terem possuído algum grau de distúrbio vocal. Entretanto, indisponibilidades de profissionais treinados ou equipamentos para diagnóstico, dentre outros fatores, podem resultar no não-tratamento de pacientes e consequente piora em suas qualidades de vida. Avanços recentes na ciência computacional possibilitaram a utilização de metodologias de detecção automática de disfonias baseadas em aprendizado de máquina, como forma de complementar a avaliação clínica. No entanto, tais metodologias exploram apenas a distinção binária entre vozes saudáveis e com disfonia, ou realizam uma etapa de classificação limitada às disfonias com maior representatividade nas bases de dados. Por conta disso, o presente trabalho avalia uma nova metodologia de classificação de disfonias, a partir do seu agrupamento em três categorias: Disfonias Funcionais, Disfonias Orgânicas, e Disfonias Organofuncionais. Este agrupamento foi aplicado às gravações presentes em duas bases de dados: a Base de dados de voz de Saarbruecken, do inglês Saarbruecken Voice Database (SVD), e o Banco de Dados de Avaliação Avançada da Função de Voz, do inglês Advanced Voice Function Assessment Database (AVFAD). Após este agrupamento, foram realizadas etapas de extração de características dos sinais de áudio, com a utilização de espectrogramas, e classificação, com a utilização de redes neurais convolucionais. A partir dos resultados obtidos, pode-se afirmar que o método possui eficácia para a detecção de disfonias orgânicas e organofuncionais, atingindo acurácias de teste de 76,1% e 72,2%, respectivamente, para a SVD, e 82,8% e 77,3% para a AVFAD. Porém, não foi possível distinguir com êxito disfonias funcionais, por estarem pouco representadas nas bases de dados, o que impactou negativamente o desempenho geral do classificador, que foi de 53,2% para os dados da SVD, e 59,8% para os da AVFAD. Contudo, um aperfeiçoamento desta metodologia pode ampliar a capacidade de detecção de disfonias funcionais, aprimorando seu desempenho.
Abstract:	Conducted surveys worldwide show that 16.9% to 35.8% of the general population experience or claim to have experienced some degree of vocal disorder. However, the unavailability of trained professionals or diagnostic equipment, among other factors, may result in the non-treatment of patients and the consequent worsening of their quality of life. Recent advances in computational science have enabled the use of methodologies for automatically detecting dysphonia based on machine learning techniques to complement clinical evaluation. However, such methods only explore the binary distinction between healthy voices and dysphonia or perform a limited classification step using the most represented dysphonia types in the databases. Because of this, the present work evaluates a new methodology for classifying dysphonia based on its grouping into three categories: Functional Dysphonia, Organic Dysphonia, and Organofunctional Dysphonia. This grouping was applied to voice recordings of two databases: the Saarbruecken Voice Database (SVD) and the Advanced Voice Function Assessment Database (AVFAD). After this grouping, a feature extraction step was applied to the audio signals using spectrograms, followed by a classification step using convolutional neural networks. From the results obtained, it is valid to state that the method effectively detects organic and organofunctional dysphonia, reaching test accuracies of 76.1% and 72.2%, respectively, for the SVD and 82. 8% and 77.3% for AVFAD. However, it was impossible to successfully distinguish functional dysphonia, since they are underrepresented in the databases, which negatively impacted the overall performance of the classifier, which reached 53.2% for SVD, and 59.8% for AVFAD. However, an improvement of this methodology can increase the capacity to detect functional dysphonia, improving its performance.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/31085
Aparece nas coleções:	CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
classificacaodisfoniasredesneurais.pdf		4,49 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons