Validação de técnicas de data augmentation em corpus textuais sobre diabetes

Muniz Filho, Eduardo Santiago

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/33271

Título:	Validação de técnicas de data augmentation em corpus textuais sobre diabetes
Título(s) alternativo(s):	Validation of data augmentation techniques in corpus textuals on diabetes
Autor(es):	Muniz Filho, Eduardo Santiago
Orientador(es):	Fávero, Eliane Maria De Bortoli
Palavras-chave:	Diabetes mellitus Aprendizado do computador Inteligência artificial Diabetes mellitus Machine learning Artificial intelligence
Data do documento:	29-Nov-2023
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Pato Branco
Citação:	MUNIZ FILHO, Eduardo Santiago. Validação de técnicas de data augmentation em corpus textuais sobre diabetes. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.
Resumo:	A diabetes é uma doença crônica que afeta milhões de pessoas no mundo. Com o auxílio de modelos computacionais é possível auxilíar no controle e até prevenção da diabetes. Esses modelos podem ser baseados em métodos de aprendizado de máquina, que objetivem o reconhecimento de padrões de comportamento, por exemplo, em conjuntos de dados textuais de redes sociais, como o Twitter. Entretanto, a eficiência desses modelos inteligentes, está relacionada com o volume de dados disponíveis, bem como sua qualidade. Nesse contexto, o presente estudo propõe a validação das técnicas de aumento de dados em um corpus sobre diabetes proveniente do Twitter, com o objetivo de estabelecer uma fonte confiável e de qualidade para futuras pesquisas envolvendo processamento de linguagem natural aplicada à essa área específica da saúde. Os resultados demonstram que em algumas amostras do corpus o significado das sentenças foi alterado após o aumento dos dados, porém essa alteração não foi significativa para afetar a eficiência, garantindo ao corpus aumentado um desempenho melhor em modelos de classificação de texto.
Abstract:	Diabetes is a chronic disease that affects millions of people worldwide. With the assistance of computational models, it is possible to aid in the control and even prevention of diabetes. These models can be based on machine learning methods that aim to recognize patterns of behavior, for example, in textual datasets from social networks, such as Twitter. However, the efficiency of these intelligent models is linked to the volume and quality of available data. In this context, the study proposes to validate data augmentation techniques in a corpus related to diabetes derived from Twitter, with the aim of establishing a reliable and high-quality source for future research in natural language processing applied to this specific area of health. The results demonstrate that in some samples of the corpus, the meaning of sentences was altered after data augmentation; however, this change was not significant enough to affect efficiency, ensuring that the augmented corpus performs better in text classification models.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/33271
Aparece nas coleções:	PB - Engenharia de Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
validacaotecnicasdataaugmentation.pdf		2,05 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons