Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36575
Registro completo de metadados
Campo DCValorIdioma
dc.creatorSouza, Luis Gustavo de-
dc.date.accessioned2025-04-16T14:52:17Z-
dc.date.available2025-04-16T14:52:17Z-
dc.date.issued2021-05-19-
dc.identifier.citationSOUZA, Luis Gustavo de. Combinação de áudio e sequência de imagens para recuperação de momento de vídeo por linguagem natural. 2021. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/36575-
dc.description.abstractThe video moment retrieval with natural language area aims to locate the segment (moment) of the video most relevant to a textual description (natural language). However, existing methods are based only on the analysis of the image sequence and neglect the information derived from the audio. Thus, the main objective of this study is to combine both features to make the recovery more comprehensive and robust. For this, a model is built on audio and image sequence extractors aligned that relate to the textual description to recover the desired moment of the video. Results demonstrate that the proposed model outperforms the current state-of-the-art in the metric mloU by more than 27%, in addition to decreasing the response time of the video moment retrieval (reducing the computational complexity from polynomial to linear).pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/*
dc.subjectVídeo digitalpt_BR
dc.subjectRecuperação de dados (Computação)pt_BR
dc.subjectProcessamento de linguagem natural (Computação)pt_BR
dc.subjectDigital videopt_BR
dc.subjectData recovery (Computer science)pt_BR
dc.subjectNatural language processing (Computer science)pt_BR
dc.titleCombinação de áudio e sequência de imagens para recuperação de momento de vídeo por linguagem naturalpt_BR
dc.typebachelorThesispt_BR
dc.description.resumoA área de recuperação de momento de vídeo por linguagem natural tem o propósito de localizar o segmento (momento) do vídeo mais relevante à uma descrição textual (linguagem natural). Entretanto, os métodos existentes baseiam-se apenas na análise da sequência de imagens e negligenciam a informação derivada do áudio. Deste modo, o principal objetivo deste estudo é combinar ambas características de forma a tornar a recuperação mais abrangente e robusta. Para isso, um modelo é construído sobre extratores de áudio e de sequência de imagens alinhados que relacionam-se com a descrição textual para resgatar o momento desejado do vídeo. Resultados demonstram que o modelo proposto supera o atual estado-da-arte na métrica mIoU em mais de 27%, além de diminuir o tempo de resposta da recuperação de momentos de vídeo (diminuição da complexidade computacional de polinomial para linear).pt_BR
dc.degree.localCornélio Procópiopt_BR
dc.publisher.localCornelio Procopiopt_BR
dc.contributor.advisor1Saito, Priscila Tiemi Maeda-
dc.contributor.referee1Saito, Priscila Tiemi Maeda-
dc.contributor.referee2Sanches, Silvio Ricardo Rodrigues-
dc.contributor.referee3Bugatti, Pedro Henrique-
dc.publisher.countryBrasilpt_BR
dc.publisher.programEngenharia da Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::ENGENHARIASpt_BR
Aparece nas coleções:CP - Engenharia da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
combinacaoaudiosequenciaimagensrecuperacao.pdf5,09 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons