Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/36575
Título: | Combinação de áudio e sequência de imagens para recuperação de momento de vídeo por linguagem natural |
Autor(es): | Souza, Luis Gustavo de |
Orientador(es): | Saito, Priscila Tiemi Maeda |
Palavras-chave: | Vídeo digital Recuperação de dados (Computação) Processamento de linguagem natural (Computação) Digital video Data recovery (Computer science) Natural language processing (Computer science) |
Data do documento: | 19-Mai-2021 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Cornelio Procopio |
Citação: | SOUZA, Luis Gustavo de. Combinação de áudio e sequência de imagens para recuperação de momento de vídeo por linguagem natural. 2021. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2021. |
Resumo: | A área de recuperação de momento de vídeo por linguagem natural tem o propósito de localizar o segmento (momento) do vídeo mais relevante à uma descrição textual (linguagem natural). Entretanto, os métodos existentes baseiam-se apenas na análise da sequência de imagens e negligenciam a informação derivada do áudio. Deste modo, o principal objetivo deste estudo é combinar ambas características de forma a tornar a recuperação mais abrangente e robusta. Para isso, um modelo é construído sobre extratores de áudio e de sequência de imagens alinhados que relacionam-se com a descrição textual para resgatar o momento desejado do vídeo. Resultados demonstram que o modelo proposto supera o atual estado-da-arte na métrica mIoU em mais de 27%, além de diminuir o tempo de resposta da recuperação de momentos de vídeo (diminuição da complexidade computacional de polinomial para linear). |
Abstract: | The video moment retrieval with natural language area aims to locate the segment (moment) of the video most relevant to a textual description (natural language). However, existing methods are based only on the analysis of the image sequence and neglect the information derived from the audio. Thus, the main objective of this study is to combine both features to make the recovery more comprehensive and robust. For this, a model is built on audio and image sequence extractors aligned that relate to the textual description to recover the desired moment of the video. Results demonstrate that the proposed model outperforms the current state-of-the-art in the metric mloU by more than 27%, in addition to decreasing the response time of the video moment retrieval (reducing the computational complexity from polynomial to linear). |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/36575 |
Aparece nas coleções: | CP - Engenharia da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
combinacaoaudiosequenciaimagensrecuperacao.pdf | 5,09 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons