Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas

Gutoski, Matheus

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/29245

Título:	Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas
Título(s) alternativo(s):	Open-world human action recognition in videos: theoretical and methodological contributions
Autor(es):	Gutoski, Matheus
Orientador(es):	Lazzaretti, André Eugênio
Palavras-chave:	Visão por computador Sistemas de reconhecimento de padrões Aprendizado do computador Vídeo digital - Classificação Redes neurais (Computação) Computer vision Pattern recognition systems Machine learning Digital video - Classification Neural networks (Computer science)
Data do documento:	10-Jun-2022
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Curitiba
Citação:	GUTOSKI, Matheus. Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas. 2022. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.
Resumo:	O Reconhecimento de Ação Humana (RAH) é um assunto amplamente estudado nas áreas de Visão Computacional, Aprendizado de Máquina e Aprendizado Profundo. No entanto, o RAH geralmente é realizado em um cenário fechado, onde todas as classes são conhecidas antecipadamente. Em cenários do mundo real, o ambiente tende a mudar e novas classes podem aparecer. Os modelos tradicionais de conjunto fechado são mal equipados para lidar com ambientes em evolução e exigem retreinamento com grandes quantidades de dados rotulados para reconhecer novas categorias. Este trabalho aborda o RAH a partir do cenário de Mundo Aberto Não Supervisionado. Neste caso, o modelo precisa diferenciar entre classes conhecidas e desconhecidas, rotular automaticamente as desconhecidas e aprendê-las de forma incremental usando o mínimo de tempo e recursos computacionais. Inicialmente, este trabalho aborda cada uma dessas tarefas separadamente e, por fim, como um framework combinado que realiza o RAH de forma não supervisionada em mundo aberto. Uma solução de aprendizado de métrica foi proposta para realizar o aprendizado de características, com um modelo denominado Rede Neural Convolucional 3D Inflada Tripla (TI3D). Além disso, um método que estima automaticamente o número de grupos em dados desconhecidos foi desenvolvido usando um algoritmo de agrupamento aglomerativo hierárquico. Para o Aprendizado Incremental (AI), este trabalho propôs o Dual-Memory Extreme Value Machine (DM-EVM). O DM-EVM pode executar AI usando representações dinâmicas de características. O modelo proposto foi avaliado em conjuntos de dados de vídeo disponíveis publicamente e apresentou desempenho superior a outros métodos do estado da arte. No geral, este trabalho oferece uma solução interessante para o problema descrito e contribuiu para o objetivo de desenvolver modelos capazes de operar em ambientes dinâmicos do mundo real.
Abstract:	Human Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to change, and new classes may appear. Traditional closed-world models are ill-equipped to deal with evolving environments and require retraining with large amounts of labeled data to recognize new categories. This work approaches HAR from the Unsupervised Open-World setting. In Unsupervised Open-World Recognition, the model needs to differentiate between known and unknown classes, automatically label the unknown classes, and incrementally learn them using minimal computational time and resources. Initially, this work tackles each of these tasks separately and, finally, as a combined framework that performs Unsupervised Open-World HAR. A metric learning solution is proposed for feature learning, with a model named Triplet Inflated 3D Convolutional Neural Network (TI3D). A method that automatically estimates the number of clusters was presented using a Hierarchical Agglomerative Clustering algorithm for automatically labeling unknown classes. For Incremental Learning (IL), this work proposed the Dual-Memory Extreme Value Machine (DM-EVM). The DM-EVM can perform IL under dynamical feature representations. The proposed framework was evaluated on publicly available video datasets and presented superior performance to other state-of-the-art methods.Overall, this work offers an interesting solution to the problem posed and contributed to the goal of developing models capable of operating in real-world dynamical environments.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/29245
Aparece nas coleções:	CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
reconhecimentovideosmundoaberto.pdf		10,92 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons