Detecção de fraudes em cartões de crédito utilizando métodos de baseados em árvores de decisão

Assis, Rhuan Lopes

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31685

Título:	Detecção de fraudes em cartões de crédito utilizando métodos de baseados em árvores de decisão
Título(s) alternativo(s):	Detection of credit card fraud using decision tree-based methods
Autor(es):	Assis, Rhuan Lopes
Orientador(es):	Oliva, Jefferson Tales
Palavras-chave:	Inteligência computacional Fraude no cartão de crédito Aprendizado do computador Computational intelligence Credit card fraud Machine learning
Data do documento:	19-Jun-2023
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Pato Branco
Citação:	ASSIS, Rhuan Lopes. Detecção de fraudes em cartões de crédito utilizando métodos de baseados em árvores de decisão. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.
Resumo:	Em 2020, o mundo foi surpreendido com o surgimento de uma pandemia. Devido ao isolamento social causado por esta, as compras pela Internet tiveram uma aumento significativo, e, junto a elas, também aumentaram os casos de tentativas de fraude, especialmente em compras com cartão de crédito. Apesar do aumento de fraudes, o número de transações legítimas continua expressivamente maior, o que dificulta sua detecção. Tendo isso em mente, sabe-se que transações fraudulentas são consideradas anomalias perante as legítimas. Este trabalho tem como objetivo a utilização de algoritmos de aprendizado de máquina baseados em árvores de decisão, que são modelos facilmente interpretáveis por humanos e podem ser utilizados para detectar potenciais fraudes. A base foi separada em treino, teste e validação, de forma estratificada. O conjunto de teste foi gerado utilizando a maior fração dos dados, com o objetivo de criar modelos representativos, ou seja, que utilizasse uma menor parcela dos dados para o treinamento. Durante a construção de modelos, os dados foram padronizados via StandardScaler antes das próximas fases, de otimização de hiperparâmetros com o BayesianSearch, treinamento dos modelos Isolation Forest (IF) e ExtraTree (ET) com os hiperparâmetros encontrados, predição e validação cruzada K-fold. Por fim, para a comparação dos modelos, foi aplicado o teste estatístico de hipótese de Friedman considerando o nível de significância de 95%. Como foi constatada diferença estatística extremamente significativa, o pós-teste de Nemenyi foi aplicado para verificar quais pares de modelos tiveram diferença estatisticamente significativa. Como resultado, conclui-se que, com 95% de certeza, que os modelos ETs tiveram desempenho superior em comparação com o modelo IF-Matt. Por fim, o modelo supervisionado obteve melhores medidas de classificação de transações legítimas, enquanto o não supervisionado foi o melhor classificando fraudes. Pode-se também notar que o coeficiente de correlação de Matthews era maior em modelos com sensitividade maior.
Abstract:	In 2020, the world was surprised by the arise of the pandemic. Due the social isolation issued by this, Internet purchases had a significant increase, and, with them, fraud attempts has increased as well, especially in credit card purchases. Although the fraud increased, the legit transactions are still expressively bigger, which difficult its detection. With this in mind, is known that fraudulent transactions are considered outliers towards the legit ones. This work aims to utilize tree-based machine learning algorithms, which are easily interpretable models for humans and can be used to detect potential frauds. The dataset was split into training, testing, and validation sets in a stratified manner. The testing set was generated using the largest fraction of the data to create representative models, meaning that a smaller portion of the data was used for training. During the model construction, the data was standardized using the StandardScaler before proceeding to the next steps, which were hyperparameter optimization with BayesianSearch, training the Isolation Forest and ExtraTree models with the found hyperparameters, prediction, and K-fold cross-validation. Finally, to compare the models, the Friedman statistical hypothesis test was applied with a significance level of 95%. Since an extremely significant statistical difference was found, the Nemenyi post-test was applied to determine which pairs of models had a statistically significant difference. As a result, it can be concluded with 95% certainty that the ET models performed better compared to the IF-Matt model. Additionally, the supervised model achieved better classification measures for legitimate transactions, while the unsupervised model excelled in classifying frauds. It can also be observed that models with higher sensitivity had a higher Matthews correlation coefficient.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/31685
Aparece nas coleções:	PB - Engenharia de Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
deteccaofraudearvoresdecisao.pdf		3,17 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons