Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/38123
Título: | Consultas interativas em banco de dados usando text2SQL baseado em LLM |
Título(s) alternativo(s): | Interactive database queries using RAG and LLM |
Autor(es): | Willi, Nicolas Bortolotto |
Orientador(es): | Benito, Franck Carlos Vélez |
Palavras-chave: | Banco de dados Processamento de linguagem natural (Computação) SQL (Linguagem de programação de computador) Data bases Natural language processing (Computer science) SQL (Computer program language) |
Data do documento: | 26-Jun-2025 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Santa Helena |
Citação: | WILLI, Nicolas Bortolotto. Consultas interativas em banco de dados usando text2SQL baseado em LLM. 2025.Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Santa Helena, 2025. |
Resumo: | Este trabalho apresenta uma análise sistemática do impacto de diferentes técnicas de prompting e métricas de distância vetorial na conversão de consultas em linguagem natural para SQL com o auxílio de modelos de linguagem de larga escala (LLMs). Foram avaliadas as estratégias de prompt padrão, Few-Shot e Chain of Thought combinadas com métricas de similaridade vetorial como cosseno, euclidiana, produto escalar e Manhattan, com o objetivo de identificar as combinações mais eficazes para a recuperação semântica e geração de consultas SQL. Os experimentos indicaram que a técnica Few-Shot associada à métrica de distância cosseno apresentou os melhores resultados em termos de similaridade semântica, execução correta das queries e qualidade textual. Para viabilizar as análises, foi desenvolvida uma aplicação baseada em uma arquitetura RAG, integrando um banco vetorial (Qdrant), a biblioteca VannaAI e o modelo LLaMA 3.1 8B. Essa aplicação serviu como ferramenta de apoio para os testes e demonstra a aplicabilidade prática das combinações analisadas |
Abstract: | This work presents a systematic analysis of the impact of different prompting techniques and vector distance metrics on the conversion of natural language queries into SQL using large language models (LLMs). The study evaluated the standard, Few-Shot, and Chain of Thought prompting strategies combined with vector similarity metrics such as cosine, Euclidean, dot product, and Manhattan, aiming to identify the most effective combinations for semantic retrieval and SQL query generation. The experiments showed that the Few-Shot technique combined with the cosine distance metric achieved the best results in terms of semantic similarity, correct query execution, and textual quality. To support the analyses, an application was developed based on a RAG architecture, integrating a vector database (Qdrant), the VannaAI library, and the LLaMA 3.1 8B model. This application served as a support tool for the experiments and demonstrates the practical applicability of the analyzed combinations |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/38123 |
Aparece nas coleções: | SH - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
consultasdadostext2sqlllm.pdf | 16,43 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons