Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs

Katahira, Isaque

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/3368

Título:	Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs
Título(s) alternativo(s):	Pattern recognition using complex network metrics for feature extraction, representation and classification of sequences of RNAs
Autor(es):	Katahira, Isaque
Orientador(es):	Lopes, Fabrício Martins
Palavras-chave:	Classificação Redes de computadores Bioinformática Classification Computer networks Bioinformatics
Data do documento:	16-Mar-2018
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Cornelio Procopio
Citação:	KATAHIRA, Isaque. Reconhecimento de padrões utilizando métricas de redes complexas para a extração de características, representação e classificação de sequências de RNAs. 2018. 85 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2018.
Resumo:	A partir do surgimento dos Sequenciadores de Nova Geração (NGS), um grande volume de dados de DNAs e RNAs passaram a ser sequenciados rapidamente a custos relativamente menores. Os NGS têm a capacidade de produção de milhares de sequências simultaneamente, produzindo um volume massivo de dados a serem analisados. Nesse sentido, as ferramentas computacionais se tornam essenciais não só para a extração, mas também para a seleção e análise desses dados. Esta pesquisa apresenta um modelo capaz de extrair características para a classificação de RNAs codificantes e não-codificantes. A ferramenta BiologicAl Sequences NETwork (BASiNET), disponível em: <https://cran.rproject. org/package=BASiNET>, implementa o método desenvolvido, o qual mapeia sequências de RNAs por meio de redes complexas, pois estas são eficientes para representar sistemas reais, nos quais estão inseridos os sistemas biológicos. A fim de representar as sequências selecionadas, a configuração da rede complexa é feita a partir dos parâmetros do tamanho do passo (conexões entre os nucleotídeos) e do tamanho da palavra (quantidade de nucleotídeos por vértice); na sequência, as arestas menos densas são removidas para a geração de sub-redes que são resultantes da eliminação crescente de 1 até n arestas da rede. Posteriormente, cada sub-rede é submetida às métricas de: proximidade, grau, grau máximo, grau mínimo, intermediação, coeficiente de clustering, caminho mínimo médio, desvio padrão e motifs. A extração de métricas de cada uma dessas sub-redes compõe o vetor de características, os valores desse vetor são inseridos no algoritmo de classificação supervisionada que, por meio da detecção de padrões, realiza a distinção das sequências com validação cruzada de 10-fold. A ferramenta BASiNET é aplicada de forma experimental a dois conjuntos de dados. Os resultados obtidos foram comparados com outras ferramentas: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) e Coding Potential Calculator (CPC2). A comparação evidencia a viabilidade da ferramenta BASiNET, uma vez que esta apresentou resultados médios superiores de acurácia na identificação de RNAs codificantes e RNAs não-codificantes, nos dois conjuntos de dados experimentais. Os índices médios obtidos entre os dois experimentos foram superiores na identificação de RNAs codificantes em 8,6% com relação à CNCI; 11,4% com relação à PLEK e 4,4% com relação à CPC2. A propósito da identificação dos RNAs não-codificantes, a média geral obtida foi superior em 2,2%, 2,6%, 1,5% com relação à CNCI, PLEK e CPC2, respectivamente. A melhoria dos índices de acurácia reforça a estabilidade e a homogeneidade do método. Por fim, convém destacar que o método implementado pela BASiNET usa ferramentas de código aberto e pode ser executado em um computador com configurações básicas, sendo extensível à classificação de outras sequências como as de DNAs e aminoácidos.
Abstract:	Due to the emergence of Next Generation Sequencers (NGS), a large volume of DNAs and RNAs has been sequenced quickly at relatively lower costs. NGS has a output capacity of several thousands of sequences simultaneously, producing a massive volume of data to be analyzed. In this sense, computational tools become essential not only for an extraction, but also for the data selection and analysis. This research presents a model capable of extracting features for classification of coding and non-coding RNAs. The BiologicAl Sequences NETwork (BASiNET) is available at url https : //cran.r – project.org/package = BASiNET, implements the developed method, which convert RNAs sequences through complex networks, since these are e_cient to represent real systems, as is the case with biological systems. In order to represent the selected sequences, the configuration of the complex network is from the step size parameter, that represents the connections between the nucleotides, and also the word size parameter, that represents the quantity of nucleotides by vertex; afterwards the least dense edges are removed for subnetwork generation resulting from the increasing elimination of 1 to n edges from the network. Subsequently, each subnetwork is submitted to the measures of: proximity, degree, maximum degree, minimum degree, intermediation, clustering coefficient, mean minimum path, standard deviation and motifs. The extraction of measures from each of these subnetworks makes up the feature vector, the vector values are inserted in the supervised classification algorithm that, through the detection of patterns, performs the distinction of sequences with 10-fold cross validation. The BASiNET tool is applied to two data sets. The obtained results were compared with other tools: Predictor of long non-coding RNAs and messenger RNAs based on an improved k-mer scheme (PLEK), Coding-Non-Coding Index (CNCI) and Coding Potential Calculator (CPC2). The comparison of the BASiNET performance indicates, since it higher average accuracy results in the identification of coding RNAs and non-coding RNAs in the two experimental data sets. The average indices obtained from the two experiments were higher in the identification of coding RNAs by 8,6 % with respect to the CNCI; 11,4 % with respect to PLEK and 4,4 % with respect to CPC2. Regarding the identification of the non-coding RNAs, the overall average obtained was 2,2 %, 2,6 %, 1,5 % higher with respect to CNCI, PLEK and CPC2, respectively. The improvement of the accuracy indices reinforces the stability and the homogeneity of the method. Finally, it should be noted that the method implemented by BASiNET uses open source tools and can be executed on a computer with basic configurations, being extended to the classification of other sequences such as DNAs and amino acids.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/3368
Aparece nas coleções:	CP - Programa de Pós-Graduação em Bioinformática

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
CP_PPGBIOINFO_M_Katahira, Isaque_2018.pdf		8,22 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas