Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/3415
Título: RNAplonc: um classificador para identificação de longos RNAs não codificantes em plantas
Autor(es): Negri, Tatianne da Costa
Orientador(es): Paschoal, Alexandre Rossi
Palavras-chave: Bioinformática
Plantas - Análise
Biologia - Classificação
Bioinformatics
Plants - Analysis
Biology - Classification
Data do documento: 24-Ago-2017
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Cornelio Procopio
Citação: NEGRI, Tatianne da Costa. RNAplonc: um classificador para identificação de Longos RNAs não codificantes em plantas. 2017. 47 f. Dissertação (Mestrado em Bioinformática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2017.
Resumo: Longos RNAs não-codificantes (lncRNAs) pertencem a classe dos RNAs que não codificam proteínas e que estão relacionados às diversas funções biológicas, como modificações da cromatina, regulação pós-transcricional, tradução, organização nuclear e diversos processos de desenvolvimento. Atualmente há uma lacuna de abordagens computacionais específicas para a identificação de lncRNAs em plantas, em oposição à variedade de ferramentas disponíveis para mamíferos. Diferente do que ocorre para outras classes de RNAs não-codificantes, a distinção dos lncRNA entre plantas e animais ainda não está esclarecida. Dado este cenário, este trabalho apresenta o RNAplonc, uma abordagem para a identificação de lncRNAs em plantas. A base da construção foram sequências públicas de lncRNAs e mRNAs disponíveis de seis genomas de plantas: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa e Setaria italica. Foram usados 22.543 lncRNAs e 29.960 mRNAs como conjunto de treinamento a partir de bases de dados públicas PLNlncRbase, GreeNC e Phytozome. Ainda, avaliaram-se 5.468 características em 10 algoritmos de aprendizado de máquina. Os resultados obtidos pela análise de sensibilidade e especificidade de classificação permitiram selecionar 16 características com o algoritmo REPTree, alcançando 93% de acertos na classificação de lncRNAs. Em seguida, avaliou-se o desempenho do RNAplonc com uma ferramenta largamente utilizada para a identificação de lncRNA em plantas (CPC) e outras duas aplicadas para animais (PLEK e lncRScan-SVM). O RNAplonc obteve uma sensibilidade de 99,83% na identificação de lncRNAs no conjunto de dados de treinamento quando comparado com a ferramenta CPC. Ainda, avaliou-se o desempenho do RNAplonc em dois estudos de caso independente que identificaram com evidências biológicas lncRNAs em Populus e Gossypium, tendo assim obtido 98,5% e 99,1% dos lncRNAs identificados em Populus e Gossypium, respectivamente. Toda a documentação e os conjuntos de utilizados (treinamento e testes) estão disponíveis no endereço: http://rnaplonc.cp.utfpr.edu.br/. Por fim, acredita-se que o RNAplonc é uma estratégia para contribuir na descoberta de lncRNAs candidatos especificamente para plantas.
Abstract: Long non-coding RNAs (lncRNAs) correspond to a non-coding RNA class that has gained emerging attention in the last years as a higher layer of regulation for gene expression in cells. There is, however, a lack of specific computational approaches to reliably predict lncRNA in plants, which contrast with the myriad of prediction tools available for mammalian lncRNAs. Given that the biological features and mechanisms generating lncRNAs in the cell are likely different between animals and plants, specific tools for plants is a need for these studies. With this in mind, we present here RNAplonc, a classifier approach for the identification of lncRNAs in plants from mRNA-based data. To build this tool, we used publicly available lncRNA and mRNA sequences from six plant genomes: Arabidopsis thaliana, Cucumis sativus, Glycine max, Oryza sativa, Populus trichocarpa and Setaria italica. This data was extracted from the public databases PLNlncRbase, GreeNC and Phytozome, from which we used 22.543 lncRNAs and 29.960 mRNAs as a training set. We selected 16 features that could best classify lncRNAs from 5.468 features with the REPTree algorithm for lncRNA. After an extensive comparison with tools used for lncRNA identification in plants (CPC) and animals (PLEK and lncRScan-SVM), we found that RNAplonc obtained a better accuracy (92%) in the training dataset when compared to the 77% of accuracy obtained with the CPC tool. We also found that RNAplonc produced more reliable lncRNA predictions from plant transcripts, as estimated for 17 datasets in 13 species from the CANTATAdb, GreeNC and PNRD databases. We also evaluated RNAplonc performance in two case studies that identified lncRNAs from Populus tomentosa and Gossypium, respectively. RNAplonc could correctly identify 98.5% of biologically validated lncRNAs in Populus and 99.1% in Gossypium. RNAplonc, its documentation and training datasets are available at the website: http://rnaplonc.cp.utfpr.edu.br/. We can conclude that RNAplonc retrieves correctly known plant lncRNAs. Moreover, RNAplonc can be a strategy for lncRNA discovery, providing a rich resource of candidate lncRNAs specifically for plants.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/3415
Aparece nas coleções:CP - Programa de Pós-Graduação em Bioinformática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
CP_PPGBIOINFO_M_Negri, Tatianne da Costa_2017.pdf11,41 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.