著名医師による解説が無料で読めます
すると翻訳の精度が向上します
長い非コーディングRNA(LNCRNA)は、いくつかの生物学的プロセスで重要な役割を果たす非コードRNAのクラスです。RNA-seqベースのトランスクリプトームシーケンスは、LNCRNAの識別に広く使用されています。ただし、ほとんどのコーディングポテンシャル計算(CPC)ツールがトランスクリプトームデータでそれらを正確に識別できないため、RNA-seqデータセットでのLNCRNAの正確な識別は、ゲノムの特徴的な機能を調査するために重要です。CPC2、LNCSCORE、CPATなどのよく知られたCPCツールは、主にGenCode、Non-Code、およびCantataDBデータベースに基づいてLNCRNAの予測用に設計されています。これらのツールの予測精度は、トランスクリプトームデータセットでテストされるとしばしば低下します。これにより、誤検知結果が高くなり、関数注釈プロセスが不正確になります。この研究では、植物RNA-seqデータセットにおけるLNCRNAの識別用の新しいツールであるPlitを提示します。Plitは、最適な機能を選択するために、L1の正規化と反復ランダムフォレスト(IRF)分類に基づいた機能選択方法を実装します。シーケンスとコドンBiasの特徴に基づいて、RNA-seq由来のFASTAシーケンスをコーディングまたは長い非コーディング転写産物に分類します。L1正規化を使用して、8つの植物種からのLNCRNAおよびタンパク質コーディング転写産物に基づいて31の最適な特徴が得られました。ツールの性能は、10倍の交差検証を使用して、7つの植物RNA-Seqデータセットで評価されました。この分析は、現在利用可能な最先端のCPCツールに対して評価された場合、優れた精度を示しました。
長い非コーディングRNA(LNCRNA)は、いくつかの生物学的プロセスで重要な役割を果たす非コードRNAのクラスです。RNA-seqベースのトランスクリプトームシーケンスは、LNCRNAの識別に広く使用されています。ただし、ほとんどのコーディングポテンシャル計算(CPC)ツールがトランスクリプトームデータでそれらを正確に識別できないため、RNA-seqデータセットでのLNCRNAの正確な識別は、ゲノムの特徴的な機能を調査するために重要です。CPC2、LNCSCORE、CPATなどのよく知られたCPCツールは、主にGenCode、Non-Code、およびCantataDBデータベースに基づいてLNCRNAの予測用に設計されています。これらのツールの予測精度は、トランスクリプトームデータセットでテストされるとしばしば低下します。これにより、誤検知結果が高くなり、関数注釈プロセスが不正確になります。この研究では、植物RNA-seqデータセットにおけるLNCRNAの識別用の新しいツールであるPlitを提示します。Plitは、最適な機能を選択するために、L1の正規化と反復ランダムフォレスト(IRF)分類に基づいた機能選択方法を実装します。シーケンスとコドンBiasの特徴に基づいて、RNA-seq由来のFASTAシーケンスをコーディングまたは長い非コーディング転写産物に分類します。L1正規化を使用して、8つの植物種からのLNCRNAおよびタンパク質コーディング転写産物に基づいて31の最適な特徴が得られました。ツールの性能は、10倍の交差検証を使用して、7つの植物RNA-Seqデータセットで評価されました。この分析は、現在利用可能な最先端のCPCツールに対して評価された場合、優れた精度を示しました。
Long non-coding RNAs (lncRNAs) are a class of non-coding RNAs which play a significant role in several biological processes. RNA-seq based transcriptome sequencing has been extensively used for identification of lncRNAs. However, accurate identification of lncRNAs in RNA-seq datasets is crucial for exploring their characteristic functions in the genome as most coding potential computation (CPC) tools fail to accurately identify them in transcriptomic data. Well-known CPC tools such as CPC2, lncScore, CPAT are primarily designed for prediction of lncRNAs based on the GENCODE, NONCODE and CANTATAdb databases. The prediction accuracy of these tools often drops when tested on transcriptomic datasets. This leads to higher false positive results and inaccuracy in the function annotation process. In this study, we present a novel tool, PLIT, for the identification of lncRNAs in plants RNA-seq datasets. PLIT implements a feature selection method based on L1 regularization and iterative Random Forests (iRF) classification for selection of optimal features. Based on sequence and codon-bias features, it classifies the RNA-seq derived FASTA sequences into coding or long non-coding transcripts. Using L1 regularization, 31 optimal features were obtained based on lncRNA and protein-coding transcripts from 8 plant species. The performance of the tool was evaluated on 7 plant RNA-seq datasets using 10-fold cross-validation. The analysis exhibited superior accuracy when evaluated against currently available state-of-the-art CPC tools.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。