Loading...
BMC bioinformatics2016Aug31Vol.17 Suppl 8issue(Suppl 8)

GRASPX:同時アライメントとアセンブリを介した短いペプチドメタゲノムデータベースの効率的なホモログ検索

,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景:メタゲノミクスは、環境に存在する微生物のゲノム組成の研究を可能にする栽培に依存しないアプローチです。メタゲノムサンプルは、短いヌクレオチド読み取りを生成する次世代シーケンス技術を使用して日常的に配列決定されます。これらの読み取りから特定されたタンパク質は、ほとんど部分的な長さです。一方、大規模なメタゲノムデータセットのde novoアセンブリは計算的に要求が厳しく、組み立てられたコンティグはしばしば断片化され、部分的な長さと不完全なタンパク質配列の識別をもたらします。不完全なタンパク質配列の注釈は、参照シーケンスのデータベース内のホモログを識別することにより、しばしば進行します。不完全なシーケンスのホモログを特定することは課題であり、メタゲノムデータセットからのタンパク質の標準以下の注釈をもたらす可能性があります。この問題に対処するために、最近、短いペプチドメタゲノム配列のデータベースにある特定の参照タンパク質配列のホモログを識別するGrasp(誘導参照ベースの短いペプチドアセンブリ)という名前の相同性検出アルゴリズムを開発しました。GRASPは、メタゲノム読み取りで特定された短いペプチドの注釈のための同時アラインメントとアセンブリアルゴリズムを実装するために開発されました。このプログラムは、計算効率のコストでリコール率が大幅に改善されます。この記事では、拡張リンクの事前建設、個々の種子のローカルアセンブリ、クエリレベルの並列性の実装など、元のバージョンの把握をスピードアップするために3つの手法を採用しました。 結果:結果の新しいプログラムであるGRASPXは、前任者の把握と比較して30倍以上のスピードアップを達成します。同時に、GraspxのパフォーマンスがGraspのパフォーマンスと一致しており、両方ともBlastやFasta Suitesを含む他の一般的なホモロジー検索ツールを大幅に上回ることを示します。GRASPXは人間の唾液メタゲノムデータセットにも適用され、リコールレートと精密レートの両方で優れた性能を示しています。 結論:この記事では、同時アライメントとアセンブリフレームワークを実装する高速かつ正確な相同性検索プログラムであるGraspxを提示します。GRASPXは、短いペプチドのより包括的かつ正確な注釈に使用できます。GRASPXはhttp://graspx.sourceforge.net/で無料で入手できます。

背景:メタゲノミクスは、環境に存在する微生物のゲノム組成の研究を可能にする栽培に依存しないアプローチです。メタゲノムサンプルは、短いヌクレオチド読み取りを生成する次世代シーケンス技術を使用して日常的に配列決定されます。これらの読み取りから特定されたタンパク質は、ほとんど部分的な長さです。一方、大規模なメタゲノムデータセットのde novoアセンブリは計算的に要求が厳しく、組み立てられたコンティグはしばしば断片化され、部分的な長さと不完全なタンパク質配列の識別をもたらします。不完全なタンパク質配列の注釈は、参照シーケンスのデータベース内のホモログを識別することにより、しばしば進行します。不完全なシーケンスのホモログを特定することは課題であり、メタゲノムデータセットからのタンパク質の標準以下の注釈をもたらす可能性があります。この問題に対処するために、最近、短いペプチドメタゲノム配列のデータベースにある特定の参照タンパク質配列のホモログを識別するGrasp(誘導参照ベースの短いペプチドアセンブリ)という名前の相同性検出アルゴリズムを開発しました。GRASPは、メタゲノム読み取りで特定された短いペプチドの注釈のための同時アラインメントとアセンブリアルゴリズムを実装するために開発されました。このプログラムは、計算効率のコストでリコール率が大幅に改善されます。この記事では、拡張リンクの事前建設、個々の種子のローカルアセンブリ、クエリレベルの並列性の実装など、元のバージョンの把握をスピードアップするために3つの手法を採用しました。 結果:結果の新しいプログラムであるGRASPXは、前任者の把握と比較して30倍以上のスピードアップを達成します。同時に、GraspxのパフォーマンスがGraspのパフォーマンスと一致しており、両方ともBlastやFasta Suitesを含む他の一般的なホモロジー検索ツールを大幅に上回ることを示します。GRASPXは人間の唾液メタゲノムデータセットにも適用され、リコールレートと精密レートの両方で優れた性能を示しています。 結論:この記事では、同時アライメントとアセンブリフレームワークを実装する高速かつ正確な相同性検索プログラムであるGraspxを提示します。GRASPXは、短いペプチドのより包括的かつ正確な注釈に使用できます。GRASPXはhttp://graspx.sourceforge.net/で無料で入手できます。

BACKGROUND: Metagenomics is a cultivation-independent approach that enables the study of the genomic composition of microbes present in an environment. Metagenomic samples are routinely sequenced using next-generation sequencing technologies that generate short nucleotide reads. Proteins identified from these reads are mostly of partial length. On the other hand, de novo assembly of a large metagenomic dataset is computationally demanding and the assembled contigs are often fragmented, resulting in the identification of protein sequences that are also of partial length and incomplete. Annotation of an incomplete protein sequence often proceeds by identifying its homologs in a database of reference sequences. Identifying the homologs of incomplete sequences is a challenge and can result in substandard annotation of proteins from metagenomic datasets. To address this problem, we recently developed a homology detection algorithm named GRASP (Guided Reference-based Assembly of Short Peptides) that identifies the homologs of a given reference protein sequence in a database of short peptide metagenomic sequences. GRASP was developed to implement a simultaneous alignment and assembly algorithm for annotation of short peptides identified on metagenomic reads. The program achieves significantly improved recall rate at the cost of computational efficiency. In this article, we adopted three techniques to speed up the original version of GRASP, including the pre-construction of extension links, local assembly of individual seeds, and the implementation of query-level parallelism. RESULTS: The resulting new program, GRASPx, achieves >30X speedup compared to its predecessor GRASP. At the same time, we show that the performance of GRASPx is consistent with that of GRASP, and that both of them significantly outperform other popular homology-search tools including the BLAST and FASTA suites. GRASPx was also applied to a human saliva metagenome dataset and shows superior performance for both recall and precision rates. CONCLUSIONS: In this article we present GRASPx, a fast and accurate homology-search program implementing a simultaneous alignment and assembly framework. GRASPx can be used for more comprehensive and accurate annotation of short peptides. GRASPx is freely available at http://graspx.sourceforge.net/ .

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google