Loading...
BMC genomics20130101Vol.14 Suppl 8issue(Suppl 8)

Metaid:メタゲノムサンプルの識別と定量化のための新しい方法

,
,
文献タイプ:
  • Journal Article
  • Research Support, N.I.H., Extramural
概要
Abstract

背景:次世代シーケンス(NGS)テクノロジーの進歩により、すべての自然環境に存在する豊富な微生物群集を分析および評価する機会が提供されました。ShortGunテクノロジーから得られた短い読み取りは、利用可能な参照ゲノムに対して読み取りを単純に整列させることにより、コミュニティの分類学的プロファイルを決定する方法を開いています。属および種レベルでの分類プロファイリングにはいくつかの計算方法が利用可能ですが、そのレベルでの変動を検出するのが難しいため、これらの方法はひずみレベルの識別に効果的ではありません。ここでは、メタゲノムシーケンスデータセットを考慮して、ひずみレベルで微生物を正確に識別し、サンプル内の各生物の存在量を推定できるアライメントフリーN-GRAMベースのアプローチであるMetaidを提示します。 結果:Metaidは、2,031の原核生物ゲノムのデータセットから一意で一般的なN-Gramのプロファイルを計算し、スコアリング関数を使用して各N-Gramに重みを割り当てるN-GRAMベースの方法です。このスコアリング関数は、より少ないゲノムに表示されるN-Gramsにより高い重みを割り当て、その逆も同様です。したがって、種の同定のために一意と一般的なN-Gramsの両方を効果的に使用できるようにします。シミュレートされたデータセットでの10倍の交差検証結果は、腸内マイクロビオームの生物のひずみレベルの識別で99.7%の顕著な精度を示しています。また、モデリングにゲノムシーケンスの25%または50%しか使用しないことでも、モデルが印象的なパフォーマンスを示すことを実証しました。種の同定に加えて、私たちの方法は、シミュレートされたメタゲノムサンプルの各種の相対的な存在量を推定することもできます。この方法で採用されている一般的なアプローチは、あらゆる環境サンプルに存在する多種多様な微生物種(ウイルス、原核生物、真核生物)を正確に同定するために適用できます。 結論:提案されたスコアリング機能とアプローチは、メタゲノミックコミュニティの分類群全体を正確に特定して推定することができます。スコアリング機能によって一般的なNグラムに割り当てられた重みは、読み取り値をひずみレベルに合わせて正確に校正されています。私たちの多重検証テストは、Metaidが不完全または部分的に配列決定されたゲノムを使用する場合でも、あらゆる自然環境の各分類群の存在量を正確に識別および推定するのに十分な堅牢性であることを示しています。

背景:次世代シーケンス(NGS)テクノロジーの進歩により、すべての自然環境に存在する豊富な微生物群集を分析および評価する機会が提供されました。ShortGunテクノロジーから得られた短い読み取りは、利用可能な参照ゲノムに対して読み取りを単純に整列させることにより、コミュニティの分類学的プロファイルを決定する方法を開いています。属および種レベルでの分類プロファイリングにはいくつかの計算方法が利用可能ですが、そのレベルでの変動を検出するのが難しいため、これらの方法はひずみレベルの識別に効果的ではありません。ここでは、メタゲノムシーケンスデータセットを考慮して、ひずみレベルで微生物を正確に識別し、サンプル内の各生物の存在量を推定できるアライメントフリーN-GRAMベースのアプローチであるMetaidを提示します。 結果:Metaidは、2,031の原核生物ゲノムのデータセットから一意で一般的なN-Gramのプロファイルを計算し、スコアリング関数を使用して各N-Gramに重みを割り当てるN-GRAMベースの方法です。このスコアリング関数は、より少ないゲノムに表示されるN-Gramsにより高い重みを割り当て、その逆も同様です。したがって、種の同定のために一意と一般的なN-Gramsの両方を効果的に使用できるようにします。シミュレートされたデータセットでの10倍の交差検証結果は、腸内マイクロビオームの生物のひずみレベルの識別で99.7%の顕著な精度を示しています。また、モデリングにゲノムシーケンスの25%または50%しか使用しないことでも、モデルが印象的なパフォーマンスを示すことを実証しました。種の同定に加えて、私たちの方法は、シミュレートされたメタゲノムサンプルの各種の相対的な存在量を推定することもできます。この方法で採用されている一般的なアプローチは、あらゆる環境サンプルに存在する多種多様な微生物種(ウイルス、原核生物、真核生物)を正確に同定するために適用できます。 結論:提案されたスコアリング機能とアプローチは、メタゲノミックコミュニティの分類群全体を正確に特定して推定することができます。スコアリング機能によって一般的なNグラムに割り当てられた重みは、読み取り値をひずみレベルに合わせて正確に校正されています。私たちの多重検証テストは、Metaidが不完全または部分的に配列決定されたゲノムを使用する場合でも、あらゆる自然環境の各分類群の存在量を正確に識別および推定するのに十分な堅牢性であることを示しています。

BACKGROUND: Advances in next-generation sequencing (NGS) technology has provided us with an opportunity to analyze and evaluate the rich microbial communities present in all natural environments. The shorter reads obtained from the shortgun technology has paved the way for determining the taxonomic profile of a community by simply aligning the reads against the available reference genomes. While several computational methods are available for taxonomic profiling at the genus- and species-level, none of these methods are effective at the strain-level identification due to the increasing difficulty in detecting variation at that level. Here, we present MetaID, an alignment-free n-gram based approach that can accurately identify microorganisms at the strain level and estimate the abundance of each organism in a sample, given a metagenomic sequencing dataset. RESULTS: MetaID is an n-gram based method that calculates the profile of unique and common n-grams from the dataset of 2,031 prokaryotic genomes and assigns weights to each n-gram using a scoring function. This scoring function assigns higher weightage to the n-grams that appear in fewer genomes and vice versa; thus, allows for effective use of both unique and common n-grams for species identification. Our 10-fold cross-validation results on a simulated dataset show a remarkable accuracy of 99.7% at the strain-level identification of the organisms in gut microbiome. We also demonstrated that our model shows impressive performance even by using only 25% or 50% of the genome sequences for modeling. In addition to identification of the species, our method can also estimate the relative abundance of each species in the simulated metagenomic samples. The generic approach employed in this method can be applied for accurate identification of a wide variety of microbial species (viruses, prokaryotes and eukaryotes) present in any environmental sample. CONCLUSIONS: The proposed scoring function and approach is able to accurately identify and estimate the entire taxa in any metagenomic community. The weights assigned to the common n-grams by our scoring function are precisely calibrated to match the reads up to the strain level. Our multipronged validation tests demonstrate that MetaID is sufficiently robust to accurately identify and estimate the abundance of each taxon in any natural environment even when using incomplete or partially sequenced genomes.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google