Loading...
BMC genomics2014Jul07Vol.15issue(1)

非人間の霊長類データの参照ベースのRNA-SEQマッピング方法を比較します

,
,
,
,
,
文献タイプ:
  • Comparative Study
  • Journal Article
  • Research Support, N.I.H., Extramural
  • Research Support, Non-U.S. Gov't
概要
Abstract

背景:次世代シーケンステクノロジーの遺伝子発現定量化分析、すなわちRNAシーケンスへの適用は、遺伝子発現研究の実施と分析の方法を変えました。これらの進歩は、シーケンス情報の知識の必要性が克服されるため、ゲノムの欠落または不完全なゲノムを持つ生物を研究する研究者にとって特に興味深いものです。de novoアセンブリの方法は、真の参照ゲノムまたはトランスクリプトームのない生物について、RNA-seq群集で広範囲に受け入れられています。このような方法には途方もない効用がありますが、計算コストは​​、大きく複雑なゲノムを持つ生物にとって依然として重要な課題です。 結果:この原稿では、非人間の霊長類データの4つの参照ベースのマッピング方法の比較を示します。ヒトゲノムへのマッピングにTopHat2とGSNAPを利用し、Bowtie2とStampyをヒトゲノムとトランスクリプトームに合計6つのマッピングアプローチにマッピングします。これらの各方法について、マッピング速度と位置、検出された遺伝子の数、計算された発現値の間の相関、および微分微分発現解析のための結果のデータの有用性を調査します。 結論:参照ベースのマッピング方法は、真の参照なしで哺乳類データのRNA-seq分析に実際に有用性があり、マッピング方法の詳細を慎重に考慮する必要があることを示しています。重要なアルゴリズム機能には、短いシードシーケンス、ミスマッチの許容値、およびスプライスジャンクションギャップに加えてギャップアライメントの許容値が含まれます。このような機能により、人間以外の霊長類RNA-seqデータが人間の参照に敏感に整合します。

背景:次世代シーケンステクノロジーの遺伝子発現定量化分析、すなわちRNAシーケンスへの適用は、遺伝子発現研究の実施と分析の方法を変えました。これらの進歩は、シーケンス情報の知識の必要性が克服されるため、ゲノムの欠落または不完全なゲノムを持つ生物を研究する研究者にとって特に興味深いものです。de novoアセンブリの方法は、真の参照ゲノムまたはトランスクリプトームのない生物について、RNA-seq群集で広範囲に受け入れられています。このような方法には途方もない効用がありますが、計算コストは​​、大きく複雑なゲノムを持つ生物にとって依然として重要な課題です。 結果:この原稿では、非人間の霊長類データの4つの参照ベースのマッピング方法の比較を示します。ヒトゲノムへのマッピングにTopHat2とGSNAPを利用し、Bowtie2とStampyをヒトゲノムとトランスクリプトームに合計6つのマッピングアプローチにマッピングします。これらの各方法について、マッピング速度と位置、検出された遺伝子の数、計算された発現値の間の相関、および微分微分発現解析のための結果のデータの有用性を調査します。 結論:参照ベースのマッピング方法は、真の参照なしで哺乳類データのRNA-seq分析に実際に有用性があり、マッピング方法の詳細を慎重に考慮する必要があることを示しています。重要なアルゴリズム機能には、短いシードシーケンス、ミスマッチの許容値、およびスプライスジャンクションギャップに加えてギャップアライメントの許容値が含まれます。このような機能により、人間以外の霊長類RNA-seqデータが人間の参照に敏感に整合します。

BACKGROUND: The application of next-generation sequencing technology to gene expression quantification analysis, namely, RNA-Sequencing, has transformed the way in which gene expression studies are conducted and analyzed. These advances are of particular interest to researchers studying organisms with missing or incomplete genomes, as the need for knowledge of sequence information is overcome. De novo assembly methods have gained widespread acceptance in the RNA-Seq community for organisms with no true reference genome or transcriptome. While such methods have tremendous utility, computational cost is still a significant challenge for organisms with large and complex genomes. RESULTS: In this manuscript, we present a comparison of four reference-based mapping methods for non-human primate data. We utilize TopHat2 and GSNAP for mapping to the human genome, and Bowtie2 and Stampy for mapping to the human genome and transcriptome for a total of six mapping approaches. For each of these methods, we explore mapping rates and locations, number of detected genes, correlations between computed expression values, and the utility of the resulting data for differential expression analysis. CONCLUSIONS: We show that reference-based mapping methods indeed have utility in RNA-Seq analysis of mammalian data with no true reference, and the details of mapping methods should be carefully considered when doing so. Critical algorithm features include short seed sequences, the allowance of mismatches, and the allowance of gapped alignments in addition to splice junction gaps. Such features facilitate sensitive alignment of non-human primate RNA-Seq data to a human reference.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google