Loading...
BMC bioinformatics2006May28Vol.7issue()

ハイスループットオーソログ予測の特異性を改善します

,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

背景:オーソログ(種分化イベントの後に分岐した遺伝子)は同様の機能を持つ傾向があるため、それらの予測は比較ゲノミクスとゲノム注釈の重要な要素になりました。ゲノム全体の分析のために、利用可能な生物系統発生と遺伝子系統発生を比較するゴールドスタンダード系統解析アプローチは、簡単に自動化されません。したがって、大規模なゲノムスケールデータセットのオーソログ予測は、通常、相互ベストブラストヒット(RBH)アプローチを使用して実行されます。RBHの問題の1つは、不完全なゲノム配列または遺伝子喪失が関与する場合、パラログをオーソログとして誤って予測することです。さらに、同様の機能を保持する可能性が最も高いオーソログを特定することに関心が高まっています。 結果:これらの問題に対処するために、ここでは、以前に予測されたオーソログ(RBHベースのアプローチを使用して予測されたものを含む)をさらに評価するOrtholugeという名前のハイスループット計算方法を示します - どのオルソログが種の発散を最も密接に反映し、類似している可能性が高いかを特定します関数。Ortholugeは、2つの比較種とアウトグループ種を含む系統発生距離比を分析し、相対遺伝子の発散が非定型である場合に注目しています。また、種の発散後の遺伝子重複のいくつかのケースを特定します。不完全なゲノムデータ/遺伝子喪失のシミュレーションを通じて、RBHベースの方法によってオーソログとして誤って予測された遺伝子の大部分が誤って特定できることを示します。次に、オルソージを使用して、選択されたRBH予測オーソログデータセットの偽陽性(主にパラログ)の数を推定し、真核生物データセット(マウス-RAT比較)で約10%パラログを識別し、細菌データセットで5%を特定します。Putida -Pseudomonas syringae種の比較)。オーソログの高品質(より正確な)データセットは、「SSD-正規学」(サポート種の駆除 - 正門)も構築されました。これらのデータセットと、他の種のデータセットを特徴付けるために使用できるOrthorugeソフトウェアは、http://www.phothogenomics.ca/ortholuge/(GNU General Public Licenseのソフトウェア)で入手できます。 結論:ここで報告されているオルソージ法は、細菌と真核生物の両方の両方のハイスループットオーソログ予測の特異性(精度)を大幅に改善するようです。この方法とその関連ソフトウェアは、オルソログ遺伝子の上流の保存された調節要素の予測など、さまざまな比較ゲノミクスベースの分析を実行する人々を支援します。

背景:オーソログ(種分化イベントの後に分岐した遺伝子)は同様の機能を持つ傾向があるため、それらの予測は比較ゲノミクスとゲノム注釈の重要な要素になりました。ゲノム全体の分析のために、利用可能な生物系統発生と遺伝子系統発生を比較するゴールドスタンダード系統解析アプローチは、簡単に自動化されません。したがって、大規模なゲノムスケールデータセットのオーソログ予測は、通常、相互ベストブラストヒット(RBH)アプローチを使用して実行されます。RBHの問題の1つは、不完全なゲノム配列または遺伝子喪失が関与する場合、パラログをオーソログとして誤って予測することです。さらに、同様の機能を保持する可能性が最も高いオーソログを特定することに関心が高まっています。 結果:これらの問題に対処するために、ここでは、以前に予測されたオーソログ(RBHベースのアプローチを使用して予測されたものを含む)をさらに評価するOrtholugeという名前のハイスループット計算方法を示します - どのオルソログが種の発散を最も密接に反映し、類似している可能性が高いかを特定します関数。Ortholugeは、2つの比較種とアウトグループ種を含む系統発生距離比を分析し、相対遺伝子の発散が非定型である場合に注目しています。また、種の発散後の遺伝子重複のいくつかのケースを特定します。不完全なゲノムデータ/遺伝子喪失のシミュレーションを通じて、RBHベースの方法によってオーソログとして誤って予測された遺伝子の大部分が誤って特定できることを示します。次に、オルソージを使用して、選択されたRBH予測オーソログデータセットの偽陽性(主にパラログ)の数を推定し、真核生物データセット(マウス-RAT比較)で約10%パラログを識別し、細菌データセットで5%を特定します。Putida -Pseudomonas syringae種の比較)。オーソログの高品質(より正確な)データセットは、「SSD-正規学」(サポート種の駆除 - 正門)も構築されました。これらのデータセットと、他の種のデータセットを特徴付けるために使用できるOrthorugeソフトウェアは、http://www.phothogenomics.ca/ortholuge/(GNU General Public Licenseのソフトウェア)で入手できます。 結論:ここで報告されているオルソージ法は、細菌と真核生物の両方の両方のハイスループットオーソログ予測の特異性(精度)を大幅に改善するようです。この方法とその関連ソフトウェアは、オルソログ遺伝子の上流の保存された調節要素の予測など、さまざまな比較ゲノミクスベースの分析を実行する人々を支援します。

BACKGROUND: Orthologs (genes that have diverged after a speciation event) tend to have similar function, and so their prediction has become an important component of comparative genomics and genome annotation. The gold standard phylogenetic analysis approach of comparing available organismal phylogeny to gene phylogeny is not easily automated for genome-wide analysis; therefore, ortholog prediction for large genome-scale datasets is typically performed using a reciprocal-best-BLAST-hits (RBH) approach. One problem with RBH is that it will incorrectly predict a paralog as an ortholog when incomplete genome sequences or gene loss is involved. In addition, there is an increasing interest in identifying orthologs most likely to have retained similar function. RESULTS: To address these issues, we present here a high-throughput computational method named Ortholuge that further evaluates previously predicted orthologs (including those predicted using an RBH-based approach) - identifying which orthologs most closely reflect species divergence and may more likely have similar function. Ortholuge analyzes phylogenetic distance ratios involving two comparison species and an outgroup species, noting cases where relative gene divergence is atypical. It also identifies some cases of gene duplication after species divergence. Through simulations of incomplete genome data/gene loss, we show that the vast majority of genes falsely predicted as orthologs by an RBH-based method can be identified. Ortholuge was then used to estimate the number of false-positives (predominantly paralogs) in selected RBH-predicted ortholog datasets, identifying approximately 10% paralogs in a eukaryotic data set (mouse-rat comparison) and 5% in a bacterial data set (Pseudomonas putida - Pseudomonas syringae species comparison). Higher quality (more precise) datasets of orthologs, which we term "ssd-orthologs" (supporting-species-divergence-orthologs), were also constructed. These datasets, as well as Ortholuge software that may be used to characterize other species' datasets, are available at http://www.pathogenomics.ca/ortholuge/ (software under GNU General Public License). CONCLUSION: The Ortholuge method reported here appears to significantly improve the specificity (precision) of high-throughput ortholog prediction for both bacterial and eukaryotic species. This method, and its associated software, will aid those performing various comparative genomics-based analyses, such as the prediction of conserved regulatory elements upstream of orthologous genes.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google