Loading...
Genome biology2023Oct30Vol.24issue(1)

遺伝子クラスタリング基準の比較は、パンゲノーム分析における固有の不確実性を明らかにします

,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

背景:比較ゲノミクスの重要なステップは、オープンリーディングフレームを機能的および進化的に意味のある遺伝子クラスターにグループ化することです。遺伝子クラスタリングは、原核生物で頻繁に発生する種内の重複と水平遺伝子移動によって複雑になります。その結果、遺伝子クラスタリング方法は、シンテニー保存によって認識されるマルチコピー遺伝子ファミリーの垂直に伝達された代表者を特定することと、種レベルのオーソログの完全なセットを取得することとのトレードオフに対処する必要があります。125の原核生物パンゲノムの比較分析を実行することにより、遺伝子クラスタリングの正式な基準として、相同性、オーソロジー、またはシンテニー保全を採用することの意味を研究しました。 結果:クラスタリング基準は、パンゲノームの機能的特性評価、コアゲノム推論、および異なる範囲への祖先遺伝子含有量の再構築に影響します。異なるクラスタリング基準を使用すると、パンゲノームとコアゲノムサイズの種ごとの推定値が同じ要因によって変化し、クラスタリング基準に関係なく堅牢なクロス種の比較を可能にします。ただし、ゲノム可塑性と機能プロファイルの異種の比較は、クラスタリング基準の間の矛盾によって実質的に影響を受けます。このような矛盾は、モバイルの遺伝的要素だけでなく、防御、二次代謝、およびその他のアクセサリ機能に関与する遺伝子によっても駆動されます。いくつかのパンゲノムの特徴では、方法論的な矛盾に起因する変動性は、生態学的および系統変数の効果サイズを超えることさえあります。 結論:遺伝子クラスタリングの適切な基準を選択することは、偏りのないパンゲノム分析を実施するために重要です。研究目標とゲノムアセンブリの品質に応じて適切な方法を選択する実用的なガイドラインと、将来の比較研究の堅牢性と再現性を評価するためのベンチマークデータセットを提供します。

背景:比較ゲノミクスの重要なステップは、オープンリーディングフレームを機能的および進化的に意味のある遺伝子クラスターにグループ化することです。遺伝子クラスタリングは、原核生物で頻繁に発生する種内の重複と水平遺伝子移動によって複雑になります。その結果、遺伝子クラスタリング方法は、シンテニー保存によって認識されるマルチコピー遺伝子ファミリーの垂直に伝達された代表者を特定することと、種レベルのオーソログの完全なセットを取得することとのトレードオフに対処する必要があります。125の原核生物パンゲノムの比較分析を実行することにより、遺伝子クラスタリングの正式な基準として、相同性、オーソロジー、またはシンテニー保全を採用することの意味を研究しました。 結果:クラスタリング基準は、パンゲノームの機能的特性評価、コアゲノム推論、および異なる範囲への祖先遺伝子含有量の再構築に影響します。異なるクラスタリング基準を使用すると、パンゲノームとコアゲノムサイズの種ごとの推定値が同じ要因によって変化し、クラスタリング基準に関係なく堅牢なクロス種の比較を可能にします。ただし、ゲノム可塑性と機能プロファイルの異種の比較は、クラスタリング基準の間の矛盾によって実質的に影響を受けます。このような矛盾は、モバイルの遺伝的要素だけでなく、防御、二次代謝、およびその他のアクセサリ機能に関与する遺伝子によっても駆動されます。いくつかのパンゲノムの特徴では、方法論的な矛盾に起因する変動性は、生態学的および系統変数の効果サイズを超えることさえあります。 結論:遺伝子クラスタリングの適切な基準を選択することは、偏りのないパンゲノム分析を実施するために重要です。研究目標とゲノムアセンブリの品質に応じて適切な方法を選択する実用的なガイドラインと、将来の比較研究の堅牢性と再現性を評価するためのベンチマークデータセットを提供します。

BACKGROUND: A key step for comparative genomics is to group open reading frames into functionally and evolutionarily meaningful gene clusters. Gene clustering is complicated by intraspecific duplications and horizontal gene transfers that are frequent in prokaryotes. In consequence, gene clustering methods must deal with a trade-off between identifying vertically transmitted representatives of multicopy gene families, which are recognizable by synteny conservation, and retrieving complete sets of species-level orthologs. We studied the implications of adopting homology, orthology, or synteny conservation as formal criteria for gene clustering by performing comparative analyses of 125 prokaryotic pangenomes. RESULTS: Clustering criteria affect pangenome functional characterization, core genome inference, and reconstruction of ancestral gene content to different extents. Species-wise estimates of pangenome and core genome sizes change by the same factor when using different clustering criteria, allowing robust cross-species comparisons regardless of the clustering criterion. However, cross-species comparisons of genome plasticity and functional profiles are substantially affected by inconsistencies among clustering criteria. Such inconsistencies are driven not only by mobile genetic elements, but also by genes involved in defense, secondary metabolism, and other accessory functions. In some pangenome features, the variability attributed to methodological inconsistencies can even exceed the effect sizes of ecological and phylogenetic variables. CONCLUSIONS: Choosing an appropriate criterion for gene clustering is critical to conduct unbiased pangenome analyses. We provide practical guidelines to choose the right method depending on the research goals and the quality of genome assemblies, and a benchmarking dataset to assess the robustness and reproducibility of future comparative studies.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google