Loading...
bioRxiv : the preprint server for biology2023May04Vol.issue()

全ゲノームの長い読み取りシーケンスダウンサンプリングとバリアント呼び出しの精度とリコールへの影響

,
,
,
,
,
,
,
,
,
,
,
文献タイプ:
  • Preprint
概要
Abstract

ロングリードシーケンス(LRS)テクノロジーの進歩により、全ゲノムシーケンスがより完全で、手頃で、正確になり続けています。LRSは、段階的なde novoゲノムアセンブリ、以前に除外されたゲノム領域へのアクセス、疾患に関連するより複雑な構造バリアント(SVS)の発見など、短期間のシーケンスアプローチよりも大きな利点を提供します。コスト、スケーラビリティ、プラットフォーム依存性の読み取り精度に関して制限は残っており、シーケンスカバレッジとバリアント発見の感度間のトレードオフは、LRの適用に関する重要な実験的考慮事項です。オックスフォードナノポアテクノロジーズ(ONT)とPacbio HiFiプラットフォームのコールリングとリコールを、さまざまなシーケンスカバレッジに比べて、遺伝的変異を呼び出します。読み取りベースのアプリケーションの場合、LRSの感度は、合理的な精度で呼ばれる大部分のバリアント(0.5を超えるF1スコア)で約12倍のカバレッジを獲得し始め、両方のプラットフォームはSV検出に適しています。ゲノムアセンブリは、アセンブリベースのバリアントコールセットのF1スコアで測定されたHiFiのhifiデータセットのSVSとインデルのバリアントの呼び出しとリコールを増加させます。両方のテクノロジーが進化し続けていますが、私たちの仕事は、新しい生物学の発見を妥協しない費用対効果の高い実験戦略を設計するためのガイダンスを提供します。

ロングリードシーケンス(LRS)テクノロジーの進歩により、全ゲノムシーケンスがより完全で、手頃で、正確になり続けています。LRSは、段階的なde novoゲノムアセンブリ、以前に除外されたゲノム領域へのアクセス、疾患に関連するより複雑な構造バリアント(SVS)の発見など、短期間のシーケンスアプローチよりも大きな利点を提供します。コスト、スケーラビリティ、プラットフォーム依存性の読み取り精度に関して制限は残っており、シーケンスカバレッジとバリアント発見の感度間のトレードオフは、LRの適用に関する重要な実験的考慮事項です。オックスフォードナノポアテクノロジーズ(ONT)とPacbio HiFiプラットフォームのコールリングとリコールを、さまざまなシーケンスカバレッジに比べて、遺伝的変異を呼び出します。読み取りベースのアプリケーションの場合、LRSの感度は、合理的な精度で呼ばれる大部分のバリアント(0.5を超えるF1スコア)で約12倍のカバレッジを獲得し始め、両方のプラットフォームはSV検出に適しています。ゲノムアセンブリは、アセンブリベースのバリアントコールセットのF1スコアで測定されたHiFiのhifiデータセットのSVSとインデルのバリアントの呼び出しとリコールを増加させます。両方のテクノロジーが進化し続けていますが、私たちの仕事は、新しい生物学の発見を妥協しない費用対効果の高い実験戦略を設計するためのガイダンスを提供します。

Advances in long-read sequencing (LRS) technology continue to make whole-genome sequencing more complete, affordable, and accurate. LRS provides significant advantages over short-read sequencing approaches, including phased de novo genome assembly, access to previously excluded genomic regions, and discovery of more complex structural variants (SVs) associated with disease. Limitations remain with respect to cost, scalability, and platform-dependent read accuracy and the tradeoffs between sequence coverage and sensitivity of variant discovery are important experimental considerations for the application of LRS. We compare the genetic variant calling precision and recall of Oxford Nanopore Technologies (ONT) and PacBio HiFi platforms over a range of sequence coverages. For read-based applications, LRS sensitivity begins to plateau around 12-fold coverage with a majority of variants called with reasonable accuracy (F1 score above 0.5), and both platforms perform well for SV detection. Genome assembly increases variant calling precision and recall of SVs and indels in HiFi datasets with HiFi outperforming ONT in quality as measured by the F1 score of assembly-based variant callsets. While both technologies continue to evolve, our work offers guidance to design cost-effective experimental strategies that do not compromise on discovering novel biology.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google