Loading...
※翻訳は機械翻訳サービスを利用しております
Nucleic acids research2022Sep23Vol.50issue(17)

Denovocnn:次世代のシーケンスデータにおけるDe Novoバリアントの呼び出しへの深い学習アプローチ

,
,
,
,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

de novo変異(DNM)は、遺伝的障害の重要な原因です。したがって、シーケンスデータからのDNMの正確な識別は、まれな疾患の研究と診断の基本です。残念ながら、信頼できるDNMを特定することは、シーケンスエラー、不均一なカバレッジ、およびアーティファクトのマッピングにより、依然として大きな課題です。ここでは、トリオのシーケンス読み取りのアライメントを160 $ \ times 164ドルの解像度画像としてコードするディープ畳み込みニューラルネットワーク(CNN)DNM発信者(Denovocnn)を開発しました。Denovocnnは、テストデータセットで合計96.74%のリコールと96.55%の精度を達成する5616 Whole Exomeシーケンス(WES)トリオのDNMSについて訓練されました。Denovocnnは、既存のDNM呼び出しアプローチ(GATK、Denovogear、Deeptrio、Samtools)と比較して、想起/感度と精度が増加していることがわかります。SangerおよびPacbio HiFiシーケンスに基づくDNMの検証は、Denovocnnが既存の方法を上回ることを確認しています。最も重要なことは、我々の結果は、Denovocnnが異なるExomeシーケンスと分析のアプローチに対して堅牢である可能性が高いことを示唆しているため、他のデータセットでアプリケーションを可能にします。DeNovocnnは、Dockerコンテナとして自由に利用でき、既存のアライメント(BAM/CRAM)およびVariant呼び出し(VCF)ファイルで、バリアントリコールを必要とせずに実行できます。

de novo変異(DNM)は、遺伝的障害の重要な原因です。したがって、シーケンスデータからのDNMの正確な識別は、まれな疾患の研究と診断の基本です。残念ながら、信頼できるDNMを特定することは、シーケンスエラー、不均一なカバレッジ、およびアーティファクトのマッピングにより、依然として大きな課題です。ここでは、トリオのシーケンス読み取りのアライメントを160 $ \ times 164ドルの解像度画像としてコードするディープ畳み込みニューラルネットワーク(CNN)DNM発信者(Denovocnn)を開発しました。Denovocnnは、テストデータセットで合計96.74%のリコールと96.55%の精度を達成する5616 Whole Exomeシーケンス(WES)トリオのDNMSについて訓練されました。Denovocnnは、既存のDNM呼び出しアプローチ(GATK、Denovogear、Deeptrio、Samtools)と比較して、想起/感度と精度が増加していることがわかります。SangerおよびPacbio HiFiシーケンスに基づくDNMの検証は、Denovocnnが既存の方法を上回ることを確認しています。最も重要なことは、我々の結果は、Denovocnnが異なるExomeシーケンスと分析のアプローチに対して堅牢である可能性が高いことを示唆しているため、他のデータセットでアプリケーションを可能にします。DeNovocnnは、Dockerコンテナとして自由に利用でき、既存のアライメント(BAM/CRAM)およびVariant呼び出し(VCF)ファイルで、バリアントリコールを必要とせずに実行できます。

De novo mutations (DNMs) are an important cause of genetic disorders. The accurate identification of DNMs from sequencing data is therefore fundamental to rare disease research and diagnostics. Unfortunately, identifying reliable DNMs remains a major challenge due to sequence errors, uneven coverage, and mapping artifacts. Here, we developed a deep convolutional neural network (CNN) DNM caller (DeNovoCNN), that encodes the alignment of sequence reads for a trio as 160$ \times$164 resolution images. DeNovoCNN was trained on DNMs of 5616 whole exome sequencing (WES) trios achieving total 96.74% recall and 96.55% precision on the test dataset. We find that DeNovoCNN has increased recall/sensitivity and precision compared to existing DNM calling approaches (GATK, DeNovoGear, DeepTrio, Samtools) based on the Genome in a Bottle reference dataset and independent WES and WGS trios. Validations of DNMs based on Sanger and PacBio HiFi sequencing confirm that DeNovoCNN outperforms existing methods. Most importantly, our results suggest that DeNovoCNN is likely robust against different exome sequencing and analyses approaches, thereby allowing the application on other datasets. DeNovoCNN is freely available as a Docker container and can be run on existing alignment (BAM/CRAM) and variant calling (VCF) files from WES and WGS without a need for variant recalling.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google