Loading...
PloS one20150101Vol.10issue(7)

複製の次世代シーケンス実験におけるバリアントコールの再現性

,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, N.I.H., Extramural
  • Research Support, Non-U.S. Gov't
概要
Abstract

次世代シーケンスによって検出されたヌクレオチドの変化は、必ずしも真の生物学的変化ではありませんが、シーケンスエラーを表す可能性があります。非常に正確な方法でさえ、何百万ものヌクレオチドに適用すると、かなりのエラー率をもたらす可能性があります。この研究では、同じゲノムDNAの複製シーケンス実験におけるヌクレオチドバリアントコールの再現性を調べました。ソリッドV4プラットフォームを使用して、すべての既知のヒトプロテインキナーゼ遺伝子(Kinome)(〜3.2 MB)のターゲットシーケンスを実行しました。17の乳がんサンプルを重複(n = 14)または3回(n = 3)でシーケンスして、すべてのコールと単一ヌクレオチドバリアント(SNV)コールの一致を評価しました。シーケンスされた領域全体にわたる一致率は99.99%を超え、SNVの一致率は54.3-75.5%でした。実験から実験まで、基本的なシーケンスメトリックに大きな変動がありました。ヌクレオチド置換のタイプとバリアントのゲノム位置は、一致にほとんど影響しませんでしたが、一致は、カバレッジレベル、バリアントアレルカウント(VAC)、バリアントアレル周波数(VAF)、バリアントアレル品質、SNVコールのP値とともに増加しました。一致の最も重要な決定要因は、VACとVAFでした。QCメトリックの最高のストリンジェンシーを使用しても、SNVコールの再現性は約80%であり、1回の実験では誤ったバリアント呼び出しが20〜40%になる可能性があることを示唆しています。シーケンスデータは、アクセッション番号EGAS00001000826を使用して、ヨーロッパのゲノムフェノムアーカイブ(EGA)に堆積しています。

次世代シーケンスによって検出されたヌクレオチドの変化は、必ずしも真の生物学的変化ではありませんが、シーケンスエラーを表す可能性があります。非常に正確な方法でさえ、何百万ものヌクレオチドに適用すると、かなりのエラー率をもたらす可能性があります。この研究では、同じゲノムDNAの複製シーケンス実験におけるヌクレオチドバリアントコールの再現性を調べました。ソリッドV4プラットフォームを使用して、すべての既知のヒトプロテインキナーゼ遺伝子(Kinome)(〜3.2 MB)のターゲットシーケンスを実行しました。17の乳がんサンプルを重複(n = 14)または3回(n = 3)でシーケンスして、すべてのコールと単一ヌクレオチドバリアント(SNV)コールの一致を評価しました。シーケンスされた領域全体にわたる一致率は99.99%を超え、SNVの一致率は54.3-75.5%でした。実験から実験まで、基本的なシーケンスメトリックに大きな変動がありました。ヌクレオチド置換のタイプとバリアントのゲノム位置は、一致にほとんど影響しませんでしたが、一致は、カバレッジレベル、バリアントアレルカウント(VAC)、バリアントアレル周波数(VAF)、バリアントアレル品質、SNVコールのP値とともに増加しました。一致の最も重要な決定要因は、VACとVAFでした。QCメトリックの最高のストリンジェンシーを使用しても、SNVコールの再現性は約80%であり、1回の実験では誤ったバリアント呼び出しが20〜40%になる可能性があることを示唆しています。シーケンスデータは、アクセッション番号EGAS00001000826を使用して、ヨーロッパのゲノムフェノムアーカイブ(EGA)に堆積しています。

Nucleotide alterations detected by next generation sequencing are not always true biological changes but could represent sequencing errors. Even highly accurate methods can yield substantial error rates when applied to millions of nucleotides. In this study, we examined the reproducibility of nucleotide variant calls in replicate sequencing experiments of the same genomic DNA. We performed targeted sequencing of all known human protein kinase genes (kinome) (~3.2 Mb) using the SOLiD v4 platform. Seventeen breast cancer samples were sequenced in duplicate (n=14) or triplicate (n=3) to assess concordance of all calls and single nucleotide variant (SNV) calls. The concordance rates over the entire sequenced region were >99.99%, while the concordance rates for SNVs were 54.3-75.5%. There was substantial variation in basic sequencing metrics from experiment to experiment. The type of nucleotide substitution and genomic location of the variant had little impact on concordance but concordance increased with coverage level, variant allele count (VAC), variant allele frequency (VAF), variant allele quality and p-value of SNV-call. The most important determinants of concordance were VAC and VAF. Even using the highest stringency of QC metrics the reproducibility of SNV calls was around 80% suggesting that erroneous variant calling can be as high as 20-40% in a single experiment. The sequence data have been deposited into the European Genome-phenome Archive (EGA) with accession number EGAS00001000826.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google