Loading...
BMC genomics20120101Vol.13 Suppl 6issue(Suppl 6)

全ゲノムシーケンスからのコピー数変動検出の効果的な正規化

,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景:全ゲノムシーケンスにより、ヒトゲノムの高解像度ビューが可能になり、前例のないスケールでゲノム構造に関するユニークな洞察を提供します。ゲノムのコピー数の変動を推測するための多くのツールがありました。これらのツールには、検証されていますが、分析対象のゲノムデータに設定可能な多くのパラメーターも含まれています。これらのアルゴリズムにより、個々のゲノムCNV推定値に対する個々のおよび人口固有の効果を説明することができますが、推定されたCNVに対するこれらの変化の影響は十分に特徴付けられていません。4つの集団にまたがる8人の個人からの全ゲノムシーケンスデータを使用して、2つのCNVアルゴリズムFreecおよびCNV-seqの正規化方法論の効果を詳細に評価します。 方法:FreecとCNV-Seqを8つのゲノムで構成されるシーケンスデータセットに適用します。Freecの異なる読み取りカウント正規化方法論に対応する複数の構成を使用し、Freec構成とCNV-Seqからの類似の出力間のCNV呼び出しの一致を統計的に特徴付けます。Freecで評価されている正規化方法論は、GC含有量、マッピング可能性、およびコントロールゲノムです。さらに、ジェニック、非ジェニック、および検証済みのバリアント領域のコレクション内の一致分析を層別化します。 結果:GCコンテンツの正規化方法論は、最も多くの変更されたコピー数領域を生成します。マッピー可能性と制御ゲノムの正規化の両方が、コピー数領域の総数と長さを減らします。マッピー可能性の正規化により、0.07-0.3範囲のJaccardインデックスが得られますが、コントロールゲノム正規化を使用すると、GC含有量に基づく正規化でJaccardインデックス値が約0.4になります。正規化係数としてマッピングを使用することの最も重要な影響は、削除CNVコールの大幅な減少です。コントロールゲノム正規化であるCNV-Seqに基づく別の方法の出力は、同等のCNVコールプロファイルと、可変遺伝子およびCNV領域の呼び出しにおける実質的な一致をもたらしました。 結論:読み取りカウント正規化方法の選択は、CNVコールに大きな影響を及ぼし、ゲノムマッピングまたは適切に選択したコントロールゲノムの使用は、CNV分析の出力を最適化できます。

背景:全ゲノムシーケンスにより、ヒトゲノムの高解像度ビューが可能になり、前例のないスケールでゲノム構造に関するユニークな洞察を提供します。ゲノムのコピー数の変動を推測するための多くのツールがありました。これらのツールには、検証されていますが、分析対象のゲノムデータに設定可能な多くのパラメーターも含まれています。これらのアルゴリズムにより、個々のゲノムCNV推定値に対する個々のおよび人口固有の効果を説明することができますが、推定されたCNVに対するこれらの変化の影響は十分に特徴付けられていません。4つの集団にまたがる8人の個人からの全ゲノムシーケンスデータを使用して、2つのCNVアルゴリズムFreecおよびCNV-seqの正規化方法論の効果を詳細に評価します。 方法:FreecとCNV-Seqを8つのゲノムで構成されるシーケンスデータセットに適用します。Freecの異なる読み取りカウント正規化方法論に対応する複数の構成を使用し、Freec構成とCNV-Seqからの類似の出力間のCNV呼び出しの一致を統計的に特徴付けます。Freecで評価されている正規化方法論は、GC含有量、マッピング可能性、およびコントロールゲノムです。さらに、ジェニック、非ジェニック、および検証済みのバリアント領域のコレクション内の一致分析を層別化します。 結果:GCコンテンツの正規化方法論は、最も多くの変更されたコピー数領域を生成します。マッピー可能性と制御ゲノムの正規化の両方が、コピー数領域の総数と長さを減らします。マッピー可能性の正規化により、0.07-0.3範囲のJaccardインデックスが得られますが、コントロールゲノム正規化を使用すると、GC含有量に基づく正規化でJaccardインデックス値が約0.4になります。正規化係数としてマッピングを使用することの最も重要な影響は、削除CNVコールの大幅な減少です。コントロールゲノム正規化であるCNV-Seqに基づく別の方法の出力は、同等のCNVコールプロファイルと、可変遺伝子およびCNV領域の呼び出しにおける実質的な一致をもたらしました。 結論:読み取りカウント正規化方法の選択は、CNVコールに大きな影響を及ぼし、ゲノムマッピングまたは適切に選択したコントロールゲノムの使用は、CNV分析の出力を最適化できます。

BACKGROUND: Whole genome sequencing enables a high resolution view of the human genome and provides unique insights into genome structure at an unprecedented scale. There have been a number of tools to infer copy number variation in the genome. These tools, while validated, also include a number of parameters that are configurable to genome data being analyzed. These algorithms allow for normalization to account for individual and population-specific effects on individual genome CNV estimates but the impact of these changes on the estimated CNVs is not well characterized. We evaluate in detail the effect of normalization methodologies in two CNV algorithms FREEC and CNV-seq using whole genome sequencing data from 8 individuals spanning four populations. METHODS: We apply FREEC and CNV-seq to a sequencing data set consisting of 8 genomes. We use multiple configurations corresponding to different read-count normalization methodologies in FREEC, and statistically characterize the concordance of the CNV calls between FREEC configurations and the analogous output from CNV-seq. The normalization methodologies evaluated in FREEC are: GC content, mappability and control genome. We further stratify the concordance analysis within genic, non-genic, and a collection of validated variant regions. RESULTS: The GC content normalization methodology generates the highest number of altered copy number regions. Both mappability and control genome normalization reduce the total number and length of copy number regions. Mappability normalization yields Jaccard indices in the 0.07 - 0.3 range, whereas using a control genome normalization yields Jaccard index values around 0.4 with normalization based on GC content. The most critical impact of using mappability as a normalization factor is substantial reduction of deletion CNV calls. The output of another method based on control genome normalization, CNV-seq, resulted in comparable CNV call profiles, and substantial agreement in variable gene and CNV region calls. CONCLUSIONS: Choice of read-count normalization methodology has a substantial effect on CNV calls and the use of genomic mappability or an appropriately chosen control genome can optimize the output of CNV analysis.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google