Loading...
Mathematical biosciences2016Sep01Vol.279issue()

MGP-HMM:MATEペアの挿入サイズと読み取りカウントをモデル化するためにHMMを使用してゲノム全体のCNVを検出する

,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

動機:コピー数変動(CNV)と統合失調症、自閉症、発達障害、癌などの致命的疾患との関連が検証されています。次世代シーケンス(NGS)の最近の開発により、CNV研究が促進されました。ただし、現在のCNV検出ツールの多くは、タンデムの重複を非タンデム重複と区別することはできません。 結果:この研究では、MGP-HMMを、ゲノム全体の削除を検出する以外に、タンデムの重複を非タンデム重複と区別するツールとして提案します。MGP-HMMは、MATEペアの異常を考慮し、タンデムまたは非タンデムのコピーのデジタル化された数を予測します。参照ゲノムにマッピングされた後、メイトペアの方向と挿入サイズの異常は、隠されたマルコフモデル(HMM)を使用して解明されます。この目的のために、時間依存パラメーターを備えた混合ガウス密度が、HMM状態からのMATEペアの挿入サイズを放出するために適用されます。実際、配偶者ペアの挿入サイズまたはその方向の観測された異常に応じて、混合密度の各成分には異なるパラメーターがあります。MGP-HMMは、読み取り深度データをモデリングするためのポアソン分布も適用します。MATEペア読み取りのこのパラメトリックモデリングにより、CNVの長さを正確に推定できます。これは、CNV検出の読み取り深度アプローチのみに依存する方法よりも利点です。提案されたHMMの隠された状態は、ゲノムセグメントのデジタル化されたコピー数であり、状態は混合ガウス成分の乗数に対応しています。モデルの精度は、次世代のシーケンスリアルおよびシミュレーションデータのセットで検証され、他のツールと比較されます。

動機:コピー数変動(CNV)と統合失調症、自閉症、発達障害、癌などの致命的疾患との関連が検証されています。次世代シーケンス(NGS)の最近の開発により、CNV研究が促進されました。ただし、現在のCNV検出ツールの多くは、タンデムの重複を非タンデム重複と区別することはできません。 結果:この研究では、MGP-HMMを、ゲノム全体の削除を検出する以外に、タンデムの重複を非タンデム重複と区別するツールとして提案します。MGP-HMMは、MATEペアの異常を考慮し、タンデムまたは非タンデムのコピーのデジタル化された数を予測します。参照ゲノムにマッピングされた後、メイトペアの方向と挿入サイズの異常は、隠されたマルコフモデル(HMM)を使用して解明されます。この目的のために、時間依存パラメーターを備えた混合ガウス密度が、HMM状態からのMATEペアの挿入サイズを放出するために適用されます。実際、配偶者ペアの挿入サイズまたはその方向の観測された異常に応じて、混合密度の各成分には異なるパラメーターがあります。MGP-HMMは、読み取り深度データをモデリングするためのポアソン分布も適用します。MATEペア読み取りのこのパラメトリックモデリングにより、CNVの長さを正確に推定できます。これは、CNV検出の読み取り深度アプローチのみに依存する方法よりも利点です。提案されたHMMの隠された状態は、ゲノムセグメントのデジタル化されたコピー数であり、状態は混合ガウス成分の乗数に対応しています。モデルの精度は、次世代のシーケンスリアルおよびシミュレーションデータのセットで検証され、他のツールと比較されます。

MOTIVATION: Association of Copy Number Variation (CNV) with schizophrenia, autism, developmental disabilities and fatal diseases such as cancer is verified. Recent developments in Next Generation Sequencing (NGS) have facilitated the CNV studies. However, many of the current CNV detection tools are not capable of discriminating tandem duplication from non-tandem duplications. RESULTS: In this study, we propose MGP-HMM as a tool which besides detecting genome-wide deletions discriminates tandem duplications from non-tandem duplications. MGP-HMM takes mate pair abnormalities into account and predicts the digitized number of tandem or non-tandem copies. Abnormalities in the mate pair directions and insertion sizes, after being mapped to the reference genome, are elucidated using a Hidden Markov Model (HMM). For this purpose, a Mixture Gaussian density with time-dependent parameters is applied for emitting mate pair insertion sizes from HMM states. Indeed, depending on observed abnormalities in mate pair insertion size or its orientation, each component in the mixture density will have different parameters. MGP-HMM also applies a Poisson distribution for modeling read depth data. This parametric modeling of the mate pair reads enables us to estimate the length of CNVs precisely, which is an advantage over methods which rely only on read depth approach for the CNV detection. Hidden state of the proposed HMM is the digitized copy number of a genomic segment and states correspond to the multipliers of the mixture Gaussian components. The accuracy of our model is validated on a set of next generation sequencing real and simulated data and is compared to other tools.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google