著名医師による解説が無料で読めます
すると翻訳の精度が向上します
動機:遺伝子型の正確な識別は、シーケンス多型の特定、疾患とのリンク、変異率の決定など、ゲノムデータの分析の重要な部分です。ジェノタイピングに悪影響を与える生物学的および技術的なプロセスには、コピー番号の変動、パラログのシーケンス、ライブラリの準備、シーケンスエラー、参照マッピングバイアスなどが含まれます。 結果:すべてのデータの読み取り深さを、ディリクレマルチノーム分布の混合としてモデル化し、以前に使用されたモデルで大幅に改善されました。ほとんどの場合、最良のモデルは2つの分布で構成されていました。主要成分分布は、誤差が低く、基準バイアスが低い二項分布に似ています。マイナーコンポーネント分布は、より高いエラーと参照バイアスで過剰に分類されます。また、マイナーコンポーネントに適合するサイトは、コピー数のバリエーションと低い複雑さの領域に濃縮されていることがわかりました。これにより、誤った遺伝子型呼び出しが生成される可能性があります。主要なコンポーネントに適合しないサイトを削除することにより、遺伝子型呼び出しの精度を向上させることができます。 可用性と実装:メソッドとデータファイルは、https://github.com/cartwrightlab/wuetal2017/(doi:10.5281/zenodo.256858)で入手できます。 連絡先:cartwright@asu.edu。 補足情報:補足データは、Bioinformatics Onlineで入手できます。
動機:遺伝子型の正確な識別は、シーケンス多型の特定、疾患とのリンク、変異率の決定など、ゲノムデータの分析の重要な部分です。ジェノタイピングに悪影響を与える生物学的および技術的なプロセスには、コピー番号の変動、パラログのシーケンス、ライブラリの準備、シーケンスエラー、参照マッピングバイアスなどが含まれます。 結果:すべてのデータの読み取り深さを、ディリクレマルチノーム分布の混合としてモデル化し、以前に使用されたモデルで大幅に改善されました。ほとんどの場合、最良のモデルは2つの分布で構成されていました。主要成分分布は、誤差が低く、基準バイアスが低い二項分布に似ています。マイナーコンポーネント分布は、より高いエラーと参照バイアスで過剰に分類されます。また、マイナーコンポーネントに適合するサイトは、コピー数のバリエーションと低い複雑さの領域に濃縮されていることがわかりました。これにより、誤った遺伝子型呼び出しが生成される可能性があります。主要なコンポーネントに適合しないサイトを削除することにより、遺伝子型呼び出しの精度を向上させることができます。 可用性と実装:メソッドとデータファイルは、https://github.com/cartwrightlab/wuetal2017/(doi:10.5281/zenodo.256858)で入手できます。 連絡先:cartwright@asu.edu。 補足情報:補足データは、Bioinformatics Onlineで入手できます。
MOTIVATION: Accurate identification of genotypes is an essential part of the analysis of genomic data, including in identification of sequence polymorphisms, linking mutations with disease and determining mutation rates. Biological and technical processes that adversely affect genotyping include copy-number-variation, paralogous sequences, library preparation, sequencing error and reference-mapping biases, among others. RESULTS: We modeled the read depth for all data as a mixture of Dirichlet-multinomial distributions, resulting in significant improvements over previously used models. In most cases the best model was comprised of two distributions. The major-component distribution is similar to a binomial distribution with low error and low reference bias. The minor-component distribution is overdispersed with higher error and reference bias. We also found that sites fitting the minor component are enriched for copy number variants and low complexity regions, which can produce erroneous genotype calls. By removing sites that do not fit the major component, we can improve the accuracy of genotype calls. AVAILABILITY AND IMPLEMENTATION: Methods and data files are available at https://github.com/CartwrightLab/WuEtAl2017/ (doi:10.5281/zenodo.256858). CONTACT: cartwright@asu.edu. SUPPLEMENTARY INFORMATION: Supplementary data is available at Bioinformatics online.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。