著名医師による解説が無料で読めます
すると翻訳の精度が向上します
ゲノムグラフは、ハイスループットのヒトシーケンスデータの分析に対する重要な斬新なアプローチとして浮上しています。マッピング可能なデータ構造における遺伝的変異と代替ハプロタイプを明示的に表すことにより、ゲノムの構造的に可変的で高ポリモルフィ領域の改善された分析を可能にすることができます。ほとんどの既存のアプローチでは、グラフは、短い読み取りシーケンスから派生したバリアントコールセットから構築されています。長い読み取りシーケンスがより費用対効果が高くなり、ゲノム全体の数を増やすためにde novoアセンブリを可能にするにつれて、組み立てられたヒトゲノムのセットからゲノムグラフを直接構築する方法が望ましいでしょう。このようなアセンブリベースのゲノムグラフは、大きな構造変異体や分岐ハプロタイプを含む、長期にわたるde novoアセンブリがアクセスできる幅広いスペクトルの遺伝的変異を網羅します。ここでは、de novoアセンブリのセットから直接ヒトゲノムグラフを構築する方法であるNovographを紹介します。ノバグラフは、すべての入力コンティグのゲノム全体の複数のシーケンスアラインメントを構築し、相同およびシーケンス同一の両方の位置で入力シーケンスをマージすることによりグラフを作成します。Novograph出力は、サードパーティのゲノムグラフツールキットにロードできるVCF形式のグラフを生成します。ノバグラフを実証するために、7つの民族的に多様なヒトゲノム(AK1、CHM1、HG003、HG003、HG004、HG004、HX1、NA19240)のde novoアセンブリからの23,478,835のバリアントサイトと30,582,795のバリアント対立遺伝子を備えたゲノムグラフを構築します。初期評価は、構築されたグラフに対するマッピングにより、サンプルNA12878の読み取りの平均ミスマッチ率が約0.2%減少することを示しています。
ゲノムグラフは、ハイスループットのヒトシーケンスデータの分析に対する重要な斬新なアプローチとして浮上しています。マッピング可能なデータ構造における遺伝的変異と代替ハプロタイプを明示的に表すことにより、ゲノムの構造的に可変的で高ポリモルフィ領域の改善された分析を可能にすることができます。ほとんどの既存のアプローチでは、グラフは、短い読み取りシーケンスから派生したバリアントコールセットから構築されています。長い読み取りシーケンスがより費用対効果が高くなり、ゲノム全体の数を増やすためにde novoアセンブリを可能にするにつれて、組み立てられたヒトゲノムのセットからゲノムグラフを直接構築する方法が望ましいでしょう。このようなアセンブリベースのゲノムグラフは、大きな構造変異体や分岐ハプロタイプを含む、長期にわたるde novoアセンブリがアクセスできる幅広いスペクトルの遺伝的変異を網羅します。ここでは、de novoアセンブリのセットから直接ヒトゲノムグラフを構築する方法であるNovographを紹介します。ノバグラフは、すべての入力コンティグのゲノム全体の複数のシーケンスアラインメントを構築し、相同およびシーケンス同一の両方の位置で入力シーケンスをマージすることによりグラフを作成します。Novograph出力は、サードパーティのゲノムグラフツールキットにロードできるVCF形式のグラフを生成します。ノバグラフを実証するために、7つの民族的に多様なヒトゲノム(AK1、CHM1、HG003、HG003、HG004、HG004、HX1、NA19240)のde novoアセンブリからの23,478,835のバリアントサイトと30,582,795のバリアント対立遺伝子を備えたゲノムグラフを構築します。初期評価は、構築されたグラフに対するマッピングにより、サンプルNA12878の読み取りの平均ミスマッチ率が約0.2%減少することを示しています。
Genome graphs are emerging as an important novel approach to the analysis of high-throughput human sequencing data. By explicitly representing genetic variants and alternative haplotypes in a mappable data structure, they can enable the improved analysis of structurally variable and hyperpolymorphic regions of the genome. In most existing approaches, graphs are constructed from variant call sets derived from short-read sequencing. As long-read sequencing becomes more cost-effective and enables de novo assembly for increasing numbers of whole genomes, a method for the direct construction of a genome graph from sets of assembled human genomes would be desirable. Such assembly-based genome graphs would encompass the wide spectrum of genetic variation accessible to long-read-based de novo assembly, including large structural variants and divergent haplotypes. Here we present NovoGraph, a method for the construction of a human genome graph directly from a set of de novo assemblies. NovoGraph constructs a genome-wide multiple sequence alignment of all input contigs and creates a graph by merging the input sequences at positions that are both homologous and sequence-identical. NovoGraph outputs resulting graphs in VCF format that can be loaded into third-party genome graph toolkits. To demonstrate NovoGraph, we construct a genome graph with 23,478,835 variant sites and 30,582,795 variant alleles from de novo assemblies of seven ethnically diverse human genomes (AK1, CHM1, CHM13, HG003, HG004, HX1, NA19240). Initial evaluations show that mapping against the constructed graph reduces the average mismatch rate of reads from sample NA12878 by approximately 0.2%, albeit at a slightly increased rate of reads that remain unmapped.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。