Loading...
Computers in biology and medicine2020Jan01Vol.116issue()

RNA-seqのマッピングは、ハッシュメソッドの学習に基づいてトランスクリプトームに効率的に読み取ります

,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
  • Review
概要
Abstract

正確で効率的な読み取り整列は、RNA-seq分析の基本的な課題の1つです。RNA-seq実験から生成される読み取りがますます多くなっているため、読み取り調整は時間のかかる作業です。多くのマッパーは、許容できる時間内に読み取りの潜在的なアライメント位置を探すためにさまざまな戦略を採用し、ダウンストリーム分析に適切な情報を提供しました。しかし、トランスクリプトームの定量化などのいくつかの転写分析タスクでは、読み取りの転写と位置に関するマッピング情報で十分です。したがって、読み取りはトランスクリプトームに連続的にマッピングできるため、元のアライメントの問題は文字列検索の問題に簡素化できます。転写分析のための一部のモデルは、この単純化された問題を解決するためのより効率的な戦略を採用していますが、元の読み取り空間でRNA-seqデータを処理することにより、効率は依然として制限されています。トランスクリプトームへの読み取りをマッピングするためのハッシュアルゴリズムの学習に基づいて、メソッド、ビットマッピングを提案します。トランスクリプトームからハッシュ機能を学習し、シーケンスのバイナリハッシュコードを生成し、マップはハッシュコードに従ってトランスクリプトームに読み取ります。ビットマッピングは、読み取りの次元を削減することにより、RNA-seq分析のマッピング問題を加速します。シミュレートされたデータと実際のデータに基づいてビットマッピングのパフォーマンスを評価し、他の一般的で最先端の方法、Star、Rapmap、Bowtie 2およびHisat 2と比較します。この方法の精度は、特に長い読み取り(¿100 bp)のマッピング効率の点で既存のマッパーと競合していることを示します。

正確で効率的な読み取り整列は、RNA-seq分析の基本的な課題の1つです。RNA-seq実験から生成される読み取りがますます多くなっているため、読み取り調整は時間のかかる作業です。多くのマッパーは、許容できる時間内に読み取りの潜在的なアライメント位置を探すためにさまざまな戦略を採用し、ダウンストリーム分析に適切な情報を提供しました。しかし、トランスクリプトームの定量化などのいくつかの転写分析タスクでは、読み取りの転写と位置に関するマッピング情報で十分です。したがって、読み取りはトランスクリプトームに連続的にマッピングできるため、元のアライメントの問題は文字列検索の問題に簡素化できます。転写分析のための一部のモデルは、この単純化された問題を解決するためのより効率的な戦略を採用していますが、元の読み取り空間でRNA-seqデータを処理することにより、効率は依然として制限されています。トランスクリプトームへの読み取りをマッピングするためのハッシュアルゴリズムの学習に基づいて、メソッド、ビットマッピングを提案します。トランスクリプトームからハッシュ機能を学習し、シーケンスのバイナリハッシュコードを生成し、マップはハッシュコードに従ってトランスクリプトームに読み取ります。ビットマッピングは、読み取りの次元を削減することにより、RNA-seq分析のマッピング問題を加速します。シミュレートされたデータと実際のデータに基づいてビットマッピングのパフォーマンスを評価し、他の一般的で最先端の方法、Star、Rapmap、Bowtie 2およびHisat 2と比較します。この方法の精度は、特に長い読み取り(¿100 bp)のマッピング効率の点で既存のマッパーと競合していることを示します。

Accurate and efficient read-alignment is one of the fundamental challenges in RNA-seq analysis. Due to the increasingly large number of reads generated from the RNA-seq experiments, read-alignment is a time-consuming task. Many mappers adopted various strategies to look for potential alignment locations for reads in a tolerable time, and provide adequate information for downstream analysis. But in some transcript analysis tasks, such as transcriptome quantification, the mapping information about the transcripts and positions for reads is sufficient. Thus the original alignment problem can be simplified to a string searching problem since the reads can be mapped contiguously to the transcriptome. Some models for transcript analysis adopt more efficient strategies to solve this simplified problem, but the efficiency is still restricted by handling RNA-seq data in the original read space. We propose a method, bit-mapping, based on learning to hash algorithm for mapping reads to the transcriptome. It learns hash functions from the transcriptome and generates binary hash codes of the sequences, then maps reads to the transcriptome according to their hash codes. Bit-mapping accelerates mapping problems in RNA-seq analysis by reducing the dimension of the read. We evaluate the performance of bit-mapping based on simulated data and real data, and compare it with other popular and state-of-the-art methods, STAR, RapMap, Bowtie 2 and HISAT 2. The comparative results of simulated and real data show that the accuracy of our method is competitive to the existing mappers in terms of mapping efficiency, especially for longer reads (¿ 100 bp).

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google