Loading...
IEEE/ACM transactions on computational biology and bioinformatics20230101Vol.20issue(3)

rabbitfx:最新のマルチコアプラットフォームでのFASTA/Qファイルの解析のための効率的なフレームワーク

,
,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

生成されたシーケンスデータの継続的な成長は、さまざまな関連バイオインフォマティクスツールの開発につながります。ただし、それらの多くは、ファイルを解析することでボトルネックされているため、実行時間が遅くなるため、最新のマルチコアシステムのリソースを完全に活用することはできません。これにより、特に高速ストレージデバイスを備えた最新のCPUの場合、最新のハードウェアのパワーを活用できる配列決定データを解析するための効率的な方法の設計を動機付けます。RabbitFxを開発しました。これは、最新のマルチコアプラットフォームで生物学的シーケンスデータを処理するための高速で効率的で使いやすいフレームワークです。最適化されたフォーマットの実装を使用して、軽量の解析方法を組み合わせることにより、FASTAおよびFASTQファイルを効率的に読み取ることができます。さらに、ファイルの解析速度を上げるためにアプリケーションに簡単に統合できるユーザーフレンドリーでモジュール化されたC ++ APIを提供します。概念実証として、rabbitfxを3つのI/O集約型アプリケーションに統合しました:FASTP、KTRIM、およびMASH。私たちの評価は、RabbitFXを含めると、それぞれPlain(GZIP圧縮)ファイルの元のバージョンと比較して、少なくとも11.6(6.6)、2.4(2.4)、および3.7(3.2)のスピードアップにつながることが示されています。これらのケーススタディは、RabbitFXをさまざまなNGS分析ツールに簡単に統合して、関連するランタイムを大幅に削減できることを示しています。https://github.com/rabbitbio/rabbitfxで入手できるオープンソースソフトウェアです。

生成されたシーケンスデータの継続的な成長は、さまざまな関連バイオインフォマティクスツールの開発につながります。ただし、それらの多くは、ファイルを解析することでボトルネックされているため、実行時間が遅くなるため、最新のマルチコアシステムのリソースを完全に活用することはできません。これにより、特に高速ストレージデバイスを備えた最新のCPUの場合、最新のハードウェアのパワーを活用できる配列決定データを解析するための効率的な方法の設計を動機付けます。RabbitFxを開発しました。これは、最新のマルチコアプラットフォームで生物学的シーケンスデータを処理するための高速で効率的で使いやすいフレームワークです。最適化されたフォーマットの実装を使用して、軽量の解析方法を組み合わせることにより、FASTAおよびFASTQファイルを効率的に読み取ることができます。さらに、ファイルの解析速度を上げるためにアプリケーションに簡単に統合できるユーザーフレンドリーでモジュール化されたC ++ APIを提供します。概念実証として、rabbitfxを3つのI/O集約型アプリケーションに統合しました:FASTP、KTRIM、およびMASH。私たちの評価は、RabbitFXを含めると、それぞれPlain(GZIP圧縮)ファイルの元のバージョンと比較して、少なくとも11.6(6.6)、2.4(2.4)、および3.7(3.2)のスピードアップにつながることが示されています。これらのケーススタディは、RabbitFXをさまざまなNGS分析ツールに簡単に統合して、関連するランタイムを大幅に削減できることを示しています。https://github.com/rabbitbio/rabbitfxで入手できるオープンソースソフトウェアです。

The continuous growth of generated sequencing data leads to the development of a variety of associated bioinformatics tools. However, many of them are not able to fully exploit the resources of modern multi-core systems since they are bottlenecked by parsing files leading to slow execution times. This motivates the design of an efficient method for parsing sequencing data that can exploit the power of modern hardware, especially for modern CPUs with fast storage devices. We have developed RabbitFX, a fast, efficient, and easy-to-use framework for processing biological sequencing data on modern multi-core platforms. It can efficiently read FASTA and FASTQ files by combining a lightweight parsing method by means of an optimized formatting implementation. Furthermore, we provide user-friendly and modularized C++ APIs that can be easily integrated into applications in order to increase their file parsing speed. As proof-of-concept, we have integrated RabbitFX into three I/O-intensive applications: fastp, Ktrim, and Mash. Our evaluation shows that the inclusion of RabbitFX leads to speedups of at least 11.6 (6.6), 2.4 (2.4), and 3.7 (3.2) compared to the original versions on plain (gzip-compressed) files, respectively. These case studies demonstrate that RabbitFX can be easily integrated into a variety of NGS analysis tools to significantly reduce associated runtimes. It is open source software available at https://github.com/RabbitBio/RabbitFX.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google