Loading...
BMC bioinformatics2019Dec02Vol.20issue(Suppl 16)

仮想グリッドエンジン:大規模なスーパーコンピューター用のシミュレートされたグリッドエンジン環境

,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景:スーパーコンピューターは、科学と産業の不可欠なインフラストラクチャになっています。特に、最先端の科学的結果のほとんどは、上位500にランクされた大規模な並列スーパーコンピューターを利用しています。ただし、グリッドエンジンの非同期並列処理サービスが提供されていないという基本的な事実により、バイオインフォマティクス分野での使用は依然として制限されています。バイオインフォマティクスでの大規模な並列スーパーコンピューターの使用を奨励するために、Software PipelinesがMPIプログラムとしてタスクを自動的に実行できるようにするVirtual Grid Engineと呼ばれるミドルウェアを開発しました。 結果:VGEによる労働者にジョブを割り当てるのに必要な時間を確認するために、基本的なテストを実施しました。結果は、採用されたアルゴリズムのオーバーヘッドが246マイクロ秒であり、当社のソフトウェアがKコンピューターで数千のジョブをスムーズに管理できることを示しました。また、バイオインフォマティクス分野で実用的なテストを試みました。このテストには、入力FASTQデータの分割とBWAアラインメントの2つのタスクが含まれていました。この計算には25,055ノード(2,000,440コア)を使用し、3時間で達成しました。 結論:この種のソフトウェア、非プリビレジサーバープログラム、複数のジョブ処理、依存関係の制御、およびユーザビリティには4つの重要な要件があると考えました。すべての要件を慎重に設計および確認しました。そして、このソフトウェアはすべての要件を満たし、大規模な分析で優れたパフォーマンスを達成しました。

背景:スーパーコンピューターは、科学と産業の不可欠なインフラストラクチャになっています。特に、最先端の科学的結果のほとんどは、上位500にランクされた大規模な並列スーパーコンピューターを利用しています。ただし、グリッドエンジンの非同期並列処理サービスが提供されていないという基本的な事実により、バイオインフォマティクス分野での使用は依然として制限されています。バイオインフォマティクスでの大規模な並列スーパーコンピューターの使用を奨励するために、Software PipelinesがMPIプログラムとしてタスクを自動的に実行できるようにするVirtual Grid Engineと呼ばれるミドルウェアを開発しました。 結果:VGEによる労働者にジョブを割り当てるのに必要な時間を確認するために、基本的なテストを実施しました。結果は、採用されたアルゴリズムのオーバーヘッドが246マイクロ秒であり、当社のソフトウェアがKコンピューターで数千のジョブをスムーズに管理できることを示しました。また、バイオインフォマティクス分野で実用的なテストを試みました。このテストには、入力FASTQデータの分割とBWAアラインメントの2つのタスクが含まれていました。この計算には25,055ノード(2,000,440コア)を使用し、3時間で達成しました。 結論:この種のソフトウェア、非プリビレジサーバープログラム、複数のジョブ処理、依存関係の制御、およびユーザビリティには4つの重要な要件があると考えました。すべての要件を慎重に設計および確認しました。そして、このソフトウェアはすべての要件を満たし、大規模な分析で優れたパフォーマンスを達成しました。

BACKGROUND: Supercomputers have become indispensable infrastructures in science and industries. In particular, most state-of-the-art scientific results utilize massively parallel supercomputers ranked in TOP500. However, their use is still limited in the bioinformatics field due to the fundamental fact that the asynchronous parallel processing service of Grid Engine is not provided on them. To encourage the use of massively parallel supercomputers in bioinformatics, we developed middleware called Virtual Grid Engine, which enables software pipelines to automatically perform their tasks as MPI programs. RESULT: We conducted basic tests to check the time required to assign jobs to workers by VGE. The results showed that the overhead of the employed algorithm was 246 microseconds and our software can manage thousands of jobs smoothly on the K computer. We also tried a practical test in the bioinformatics field. This test included two tasks, the split and BWA alignment of input FASTQ data. 25,055 nodes (2,000,440 cores) were used for this calculation and accomplished it in three hours. CONCLUSION: We considered that there were four important requirements for this kind of software, non-privilege server program, multiple job handling, dependency control, and usability. We carefully designed and checked all requirements. And this software fulfilled all the requirements and achieved good performance in a large scale analysis.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google