Loading...
bioRxiv : the preprint server for biology2024Feb29Vol.issue()

Braker3:Genemark-ETP、Augustus、Tsebraを使用したRNA-seqおよびタンパク質の証拠を使用した完全に自動化されたゲノム注釈

,
,
,
,
,
,
,
文献タイプ:
  • Preprint
概要
Abstract

遺伝子予測は、長い間バイオインフォマティクス研究の活発な領域であり続けています。それでも、大きな真核生物ゲノムの遺伝子予測は、新しいアルゴリズムで対処しなければならない課題を提示します。トランスクリプトームとプロテオームから利用可能な証拠の量と重要性は、ゲノム間、遺伝子間、さらには単一の遺伝子に沿って異なります。このようなデータの不均一性に対処できるユーザーフレンドリーで正確な注釈パイプラインが必要です。以前に開発されたアノテーションパイプラインBraker1とBraker2は、それぞれRNA-Seqまたはタンパク質データを使用していますが、両方ではありません。3つのデータ型すべてを統合する最近リリースされたGeneMark-ETPによって、さらに大幅なパフォーマンス改善が行われました。ここでは、Genemark-ETPとAuguartusに基づいて構築され、Tsebraコンバイナーを使用して精度をさらに向上させるBraker3パイプラインを紹介します。BRAKER3は、短縮RNA-SEQと大タンパク質データベースの両方を使用して、真核生物ゲノムのタンパク質コーディング遺伝子と、ターゲットゲノムのために繰り返しおよび特異的に学習した統計モデルとともに注釈を付けます。ターゲット種プロテオームの関連性の関連性のあるレベルの下で、11種のゲノムに関する新しいパイプラインを利用可能なプロテオームとベンチマークしました。Braker3はBraker1とBraker2を上回りました。平均転写産物レベルのF1スコアは平均で約20パーセントポイント増加しましたが、大きく複雑なゲノムを持つ種ではこの差は最も顕著でした。Braker3は、他の既存のツール、Maker2、Funannotate、Finderも上回りました。Braker3のコードは、Githubで、DockerまたはSingularityを使用して実行するために、すぐに実行できるDockerコンテナとして入手できます。全体として、Braker3は、真核生物のゲノム注釈のための正確で使いやすいツールです。

遺伝子予測は、長い間バイオインフォマティクス研究の活発な領域であり続けています。それでも、大きな真核生物ゲノムの遺伝子予測は、新しいアルゴリズムで対処しなければならない課題を提示します。トランスクリプトームとプロテオームから利用可能な証拠の量と重要性は、ゲノム間、遺伝子間、さらには単一の遺伝子に沿って異なります。このようなデータの不均一性に対処できるユーザーフレンドリーで正確な注釈パイプラインが必要です。以前に開発されたアノテーションパイプラインBraker1とBraker2は、それぞれRNA-Seqまたはタンパク質データを使用していますが、両方ではありません。3つのデータ型すべてを統合する最近リリースされたGeneMark-ETPによって、さらに大幅なパフォーマンス改善が行われました。ここでは、Genemark-ETPとAuguartusに基づいて構築され、Tsebraコンバイナーを使用して精度をさらに向上させるBraker3パイプラインを紹介します。BRAKER3は、短縮RNA-SEQと大タンパク質データベースの両方を使用して、真核生物ゲノムのタンパク質コーディング遺伝子と、ターゲットゲノムのために繰り返しおよび特異的に学習した統計モデルとともに注釈を付けます。ターゲット種プロテオームの関連性の関連性のあるレベルの下で、11種のゲノムに関する新しいパイプラインを利用可能なプロテオームとベンチマークしました。Braker3はBraker1とBraker2を上回りました。平均転写産物レベルのF1スコアは平均で約20パーセントポイント増加しましたが、大きく複雑なゲノムを持つ種ではこの差は最も顕著でした。Braker3は、他の既存のツール、Maker2、Funannotate、Finderも上回りました。Braker3のコードは、Githubで、DockerまたはSingularityを使用して実行するために、すぐに実行できるDockerコンテナとして入手できます。全体として、Braker3は、真核生物のゲノム注釈のための正確で使いやすいツールです。

Gene prediction has remained an active area of bioinformatics research for a long time. Still, gene prediction in large eukaryotic genomes presents a challenge that must be addressed by new algorithms. The amount and significance of the evidence available from transcriptomes and proteomes vary across genomes, between genes and even along a single gene. User-friendly and accurate annotation pipelines that can cope with such data heterogeneity are needed. The previously developed annotation pipelines BRAKER1 and BRAKER2 use RNA-seq or protein data, respectively, but not both. A further significant performance improvement was made by the recently released GeneMark-ETP integrating all three data types. We here present the BRAKER3 pipeline that builds on GeneMark-ETP and AUGUSTUS and further improves accuracy using the TSEBRA combiner. BRAKER3 annotates protein-coding genes in eukaryotic genomes using both short-read RNA-seq and a large protein database, along with statistical models learned iteratively and specifically for the target genome. We benchmarked the new pipeline on genomes of 11 species under assumed level of relatedness of the target species proteome to available proteomes. BRAKER3 outperformed BRAKER1 and BRAKER2. The average transcript-level F1-score was increased by ~20 percentage points on average, while the difference was most pronounced for species with large and complex genomes. BRAKER3 also outperformed other existing tools, MAKER2, Funannotate and FINDER. The code of BRAKER3 is available on GitHub and as a ready-to-run Docker container for execution with Docker or Singularity. Overall, BRAKER3 is an accurate, easy-to-use tool for eukaryotic genome annotation.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google