Loading...
Genes2021Mar25Vol.12issue(4)

RNA分岐予測の改善:進歩と制限

,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, U.S. Gov't, Non-P.H.S.
概要
Abstract

RNA二次構造の最小自由エネルギー予測は、最近隣接する熱力学モデルに基づいています。そのような予測は通常良好ですが、短いシーケンスでも精度は大きく異なる場合があり、分岐熱力学はこの分散の重要な要因です。最近、MultiLoopエネルギーの最も単純なモデル - 枝の数と対応のないヌクレオチドの数の線形関数 - 最良であることがわかった。その後、パラメトリック分析により、この線形関数の重みを変更することにより、家族ごとの精度が改善できることが実証されました。ただし、新しいパラメーターを見つけるために使用されるアドホックメソッドのために、改善の程度は知られていませんでした。ここでは、特定の一連のシーケンスの平均精度が最も高い最適パラメーターのセットを見つけるブランチアンドバインドアルゴリズムを開発します。私たちの分析は、以前のアドホックパラメーターが、トレーニングセットとテストセットの両方でTRNAおよび5S RRNA配列にほぼ最適であることを示しています。さらに、競合するパラメーター領域が異なる家族を支持するため、家族を横断する改善が可能ですが、より困難です。結果はまた、不対のヌクレオチドペナルティを小さな値に制限することが保証されていることを示しています。この削減により、現在の手法を使用してより長いシーケンスを分析できます。

RNA二次構造の最小自由エネルギー予測は、最近隣接する熱力学モデルに基づいています。そのような予測は通常良好ですが、短いシーケンスでも精度は大きく異なる場合があり、分岐熱力学はこの分散の重要な要因です。最近、MultiLoopエネルギーの最も単純なモデル - 枝の数と対応のないヌクレオチドの数の線形関数 - 最良であることがわかった。その後、パラメトリック分析により、この線形関数の重みを変更することにより、家族ごとの精度が改善できることが実証されました。ただし、新しいパラメーターを見つけるために使用されるアドホックメソッドのために、改善の程度は知られていませんでした。ここでは、特定の一連のシーケンスの平均精度が最も高い最適パラメーターのセットを見つけるブランチアンドバインドアルゴリズムを開発します。私たちの分析は、以前のアドホックパラメーターが、トレーニングセットとテストセットの両方でTRNAおよび5S RRNA配列にほぼ最適であることを示しています。さらに、競合するパラメーター領域が異なる家族を支持するため、家族を横断する改善が可能ですが、より困難です。結果はまた、不対のヌクレオチドペナルティを小さな値に制限することが保証されていることを示しています。この削減により、現在の手法を使用してより長いシーケンスを分析できます。

Minimum free energy prediction of RNA secondary structures is based on the Nearest Neighbor Thermodynamics Model. While such predictions are typically good, the accuracy can vary widely even for short sequences, and the branching thermodynamics are an important factor in this variance. Recently, the simplest model for multiloop energetics-a linear function of the number of branches and unpaired nucleotides-was found to be the best. Subsequently, a parametric analysis demonstrated that per family accuracy can be improved by changing the weightings in this linear function. However, the extent of improvement was not known due to the ad hoc method used to find the new parameters. Here we develop a branch-and-bound algorithm that finds the set of optimal parameters with the highest average accuracy for a given set of sequences. Our analysis shows that the previous ad hoc parameters are nearly optimal for tRNA and 5S rRNA sequences on both training and testing sets. Moreover, cross-family improvement is possible but more difficult because competing parameter regions favor different families. The results also indicate that restricting the unpaired nucleotide penalty to small values is warranted. This reduction makes analyzing longer sequences using the present techniques more feasible.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google