Loading...
RNA (New York, N.Y.)2012Feb01Vol.18issue(2)

最近傍モデルなどを含むRNA二次構造予測の複雑な確率モデルの範囲

,
,
,
文献タイプ:
  • Journal Article
  • Research Support, N.I.H., Extramural
  • Research Support, Non-U.S. Gov't
概要
Abstract

単一シーケンスRNA二次構造予測の標準的なアプローチは、数千の実験的に決定されたエネルギーパラメーターを備えた最近傍熱力学モデルを使用します。魅力的な選択肢は、構造RNAの成長データベースから推定されたパラメーターを使用して統計的アプローチを使用することです。Contrafold、Simfold、およびContextFoldを含む複雑な最近傍モデルを使用した識別統計的方法については、良好な結果が報告されています。確率モデルは一般にトレーニングと使用が容易ですが、同等の複雑さの生成確率モデル(確率的コンテキストフリーグラマー[SCFGS])についてはほとんど報告されていません。複雑さの増加の確率論的モデルの範囲を調査し、確率論的、熱力学的、識別的アプローチを直接比較するために、RNA文法アーキテクチャの広いスペクトルを解析できる計算ツール(標準的な最寄りのneighborモデルなどを含む竜巻を作成しました。)確率、エネルギー、または任意のスコアでパラメーター化できる一般化されたスーパーグラマーを使用します。竜巻を使用することにより、確率的な最近傍モデルは、識別方法と同等に機能することがわかります。複雑な統計モデルは、RNA構造に過度に適合する傾向があり、評価では構造的に非ホモロガストレーニングとテストデータセットを使用する必要があることがわかります。オーバーフィッティングは、少なくとも1つの公開された方法(ContextFold)に影響を与えました。RNA二次構造予測の統計的アプローチを改善するための最も重要な障壁は、現在のRNAデータベースにおける十分にキュレーションされた単一シーケンスRNA二次構造の多様性の欠如です。

単一シーケンスRNA二次構造予測の標準的なアプローチは、数千の実験的に決定されたエネルギーパラメーターを備えた最近傍熱力学モデルを使用します。魅力的な選択肢は、構造RNAの成長データベースから推定されたパラメーターを使用して統計的アプローチを使用することです。Contrafold、Simfold、およびContextFoldを含む複雑な最近傍モデルを使用した識別統計的方法については、良好な結果が報告されています。確率モデルは一般にトレーニングと使用が容易ですが、同等の複雑さの生成確率モデル(確率的コンテキストフリーグラマー[SCFGS])についてはほとんど報告されていません。複雑さの増加の確率論的モデルの範囲を調査し、確率論的、熱力学的、識別的アプローチを直接比較するために、RNA文法アーキテクチャの広いスペクトルを解析できる計算ツール(標準的な最寄りのneighborモデルなどを含む竜巻を作成しました。)確率、エネルギー、または任意のスコアでパラメーター化できる一般化されたスーパーグラマーを使用します。竜巻を使用することにより、確率的な最近傍モデルは、識別方法と同等に機能することがわかります。複雑な統計モデルは、RNA構造に過度に適合する傾向があり、評価では構造的に非ホモロガストレーニングとテストデータセットを使用する必要があることがわかります。オーバーフィッティングは、少なくとも1つの公開された方法(ContextFold)に影響を与えました。RNA二次構造予測の統計的アプローチを改善するための最も重要な障壁は、現在のRNAデータベースにおける十分にキュレーションされた単一シーケンスRNA二次構造の多様性の欠如です。

The standard approach for single-sequence RNA secondary structure prediction uses a nearest-neighbor thermodynamic model with several thousand experimentally determined energy parameters. An attractive alternative is to use statistical approaches with parameters estimated from growing databases of structural RNAs. Good results have been reported for discriminative statistical methods using complex nearest-neighbor models, including CONTRAfold, Simfold, and ContextFold. Little work has been reported on generative probabilistic models (stochastic context-free grammars [SCFGs]) of comparable complexity, although probabilistic models are generally easier to train and to use. To explore a range of probabilistic models of increasing complexity, and to directly compare probabilistic, thermodynamic, and discriminative approaches, we created TORNADO, a computational tool that can parse a wide spectrum of RNA grammar architectures (including the standard nearest-neighbor model and more) using a generalized super-grammar that can be parameterized with probabilities, energies, or arbitrary scores. By using TORNADO, we find that probabilistic nearest-neighbor models perform comparably to (but not significantly better than) discriminative methods. We find that complex statistical models are prone to overfitting RNA structure and that evaluations should use structurally nonhomologous training and test data sets. Overfitting has affected at least one published method (ContextFold). The most important barrier to improving statistical approaches for RNA secondary structure prediction is the lack of diversity of well-curated single-sequence RNA secondary structures in current RNA databases.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google