Loading...
Bioinformatics (Oxford, England)2010Apr01Vol.26issue(7)

TM スコア = 05 のタンパク質構造の類似性はどの程度重要ですか?

,
,
文献タイプ:
  • Journal Article
  • Research Support, N.I.H., Extramural
  • Research Support, Non-U.S. Gov't
  • Research Support, U.S. Gov't, Non-P.H.S.
概要
Abstract

動機:タンパク質構造の類似性は、しばしばルート平均四角偏差、グローバル距離テストスコア、テンプレートモデリングスコア(TMスコア)によって測定されます。ただし、スコア自体は、構造の類似性がどれほど重要であるかについての情報を提供することはできません。また、スコアと従来のフォールド分類の間に定量的な関係がありません。この記事は、2つの質問に答えることを目的としています。(i)TMスコアの統計的有意性は何ですか?(ii)特定のTMスコアを与えられた2つのタンパク質が同じ折り目を持つ可能性はどのくらいですか? 結果:最初に、PDBの6684個の非相対的単一ドメインタンパク質で、すべてのギャップレス構造マッチを行い、TMスコアが極端な値分布に従うことを発見しました。このデータを使用すると、各TMスコアを等しいTMスコアまたはより高いTMスコアを得る2つのランダムに選択されたタンパク質の可能性を測定するP値を割り当てることができます。たとえば、0.5のTMスコアでは、そのp値は5.5 x 10(-7)です。つまり、0.5以上のTMスコアを取得するには、少なくとも180万のランダムタンパク質ペアを考慮する必要があります。第二に、3つのデータセットSCOP、CATH、およびSCOPとCATHのコンセンサスから同じフォールドタンパク質の事後確率を調べます。異なるデータセットからの事後確率は、TMスコア= 0.5の周りに同様の急速な位相遷移を持っていることがわかります。この発見は、TMスコアをタンパク質トポロジー分類の近似的だが定量的な基準として使用できることを示しています。同じ折り目。

動機:タンパク質構造の類似性は、しばしばルート平均四角偏差、グローバル距離テストスコア、テンプレートモデリングスコア(TMスコア)によって測定されます。ただし、スコア自体は、構造の類似性がどれほど重要であるかについての情報を提供することはできません。また、スコアと従来のフォールド分類の間に定量的な関係がありません。この記事は、2つの質問に答えることを目的としています。(i)TMスコアの統計的有意性は何ですか?(ii)特定のTMスコアを与えられた2つのタンパク質が同じ折り目を持つ可能性はどのくらいですか? 結果:最初に、PDBの6684個の非相対的単一ドメインタンパク質で、すべてのギャップレス構造マッチを行い、TMスコアが極端な値分布に従うことを発見しました。このデータを使用すると、各TMスコアを等しいTMスコアまたはより高いTMスコアを得る2つのランダムに選択されたタンパク質の可能性を測定するP値を割り当てることができます。たとえば、0.5のTMスコアでは、そのp値は5.5 x 10(-7)です。つまり、0.5以上のTMスコアを取得するには、少なくとも180万のランダムタンパク質ペアを考慮する必要があります。第二に、3つのデータセットSCOP、CATH、およびSCOPとCATHのコンセンサスから同じフォールドタンパク質の事後確率を調べます。異なるデータセットからの事後確率は、TMスコア= 0.5の周りに同様の急速な位相遷移を持っていることがわかります。この発見は、TMスコアをタンパク質トポロジー分類の近似的だが定量的な基準として使用できることを示しています。同じ折り目。

MOTIVATION: Protein structure similarity is often measured by root mean squared deviation, global distance test score and template modeling score (TM-score). However, the scores themselves cannot provide information on how significant the structural similarity is. Also, it lacks a quantitative relation between the scores and conventional fold classifications. This article aims to answer two questions: (i) what is the statistical significance of TM-score? (ii) What is the probability of two proteins having the same fold given a specific TM-score? RESULTS: We first made an all-to-all gapless structural match on 6684 non-homologous single-domain proteins in the PDB and found that the TM-scores follow an extreme value distribution. The data allow us to assign each TM-score a P-value that measures the chance of two randomly selected proteins obtaining an equal or higher TM-score. With a TM-score at 0.5, for instance, its P-value is 5.5 x 10(-7), which means we need to consider at least 1.8 million random protein pairs to acquire a TM-score of no less than 0.5. Second, we examine the posterior probability of the same fold proteins from three datasets SCOP, CATH and the consensus of SCOP and CATH. It is found that the posterior probability from different datasets has a similar rapid phase transition around TM-score=0.5. This finding indicates that TM-score can be used as an approximate but quantitative criterion for protein topology classification, i.e. protein pairs with a TM-score >0.5 are mostly in the same fold while those with a TM-score <0.5 are mainly not in the same fold.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google