Loading...
Structure (London, England : 1993)1997Aug15Vol.5issue(8)

CATH-タンパク質ドメイン構造の階層分類

,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

背景:タンパク質の進化により、構造的に関連するタンパク質のファミリーが生じます。その結果、構造ベースの分類は、既知の構造における予期しない関係を特定するのに効果的であり、最適な場合は機能も割り当てることができます。既知のタンパク質構造の数が増え続けることは、すべてのタンパク質を手動で分類するには大きすぎるため、タンパク質構造の迅速な評価には自動的な方法が必要です。 結果:タンパク質ドメイン構造(CATH)の新しい階層分類を導出するための半自動手順を提示します。分類の4つの主なレベルは、タンパク質クラス(C)、アーキテクチャ(A)、トポロジ(T)、および相同スーパーファミリー(H)です。クラスは最も単純なレベルであり、基本的に各ドメインの二次構造構成を説明しています。対照的に、アーキテクチャは、樽やサンドイッチなどの二次構造単位の方向によって明らかにされる形状を要約しています。トポロジレベルでは、同じアーキテクチャのメンバーがまったく異なるトポロジを持つ可能性があるように、順次接続性が考慮されます。同じTレベルに属する構造が同様の機能と組み合わせた適切に高い類似性を持っている場合、タンパク質は進化的に関連していると想定され、同じ相同スーパーファミリーに入れられます。 結論:CATHによって生成された構造ファミリの分析により、タンパク質構造空間の顕著な特徴が明らかになります。相同スーパーファミリー(Hレベル)のほぼ3分の1が10個の主要なTレベルに属し、これをスーパーフォールドと呼び、さらにこれらのHレベルの3分の2近くが9つの単純なアーキテクチャに属していることがわかります。CATHなどのよく特徴付けられたタンパク質構造ファミリーのデータベースは、既知のタンパク質構造と新たに決定されたタンパク質構造の両方に構造機能/進化関係を割り当てることを促進します。

背景:タンパク質の進化により、構造的に関連するタンパク質のファミリーが生じます。その結果、構造ベースの分類は、既知の構造における予期しない関係を特定するのに効果的であり、最適な場合は機能も割り当てることができます。既知のタンパク質構造の数が増え続けることは、すべてのタンパク質を手動で分類するには大きすぎるため、タンパク質構造の迅速な評価には自動的な方法が必要です。 結果:タンパク質ドメイン構造(CATH)の新しい階層分類を導出するための半自動手順を提示します。分類の4つの主なレベルは、タンパク質クラス(C)、アーキテクチャ(A)、トポロジ(T)、および相同スーパーファミリー(H)です。クラスは最も単純なレベルであり、基本的に各ドメインの二次構造構成を説明しています。対照的に、アーキテクチャは、樽やサンドイッチなどの二次構造単位の方向によって明らかにされる形状を要約しています。トポロジレベルでは、同じアーキテクチャのメンバーがまったく異なるトポロジを持つ可能性があるように、順次接続性が考慮されます。同じTレベルに属する構造が同様の機能と組み合わせた適切に高い類似性を持っている場合、タンパク質は進化的に関連していると想定され、同じ相同スーパーファミリーに入れられます。 結論:CATHによって生成された構造ファミリの分析により、タンパク質構造空間の顕著な特徴が明らかになります。相同スーパーファミリー(Hレベル)のほぼ3分の1が10個の主要なTレベルに属し、これをスーパーフォールドと呼び、さらにこれらのHレベルの3分の2近くが9つの単純なアーキテクチャに属していることがわかります。CATHなどのよく特徴付けられたタンパク質構造ファミリーのデータベースは、既知のタンパク質構造と新たに決定されたタンパク質構造の両方に構造機能/進化関係を割り当てることを促進します。

BACKGROUND: Protein evolution gives rise to families of structurally related proteins, within which sequence identities can be extremely low. As a result, structure-based classifications can be effective at identifying unanticipated relationships in known structures and in optimal cases function can also be assigned. The ever increasing number of known protein structures is too large to classify all proteins manually, therefore, automatic methods are needed for fast evaluation of protein structures. RESULTS: We present a semi-automatic procedure for deriving a novel hierarchical classification of protein domain structures (CATH). The four main levels of our classification are protein class (C), architecture (A), topology (T) and homologous superfamily (H). Class is the simplest level, and it essentially describes the secondary structure composition of each domain. In contrast, architecture summarises the shape revealed by the orientations of the secondary structure units, such as barrels and sandwiches. At the topology level, sequential connectivity is considered, such that members of the same architecture might have quite different topologies. When structures belonging to the same T-level have suitably high similarities combined with similar functions, the proteins are assumed to be evolutionarily related and put into the same homologous superfamily. CONCLUSIONS: Analysis of the structural families generated by CATH reveals the prominent features of protein structure space. We find that nearly a third of the homologous superfamilies (H-levels) belong to ten major T-levels, which we call superfolds, and furthermore that nearly two-thirds of these H-levels cluster into nine simple architectures. A database of well-characterised protein structure families, such as CATH, will facilitate the assignment of structure-function/evolution relationships to both known and newly determined protein structures.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google