Loading...
Analytica chimica acta2012Mar09Vol.718issue()

トポロジー構造の特徴を備えたランダムフォレストに基づいたタンパク質間相互作用ネットワークの局所サブグラフからのヒトタンパク質複合体の識別

,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

ゲノム後の時代において、最も重要で挑戦的なタスクの1つは、タンパク質複合体を特定し、特定の生物学的プロセスにおける分子メカニズムをさらに解明することです。以前の計算アプローチは、通常、密なサブグラフと不完全な先験的情報に基づいて、タンパク質相互作用ネットワークからタンパク質複合体を識別します。さらに、計算アプローチはタンパク質の生物学的特性についてほとんど懸念しておらず、パフォーマンスを評価するための一般的な評価メトリックはありません。したがって、タンパク質複合体を特定し、タンパク質複合体の機能を解明するための新しい方法を構築する必要があります。この研究では、ランダムな森林とトポロジー構造を使用してタンパク質複合体を特定するための新しいアプローチが提案されています。各タンパク質複合体は相互作用のグラフで表されます。ここでは、タンパク質一次構造の記述子がタンパク質の生物学的特性を特徴付けるために使用され、頂点は記述子によって重み付けされます。トポロジカル構造の特徴は開発され、タンパク質複合体を特徴付けるために使用されます。ランダムフォレストアルゴリズムは、予測モデルを構築し、密なサブグラフの代わりに局所サブグラフからタンパク質複合体を識別するために使用されます。実証として、提案されたアプローチはヒトのタンパク質相互作用データに適用され、満足した結果は80.24%の精度、81.94%の感度、80.07%の特異性、およびマシューの10倍の交差点で0.4087の0.4087の相関係数で得られます。検証テスト。いくつかの新しいタンパク質複合体が特定されており、遺伝子オントロジーに基づく分析は、複合体が真の複合体であり、いくつかの疾患の病因に重要な役割を果たす可能性が高いことを示しています。タンパク質複合体の識別のための対応する実行可能ファイルプログラムであるPCI-RFTは、著者からのリクエストに応じて自由に取得できます。

ゲノム後の時代において、最も重要で挑戦的なタスクの1つは、タンパク質複合体を特定し、特定の生物学的プロセスにおける分子メカニズムをさらに解明することです。以前の計算アプローチは、通常、密なサブグラフと不完全な先験的情報に基づいて、タンパク質相互作用ネットワークからタンパク質複合体を識別します。さらに、計算アプローチはタンパク質の生物学的特性についてほとんど懸念しておらず、パフォーマンスを評価するための一般的な評価メトリックはありません。したがって、タンパク質複合体を特定し、タンパク質複合体の機能を解明するための新しい方法を構築する必要があります。この研究では、ランダムな森林とトポロジー構造を使用してタンパク質複合体を特定するための新しいアプローチが提案されています。各タンパク質複合体は相互作用のグラフで表されます。ここでは、タンパク質一次構造の記述子がタンパク質の生物学的特性を特徴付けるために使用され、頂点は記述子によって重み付けされます。トポロジカル構造の特徴は開発され、タンパク質複合体を特徴付けるために使用されます。ランダムフォレストアルゴリズムは、予測モデルを構築し、密なサブグラフの代わりに局所サブグラフからタンパク質複合体を識別するために使用されます。実証として、提案されたアプローチはヒトのタンパク質相互作用データに適用され、満足した結果は80.24%の精度、81.94%の感度、80.07%の特異性、およびマシューの10倍の交差点で0.4087の0.4087の相関係数で得られます。検証テスト。いくつかの新しいタンパク質複合体が特定されており、遺伝子オントロジーに基づく分析は、複合体が真の複合体であり、いくつかの疾患の病因に重要な役割を果たす可能性が高いことを示しています。タンパク質複合体の識別のための対応する実行可能ファイルプログラムであるPCI-RFTは、著者からのリクエストに応じて自由に取得できます。

In the post-genomic era, one of the most important and challenging tasks is to identify protein complexes and further elucidate its molecular mechanisms in specific biological processes. Previous computational approaches usually identify protein complexes from protein interaction network based on dense sub-graphs and incomplete priori information. Additionally, the computational approaches have little concern about the biological properties of proteins and there is no a common evaluation metric to evaluate the performance. So, it is necessary to construct novel method for identifying protein complexes and elucidating the function of protein complexes. In this study, a novel approach is proposed to identify protein complexes using random forest and topological structure. Each protein complex is represented by a graph of interactions, where descriptor of the protein primary structure is used to characterize biological properties of protein and vertex is weighted by the descriptor. The topological structure features are developed and used to characterize protein complexes. Random forest algorithm is utilized to build prediction model and identify protein complexes from local sub-graphs instead of dense sub-graphs. As a demonstration, the proposed approach is applied to protein interaction data in human, and the satisfied results are obtained with accuracy of 80.24%, sensitivity of 81.94%, specificity of 80.07%, and Matthew's correlation coefficient of 0.4087 in 10-fold cross-validation test. Some new protein complexes are identified, and analysis based on Gene Ontology shows that the complexes are likely to be true complexes and play important roles in the pathogenesis of some diseases. PCI-RFTS, a corresponding executable program for protein complexes identification, can be acquired freely on request from the authors.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google