Loading...
IEEE/ACM transactions on computational biology and bioinformatics20130101Vol.10issue(4)

マルチサーベルアンサンブル分類を使用したタンパク質機能予測

,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
  • Research Support, U.S. Gov't, Non-P.H.S.
概要
Abstract

ハイスループットの実験技術は、いくつかの種類の不均一なプロテオームおよびゲノムデータセットを生成します。タンパク質を計算するためには、これらの不均一なデータソースを統合することが必要であり、有望です。いくつかの方法は、これらのデータソースを異なるカーネルまたは機能表現に変換します。次に、これらのカーネルは、直線的に(または非線形に)複合カーネルに結合されます。複合カーネルは、タンパク質の機能を推測する予測モデルを開発するために利用されます。タンパク質は、複数の役割と機能(またはラベル)を持つことができます。したがって、マルチサーベル学習方法は、タンパク質機能予測にも適合しています。いくつかの非標識タンパク質を使用して、タンパク質の複数の機能を予測するために、トランスダクティブマルチサーベル分類器(TMC)を開発します。また、アンサンブルアプローチを使用してさまざまなデータソースを統合するために、トランスダクトマルチラベルアンサンブル分類器(TMEC)と呼ばれる方法を提案します。TMECは、各単一のデータソースでグラフベースのマルチサーベル分類器をトレーニングし、個々の分類子の予測を組み合わせます。指向したビレレライティンググラフを使用して、タンパク質のペア間、機能のペア間、およびタンパク質と機能の間の関係をキャプチャします。TMCとTMECの有効性を評価して、3つのベンチマーク上のタンパク質の機能を予測します。私たちのアプローチは、複合材料および複数のカーネルで最近提案されたタンパク質機能予測法よりも優れていることを示しています。このコード、このペーパーで使用されているデータセット、および補足資料は、https://sites.google.com/site/guoxian85/tmecで入手できます。

ハイスループットの実験技術は、いくつかの種類の不均一なプロテオームおよびゲノムデータセットを生成します。タンパク質を計算するためには、これらの不均一なデータソースを統合することが必要であり、有望です。いくつかの方法は、これらのデータソースを異なるカーネルまたは機能表現に変換します。次に、これらのカーネルは、直線的に(または非線形に)複合カーネルに結合されます。複合カーネルは、タンパク質の機能を推測する予測モデルを開発するために利用されます。タンパク質は、複数の役割と機能(またはラベル)を持つことができます。したがって、マルチサーベル学習方法は、タンパク質機能予測にも適合しています。いくつかの非標識タンパク質を使用して、タンパク質の複数の機能を予測するために、トランスダクティブマルチサーベル分類器(TMC)を開発します。また、アンサンブルアプローチを使用してさまざまなデータソースを統合するために、トランスダクトマルチラベルアンサンブル分類器(TMEC)と呼ばれる方法を提案します。TMECは、各単一のデータソースでグラフベースのマルチサーベル分類器をトレーニングし、個々の分類子の予測を組み合わせます。指向したビレレライティンググラフを使用して、タンパク質のペア間、機能のペア間、およびタンパク質と機能の間の関係をキャプチャします。TMCとTMECの有効性を評価して、3つのベンチマーク上のタンパク質の機能を予測します。私たちのアプローチは、複合材料および複数のカーネルで最近提案されたタンパク質機能予測法よりも優れていることを示しています。このコード、このペーパーで使用されているデータセット、および補足資料は、https://sites.google.com/site/guoxian85/tmecで入手できます。

High-throughput experimental techniques produce several kinds of heterogeneous proteomic and genomic data sets. To computationally annotate proteins, it is necessary and promising to integrate these heterogeneous data sources. Some methods transform these data sources into different kernels or feature representations. Next, these kernels are linearly (or nonlinearly) combined into a composite kernel. The composite kernel is utilized to develop a predictive model to infer the function of proteins. A protein can have multiple roles and functions (or labels). Therefore, multilabel learning methods are also adapted for protein function prediction. We develop a transductive multilabel classifier (TMC) to predict multiple functions of proteins using several unlabeled proteins. We also propose a method called transductive multilabel ensemble classifier (TMEC) for integrating the different data sources using an ensemble approach. The TMEC trains a graph-based multilabel classifier on each single data source, and then combines the predictions of the individual classifiers. We use a directed birelational graph to capture the relationships between pairs of proteins, between pairs of functions, and between proteins and functions. We evaluate the effectiveness of the TMC and TMEC to predict the functions of proteins on three benchmarks. We show that our approaches perform better than recently proposed protein function prediction methods on composite and multiple kernels. The code, data sets used in this paper and supplemental material are available at https://sites.google.com/site/guoxian85/tmec.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google