Loading...
BMC bioinformatics20130101Vol.14 Suppl 14issue(Suppl 14)

共同インスタンスと機能選択を介した複数のインスタンス学習を使用した薬物活動予測

,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, N.I.H., Extramural
  • Research Support, U.S. Gov't, Non-P.H.S.
概要
Abstract

背景:創薬と発達において、特定の分子のどの配座異性体(インスタンス)が観察された生物学的活性に責任があるかを判断し、同時に特徴の最も代表的なサブセット(分子記述子)を認識することが重要です。生物活性配座異性体の取得における実験的な困難のため、機械学習技術などの計算アプローチが非常に必要です。複数のインスタンス学習(MIL)は、このタイプの問題に取り組むことができる機械学習方法です。MILフレームワークでは、各インスタンスは通常、高次元の特徴空間に存在する機能ベクトルとして表されます。高次元は、学習タスクに重要な情報を提供する可能性がありますが、同時に、学習パフォーマンスに悪影響を与える可能性のある多数の無関係または冗長機能が含まれる場合があります。したがって、データの次元を削減すると、分類タスクが容易になり、モデルの解釈可能性が向上します。 結果:この作業では、共同インスタンスと機能選択を介して複数のインスタンス学習という名前の新しいアプローチを提案します。反復ジョイントインスタンスと機能の選択は、インスタンスベースの機能マッピングと1ノームの正規化最適化を使用して実現されます。提案されたアプローチは、4つの生物学的活動データセットでテストされました。 結論:経験的な結果は、選択されたインスタンス(プロトタイプ配座異性体)と特徴(ファーマコフォアの指紋)が競争力のある識別力を持ち、選択プロセスの収束も高速であることを示しています。

背景:創薬と発達において、特定の分子のどの配座異性体(インスタンス)が観察された生物学的活性に責任があるかを判断し、同時に特徴の最も代表的なサブセット(分子記述子)を認識することが重要です。生物活性配座異性体の取得における実験的な困難のため、機械学習技術などの計算アプローチが非常に必要です。複数のインスタンス学習(MIL)は、このタイプの問題に取り組むことができる機械学習方法です。MILフレームワークでは、各インスタンスは通常、高次元の特徴空間に存在する機能ベクトルとして表されます。高次元は、学習タスクに重要な情報を提供する可能性がありますが、同時に、学習パフォーマンスに悪影響を与える可能性のある多数の無関係または冗長機能が含まれる場合があります。したがって、データの次元を削減すると、分類タスクが容易になり、モデルの解釈可能性が向上します。 結果:この作業では、共同インスタンスと機能選択を介して複数のインスタンス学習という名前の新しいアプローチを提案します。反復ジョイントインスタンスと機能の選択は、インスタンスベースの機能マッピングと1ノームの正規化最適化を使用して実現されます。提案されたアプローチは、4つの生物学的活動データセットでテストされました。 結論:経験的な結果は、選択されたインスタンス(プロトタイプ配座異性体)と特徴(ファーマコフォアの指紋)が競争力のある識別力を持ち、選択プロセスの収束も高速であることを示しています。

BACKGROUND: In drug discovery and development, it is crucial to determine which conformers (instances) of a given molecule are responsible for its observed biological activity and at the same time to recognize the most representative subset of features (molecular descriptors). Due to experimental difficulty in obtaining the bioactive conformers, computational approaches such as machine learning techniques are much needed. Multiple Instance Learning (MIL) is a machine learning method capable of tackling this type of problem. In the MIL framework, each instance is represented as a feature vector, which usually resides in a high-dimensional feature space. The high dimensionality may provide significant information for learning tasks, but at the same time it may also include a large number of irrelevant or redundant features that might negatively affect learning performance. Reducing the dimensionality of data will hence facilitate the classification task and improve the interpretability of the model. RESULTS: In this work we propose a novel approach, named multiple instance learning via joint instance and feature selection. The iterative joint instance and feature selection is achieved using an instance-based feature mapping and 1-norm regularized optimization. The proposed approach was tested on four biological activity datasets. CONCLUSIONS: The empirical results demonstrate that the selected instances (prototype conformers) and features (pharmacophore fingerprints) have competitive discriminative power and the convergence of the selection process is also fast.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google