Loading...
Current computer-aided drug design20160101Vol.12issue(4)

堅牢なQSARモデル開発のための化学空間の固有の次元の探求:いくつかの統計的アプローチの比較

,
,
文献タイプ:
  • Comparative Study
  • Journal Article
概要
Abstract

背景:分子の計算された数学的記述子は、それらの特性/生物活性の予測に使用されます。1970年代には、いくつかの記述子のみを計算できます。現在利用可能なソフトウェアは、DNA/ RNA、タンパク質などの分子または生体分子の多数の記述子を計算できます。 目的:n分子についてp分子記述子が計算されると、データセットはp寸法のnベクトルと見なすことができます。各化学物質はポイントとして表されます。主成分分析(PCA)などの方法を使用して、化学空間の固有の次元を特徴付けることができます。Basak et alの仕事から動機付けをする。1980年代、新生物の発見と予測毒物学に関連するさまざまな同類および構造的に多様な化学物質のセットについて計算された記述子のPCAを使用することで、このペーパーでは、堅牢なQSARモデル開発のための化学空間の固有の次元を探ります。 方法論:化学空間の固有の次元は、3つの新しい統計的アプローチと2つのデータセットを使用して研究されました。95の芳香族およびヘテロ芳香族アミン変異原の同性セットと、508の化学的変異体の構造的に多様なセット。 結果:ここで適用される新しい外れ値の頑丈な方法は、同じデータセットの以前の研究と比較して好ましい予測結果をもたらします。 結論:多数の化学記述子に関するデータを分析しながら、外れ値のQSARモデルを構築し、予測子間の根本的な相関を考慮することをお勧めします。

背景:分子の計算された数学的記述子は、それらの特性/生物活性の予測に使用されます。1970年代には、いくつかの記述子のみを計算できます。現在利用可能なソフトウェアは、DNA/ RNA、タンパク質などの分子または生体分子の多数の記述子を計算できます。 目的:n分子についてp分子記述子が計算されると、データセットはp寸法のnベクトルと見なすことができます。各化学物質はポイントとして表されます。主成分分析(PCA)などの方法を使用して、化学空間の固有の次元を特徴付けることができます。Basak et alの仕事から動機付けをする。1980年代、新生物の発見と予測毒物学に関連するさまざまな同類および構造的に多様な化学物質のセットについて計算された記述子のPCAを使用することで、このペーパーでは、堅牢なQSARモデル開発のための化学空間の固有の次元を探ります。 方法論:化学空間の固有の次元は、3つの新しい統計的アプローチと2つのデータセットを使用して研究されました。95の芳香族およびヘテロ芳香族アミン変異原の同性セットと、508の化学的変異体の構造的に多様なセット。 結果:ここで適用される新しい外れ値の頑丈な方法は、同じデータセットの以前の研究と比較して好ましい予測結果をもたらします。 結論:多数の化学記述子に関するデータを分析しながら、外れ値のQSARモデルを構築し、予測子間の根本的な相関を考慮することをお勧めします。

BACKGROUND: Computed mathematical descriptors of molecules are used for the prediction of their property/ bioactivity. In the 1970s only a few descriptors could be calculated, currently available software can calculate a large number of descriptors for molecules or biomolecules like DNA/ RNA, proteins. OBJECTIVE: When p molecular descriptors are calculated for n molecules, the data set can be viewed as n vectors in p dimensions, each chemical being represented as a point in .. Because many of the descriptors are strongly correlated, the n points in ..will lie on a subspace of dimension lower than p. Methods like principal components analysis (PCA) can be used to characterize the intrinsic dimensionality of chemical spaces. Taking motivation from the work of Basak et al. in 1980s in using PCA of descriptors calculated for various congeneric and structurally diverse sets of chemicals relevant to new drug discovery and predictive toxicology, this paper explores the intrinsic dimensionality of chemical spaces for robust QSAR model development. METHODOLOGY: Intrinsic dimensionality of chemical spaces was studied using three new statistical approaches and two data sets, viz. a congeneric set of 95 aromatic and heteroaromatic amine mutagens and a structurally diverse set of 508 chemical mutagens. RESULTS: The new outlier-robust methods applied here yield favorable prediction results compared to previous studies on same datasets. CONCLUSION: We conclude that while analyzing data on large number of chemical descriptors, it is advisable to build QSAR models that are outlier-robust, and take into consideration the underlying correlations among predictors.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google