Loading...
Journal of chromatography. B, Analytical technologies in the biomedical and life sciences2022Feb15Vol.1191issue()

異なる機械学習アルゴリズムを適用し、そのパフォーマンスを評価することにより、LC-HRMSにおける分析物の保持予測の定量構造保持関係(QSRR)モデリング

,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

メタボロミクスでは、分析物の構造的および物理化学的特性に基づいて保持予測方法が開発されています。このような方法は、回帰モデルを採用しており、機械学習アルゴリズムを活用して、定量的構造保持関係(QSRR)モデルとして知られるさまざまな構造化学的および物理化学的記述子を使用して、実験的に導出された保持時間(TR)分析物をマッピングします。本研究では、QSRRモデルは、4つの機械学習回帰アルゴリズム、つまりベイジアンリッジ回帰(Bridger)、極端な勾配ブースト回帰(XGBR)、およびすべての線形および非線形カーネルを使用したサポートベクター回帰(SVR)を適用することにより開発されています。分子記述子を使用して分子の物理的、化学的、または構造的特性を記述した、実験的に導出されたおよび公開されたクロマトグラフィーデータでの保持予測能力についてテストおよび比較されました。利用可能なデータセットのさまざまな構成は、高度に相関した機能レベル(任意の機能のペア間で計算されたピアソン相関係数の最大絶対値として定義されます)を並行して分析しました。これは、私たちの知る限り、QSRR予測モデルのパフォーマンスに対する共線性の影響に関する最初の研究です。研究された大多数のケースでは、指定されたデータセット構成の間で生成されたQSRR予測モデルのパフォーマンスに統計的に有意な差はありませんでした。選択した回帰アルゴリズムの個々のパフォーマンスに関しては、1つのアルゴリズム(またはアルゴリズムのクラス)が研究データセットの中で他のアルゴリズムと比較して顕著に際立っていたパターンは見つかりませんでした。

メタボロミクスでは、分析物の構造的および物理化学的特性に基づいて保持予測方法が開発されています。このような方法は、回帰モデルを採用しており、機械学習アルゴリズムを活用して、定量的構造保持関係(QSRR)モデルとして知られるさまざまな構造化学的および物理化学的記述子を使用して、実験的に導出された保持時間(TR)分析物をマッピングします。本研究では、QSRRモデルは、4つの機械学習回帰アルゴリズム、つまりベイジアンリッジ回帰(Bridger)、極端な勾配ブースト回帰(XGBR)、およびすべての線形および非線形カーネルを使用したサポートベクター回帰(SVR)を適用することにより開発されています。分子記述子を使用して分子の物理的、化学的、または構造的特性を記述した、実験的に導出されたおよび公開されたクロマトグラフィーデータでの保持予測能力についてテストおよび比較されました。利用可能なデータセットのさまざまな構成は、高度に相関した機能レベル(任意の機能のペア間で計算されたピアソン相関係数の最大絶対値として定義されます)を並行して分析しました。これは、私たちの知る限り、QSRR予測モデルのパフォーマンスに対する共線性の影響に関する最初の研究です。研究された大多数のケースでは、指定されたデータセット構成の間で生成されたQSRR予測モデルのパフォーマンスに統計的に有意な差はありませんでした。選択した回帰アルゴリズムの個々のパフォーマンスに関しては、1つのアルゴリズム(またはアルゴリズムのクラス)が研究データセットの中で他のアルゴリズムと比較して顕著に際立っていたパターンは見つかりませんでした。

In metabolomics, retention prediction methods have been developed based on the structural and physicochemical characteristics of analytes. Such methods employ regression models, harnessing machine learning algorithms mapping experimentally derived retention time (tR) analytes with various structural and physicochemical descriptors, known as Quantitative Structure Retention Relationships (QSRR) models. In the present study, QSRR models have been developed by applying four Machine Learning regression algorithms, i.e. Bayesian Ridge Regression (BRidgeR), Extreme Gradient Boosting Regression (XGBR) and Support Vector Regression (SVR) using both linear and non-linear kernels, all tested and compared for their retention prediction ability on experimentally derived and on publicly available chromatographic data, using Molecular Descriptors to describe the physical, chemical or structural properties of molecules. Various configurations of the available datasets, in terms of the highly-correlated features levels (defined as the maximum absolute value of the Pearson's correlation coefficient calculated between any pair of features) they contained, were analyzed in parallel. This is the first study, to the best of our knowledge, of the effect of collinearity on the performance of QSRR predictive models. In the vast majority of cases studied there was no statistically significant difference in the performance of the generated QSRR predictive models among the specified dataset configurations, indicative of the ability of the selected regression algorithms to effectively handle collinearity. In terms of the individual performance of the selected regression algorithms, no pattern was found where one algorithm (or class of algorithms) stood out significantly relative to the others among the study datasets.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google