Loading...
ACS omega2024Mar12Vol.9issue(10)

機械学習モデルの予測パフォーマンスを考慮して、適用可能性ドメイン方法とそのハイパーパラメーターの評価と最適化方法

,
文献タイプ:
  • Journal Article
概要
Abstract

分子、材料、およびプロセスの設計と制御では、数学モデルy = F(x)の適用性ドメイン(AD)がプロパティ、アクティビティ、および機能xが構築されています。複数の広告メソッドがあり、それぞれが独自のハイパーパラメーターセットを備えているため、各データセットと数学モデルに適切なADメソッドとハイパーパラメーターを選択する必要があります。ただし、ADモデルを最適化する方法はありません。この調査では、各データセットと数学モデルのADモデルを評価および最適化する方法を提案しています。すべてのサンプルとの二重交差検証の予測を使用して、ADメソッドとそのハイパーパラメーターのすべての組み合わせについて、カバレッジとルート平均誤差(RMSE)の関係、およびカバレッジおよびRMSE曲線(AUCR)の下の領域について計算されました計算されました。AUCR値が最も低いADモデルは、数学モデルに最適な適合として選択されました。提案された方法は、分子、材料、スペクトルを含む8つのデータセットを使用して検証され、提案された方法がすべてのデータセットに最適なADモデルを生成できることを実証しました。提案された方法のPythonコードは、https://github.com/hkaneko1985/dcekitで入手できます。

分子、材料、およびプロセスの設計と制御では、数学モデルy = F(x)の適用性ドメイン(AD)がプロパティ、アクティビティ、および機能xが構築されています。複数の広告メソッドがあり、それぞれが独自のハイパーパラメーターセットを備えているため、各データセットと数学モデルに適切なADメソッドとハイパーパラメーターを選択する必要があります。ただし、ADモデルを最適化する方法はありません。この調査では、各データセットと数学モデルのADモデルを評価および最適化する方法を提案しています。すべてのサンプルとの二重交差検証の予測を使用して、ADメソッドとそのハイパーパラメーターのすべての組み合わせについて、カバレッジとルート平均誤差(RMSE)の関係、およびカバレッジおよびRMSE曲線(AUCR)の下の領域について計算されました計算されました。AUCR値が最も低いADモデルは、数学モデルに最適な適合として選択されました。提案された方法は、分子、材料、スペクトルを含む8つのデータセットを使用して検証され、提案された方法がすべてのデータセットに最適なADモデルを生成できることを実証しました。提案された方法のPythonコードは、https://github.com/hkaneko1985/dcekitで入手できます。

In molecular, material, and process design and control, the applicability domain (AD) of a mathematical model y = f(x) between properties, activities, and features x is constructed. As there are multiple AD methods, each with its own set of hyperparameters, it is necessary to select an appropriate AD method and hyperparameters for each data set and mathematical model. However, there is no method for optimizing the AD model. This study proposes a method for evaluating and optimizing the AD model for each data set and a mathematical model. Using the predictions of double cross-validation with all samples, the relationship between coverage and root-mean-squared error (RMSE) was calculated for all combinations of AD methods and their hyperparameters, and the area under the coverage and RMSE curve (AUCR) was calculated. The AD model with the lowest AUCR value was selected as the optimal fit for the mathematical model. The proposed method was validated using eight data sets, including molecules, materials, and spectra, demonstrating that the proposed method could generate optimal AD models for all data sets. The Python code for the proposed method is available at https://github.com/hkaneko1985/dcekit.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google