著名医師による解説が無料で読めます
すると翻訳の精度が向上します
生成モデルは、吸収、分布、代謝、排泄(ADME)バイオアッセイまたは定量的構造活性関係(QSAR)モデルと相まって、特定の特性を最適化するために、非常にしばしば吸収、分布、代謝、および排泄(ADME)のバイオアッセイ(ADME)と相まってますます使用されています。これらのアルゴリズムによって提案された分子は、しばしば誤検知であることが明らかになります。つまり、それらはアクティブであると予測されており、主に予測されたスコアの過剰な最適化により、合成とテスト後に非アクティブであることが判明し、実際のスコアの実際の減少または停滞につながります。この動作は、最適化ステップ中の生成モデルによる予測モデルの「ハッキング」としても知られています。この問題は、機械学習における敵対的な例を連想させ、グッドハートの法律で宣言されていると見ることができます。この問題は、初期トレーニングセットですべての目的を同時に満たす既知の分子がないため、モデルがトレーニングセット分布の外側で外挿する必要があるマルチパラメーター最適化(MPO)ケースでさらに明らかです。この問題の実験的評価は、生成された分子の合成とテストが必要なため、困難で高価な作業です。したがって、これらの生成モデルベースのパイプラインの評価を支援するために、分子特性のプロキシとして使用されるリアル値の「オラクル」で発達する努力がなされてきました。ただし、これらのオラクルは、生物学的アッセイと比較してモデル化するのが簡単すぎることが多く、通常は単一容積の症例に限定されているため、これまでのところ価値が限られています。この作業では、任意の入力分子の連続値を返すスマートに初期化されたニューラルネットワーク(NN)を使用して、マルチカーゲットアッセイのシミュレーターを導入します。このOracleを使用して、実際の将来のリード最適化(LO)シナリオを複製します。最初に、Oracle値を予測することを目的とした分子の最初の小さなサンプルで予測モデルを訓練しました。その後、以前に構築された予測モデルと組み合わせたオープンソースのワカモールパッケージを使用して、新しい最適化された分子を生成しました。最後に、予測値に従って候補薬物ターゲットプロファイル(CDTP)に一致する化合物を選択し、真のOracle値を計算して評価しました。予測モデルが優れた推定パフォーマンスメトリックを持っていた場合でも、最終選択にはNNベースのOracleに従って複数の誤検知が含まれていることが観察されました。次に、ロジスティック回帰またはランダムな森林予測モデルのいずれかを使用して、単眼および双目のシナリオの最適化動作を評価しました。また、ハッキングの問題を軽減するためのいくつかの方法を提案および評価します。
生成モデルは、吸収、分布、代謝、排泄(ADME)バイオアッセイまたは定量的構造活性関係(QSAR)モデルと相まって、特定の特性を最適化するために、非常にしばしば吸収、分布、代謝、および排泄(ADME)のバイオアッセイ(ADME)と相まってますます使用されています。これらのアルゴリズムによって提案された分子は、しばしば誤検知であることが明らかになります。つまり、それらはアクティブであると予測されており、主に予測されたスコアの過剰な最適化により、合成とテスト後に非アクティブであることが判明し、実際のスコアの実際の減少または停滞につながります。この動作は、最適化ステップ中の生成モデルによる予測モデルの「ハッキング」としても知られています。この問題は、機械学習における敵対的な例を連想させ、グッドハートの法律で宣言されていると見ることができます。この問題は、初期トレーニングセットですべての目的を同時に満たす既知の分子がないため、モデルがトレーニングセット分布の外側で外挿する必要があるマルチパラメーター最適化(MPO)ケースでさらに明らかです。この問題の実験的評価は、生成された分子の合成とテストが必要なため、困難で高価な作業です。したがって、これらの生成モデルベースのパイプラインの評価を支援するために、分子特性のプロキシとして使用されるリアル値の「オラクル」で発達する努力がなされてきました。ただし、これらのオラクルは、生物学的アッセイと比較してモデル化するのが簡単すぎることが多く、通常は単一容積の症例に限定されているため、これまでのところ価値が限られています。この作業では、任意の入力分子の連続値を返すスマートに初期化されたニューラルネットワーク(NN)を使用して、マルチカーゲットアッセイのシミュレーターを導入します。このOracleを使用して、実際の将来のリード最適化(LO)シナリオを複製します。最初に、Oracle値を予測することを目的とした分子の最初の小さなサンプルで予測モデルを訓練しました。その後、以前に構築された予測モデルと組み合わせたオープンソースのワカモールパッケージを使用して、新しい最適化された分子を生成しました。最後に、予測値に従って候補薬物ターゲットプロファイル(CDTP)に一致する化合物を選択し、真のOracle値を計算して評価しました。予測モデルが優れた推定パフォーマンスメトリックを持っていた場合でも、最終選択にはNNベースのOracleに従って複数の誤検知が含まれていることが観察されました。次に、ロジスティック回帰またはランダムな森林予測モデルのいずれかを使用して、単眼および双目のシナリオの最適化動作を評価しました。また、ハッキングの問題を軽減するためのいくつかの方法を提案および評価します。
Generative models are being increasingly used in drug discovery, very often coupled with absorption, distribution, metabolism, and excretion (ADME) bioassays or quantitative structure-activity relationship (QSAR) models to optimize a given set of properties. The molecules proposed by these algorithms are often revealed to be false positives; that is, they are predicted to be active and turn out to be inactive after synthesis and testing, mostly due to overoptimization of the predicted scores, which leads to an actual decrease or stagnation of the real scores. This behavior is also known as the "hacking" of the predictive models by the generative model during the optimization step. This issue is reminiscent of adversarial examples in machine learning and it can be seen as enunciated by Goodhart's law: "when a measure becomes a target, it ceases to be a good measure." This issue is even more apparent in a multiparameter optimization (MPO) case, where the models need to extrapolate outside the training set distribution because there are no known molecules satisfying all the objectives simultaneously in the initial training set. Experimental evaluation of this problem is a hard and expensive task since it requires synthesis and testing of the generated molecules. Thus, efforts have been made to develop in silico "oracles"─real-valued functions used as proxies for molecular properties─to help with the evaluation of these generative-model-based pipelines. However, these oracles have had a limited value so far because they are often too easy to model in comparison with biological assays and are usually limited to mono-objective cases. In this work, we introduce a simulator of multitarget assays using a smartly initialized neural network (NN) that returns continuous values for any input molecule. We use this oracle to replicate a real-world prospective lead optimization (LO) scenario. First, we trained predictive models on an initial small sample of molecules aimed at predicting their oracle values. Afterward, we generated new optimized molecules using the open-source GuacaMol package coupled with the previously built predictive models. Finally, we selected compounds matching the candidate drug target profile (CDTP) according to the predicted values and evaluated them by computing the true oracle values. We observed that even when the predictive models had excellent estimated performance metrics, the final selection still contained multiple false positives according to the NN-based oracle. Then, we evaluated the optimization behavior in mono- and bi-objective scenarios using either a logistic regression or a random forest predictive model. We also propose and evaluate several methods to help mitigate the hacking issue.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。