Loading...
Environmental toxicology and chemistry2014Jun01Vol.33issue(6)

3Dの3D定量的スペクトルデータ活性関係コンセンサスモデリングの改善のための部分的な最小四方およびK-nearest隣接アルゴリズム

,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

Daphnia Magnaの水生毒性についてテストされた米国の食品および薬物投与制御化合物を含む154の化学物質の多様なセットは、3次元の定量的スペクトルデータ活性関係(3D-QSDAR)によってモデル化されました。2つの異なるアルゴリズム、部分的最小二乗(PLS)と谷間類似性に基づくK-ニアストネイバー(KNN)を使用して、3D-QSDARスペースを定期的にサイズのビンにテッセレーションした後に得られたビン占有記述子マトリックスを処理しました。2 ppm×2 ppm×0.5Åから20 ppm×20 ppm×2.5Åのサイズのビンを使用したモデルの性能を調査しました。厳密な品質制御基準が課されました。1)100ランダム化20%の保留テストセットが生成され、それぞれのモデルの平均R(2)テストがパフォーマンスの尺度として、2)Yスクランブル手順として使用されました。偶然の相関を特定するために使用されました。0.5Å×14 ppm×14 ppmビンと10の潜在変数(平均R(2)テスト= 0.770)と0.5Å×8 ppm×8 ppmを使用した最高の複合KNNモデルを使用した最適な複合PLSモデルのコンセンサス2つの隣人(平均R(2)テスト= 0.801)が約7.5%の改善を提供しました(R(2)テストコンセンサス= 0.845)。標準座標空間で最も頻繁に発生するビンの投影は、一次または二次的なアミノ基に置かれた芳香族システムの存在が、ダフニアでの毒性効果の増加をもたらすことを示しています。最初の環から5Åから7Åの高度に陰性の置換基を持つ2番目の芳香環の存在は、毒性のさらなる増加につながります。

Daphnia Magnaの水生毒性についてテストされた米国の食品および薬物投与制御化合物を含む154の化学物質の多様なセットは、3次元の定量的スペクトルデータ活性関係(3D-QSDAR)によってモデル化されました。2つの異なるアルゴリズム、部分的最小二乗(PLS)と谷間類似性に基づくK-ニアストネイバー(KNN)を使用して、3D-QSDARスペースを定期的にサイズのビンにテッセレーションした後に得られたビン占有記述子マトリックスを処理しました。2 ppm×2 ppm×0.5Åから20 ppm×20 ppm×2.5Åのサイズのビンを使用したモデルの性能を調査しました。厳密な品質制御基準が課されました。1)100ランダム化20%の保留テストセットが生成され、それぞれのモデルの平均R(2)テストがパフォーマンスの尺度として、2)Yスクランブル手順として使用されました。偶然の相関を特定するために使用されました。0.5Å×14 ppm×14 ppmビンと10の潜在変数(平均R(2)テスト= 0.770)と0.5Å×8 ppm×8 ppmを使用した最高の複合KNNモデルを使用した最適な複合PLSモデルのコンセンサス2つの隣人(平均R(2)テスト= 0.801)が約7.5%の改善を提供しました(R(2)テストコンセンサス= 0.845)。標準座標空間で最も頻繁に発生するビンの投影は、一次または二次的なアミノ基に置かれた芳香族システムの存在が、ダフニアでの毒性効果の増加をもたらすことを示しています。最初の環から5Åから7Åの高度に陰性の置換基を持つ2番目の芳香環の存在は、毒性のさらなる増加につながります。

A diverse set of 154 chemicals that included US Food and Drug Administration-regulated compounds tested for their aquatic toxicity in Daphnia magna were modeled by a 3-dimensional quantitative spectral data-activity relationship (3D-QSDAR). Two distinct algorithms, partial least squares (PLS) and Tanimoto similarity-based k-nearest neighbors (KNN), were used to process bin occupancy descriptor matrices obtained after tessellation of the 3D-QSDAR space into regularly sized bins. The performance of models utilizing bins ranging in size from 2 ppm × 2 ppm × 0.5 Å to 20 ppm × 20 ppm × 2.5 Å was explored. Rigorous quality-control criteria were imposed: 1) 100 randomized 20% hold-out test sets were generated and the average R(2) test of the respective models was used as a measure of their performance, and 2) a Y-scrambling procedure was used to identify chance correlations. A consensus between the best-performing composite PLS model using 0.5 Å × 14 ppm × 14 ppm bins and 10 latent variables (average R(2) test  = 0.770) and the best composite KNN model using 0.5 Å × 8 ppm × 8 ppm and 2 neighbors (average R(2) test  = 0.801) offered an improvement of about 7.5% (R(2) test consensus  = 0.845). Projection of the most frequently occurring bins on the standard coordinate space indicated that the presence of a primary or secondary amino group-substituted aromatic systems-would result in an increased toxic effect in Daphnia. The presence of a second aromatic ring with highly electronegative substituents 5 Å to 7 Å apart from the first ring would lead to a further increase in toxicity.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google