Loading...
Artificial intelligence in medicine2017Sep01Vol.81issue()

アクティブおよびパッシブ学習方法を使用した状態の重症度分類モデルのラベル間およびラベル内変動モデル

,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景と目的: ドメイン専門家が分類のためにインスタンスにラベルを付ける作業は、多くの場合、時間がかかり、費用もかかります。このようなラベル付けの労力を削減するために、私たちは能動学習 (AL) 手法の適用を提案し、臨床状態の重症度を分類するための CAESAR-ALE フレームワークを導入し、ラベル付けの労力を大幅に削減できることを示しました。3 つの AL 手法 (よく知られている 1 つ [SVM-Margin]、私たちが導入した 2 つ [Exploitation と Combination_XA]) のいずれかを使用すると、標準的なパッシブ (ランダム インスタンス選択) SVM 学習と比較して、状態のラベル付けの労力が大幅に削減されました (48% ~ 64%)。さらに、私たちの新しい AL 手法は、SVM-Margin AL 手法よりも 12% 少ないラベル付けケースを使用して、最大の精度を達成しました。ただし、ラベル付け担当者の専門知識のレベルはさまざまであるため、学習手法、特に AL 手法に関連する大きな問題は、ラベル付け担当者の委員会によって提供されたラベル付けをどのように最適に使用するかということです。まず、ラベラーの学習曲線に基づいて、AL 方法 (標準的な受動学習方法と比較して) を使用すると、ラベラー内変動 (各ラベラーの学習曲線内) とラベラー間変動 (異なるラベラーの学習曲線間) に効果があるかどうかを知りたいと考えました。次に、ラベラー グループの多数決によって作成されたラベルからの学習 (受動的または能動的) の効果を調べたいと考えました。方法: 臨床状態の重症度を分類するための CAESAR-ALE フレームワーク、3 つの AL 方法、および前述の受動学習方法を使用して、分類モデルを誘導しました。コロンビア大学メディカル センターで治療を受けた 190 万人の患者の医療記録から集約された特徴で表される 516 の臨床状態とその重症度ラベル付けのデータセットを使用しました。7 人のラベラーによって提供されたラベルを使用して誘導された分類モデル内 (ラベラー内)、特に (ラベラー間) の分類パフォーマンスの分散を分析しました。また、コンセンサス ラベルを使用した場合の受動的学習モデルと能動的学習モデルのパフォーマンスも比較しました。結果: AL 方式では、各ラベラーから誘導されたモデルについて、受動的学習方式を使用した場合に生成されたモデルと比較して、トレーニング フェーズ中に、より滑らかなラベラー内学習曲線が生成されました。すべてのラベラーに対する 3 つの AL 方式の学習曲線の平均標準偏差 (平均: 0.0379、範囲: [0.0182 ~ 0.0496]) は、受動的学習方式を使用した場合のラベラー内標準偏差 (平均: 0.0484、範囲: [0.0275-0.0724]) よりも大幅に低くなりました (p=0.049)。AL 方式を使用すると、トレーニング フェーズ中にラベラーのさまざまなモデルの AUC 値間の平均ラベラー間 AUC 標準偏差が、受動的学習を使用した場合に誘導されたモデルの AUC 値の分散よりも低くなりました。受動学習法を使用したラベラー間 AUC 標準偏差 (0.039) は、2 つの新しい AL 法を使用したラベラー間標準偏差 (それぞれ 0.02 と 0.019) のほぼ 2 倍でした。SVM-Margin AL 法の結果、ラベラー間標準偏差 (0.029) は、2 つの AL 法よりも約 50% 高くなりました。受動学習法と SVM-Margin 学習法のラベラー間標準偏差の差は有意でした (p=0.042)。SVM-Margin 法と Exploitation 法の差は有意ではなく (p=0.29)、Combination_XA 法と Exploitation 法の差も同様でした (p=0.67)。最後に、コンセンサス ラベルを使用すると、ラベラー内平均分散がより高くなる学習曲線が得られましたが、最終的には、ゴールド スタンダード ラベルを使用して達成された AUC と少なくとも同じ高さの AUC が得られ、学習方法の選択 (パッシブ学習方法を含む) に関係なく、ランダムに選択されたラベラーの予想される平均 AUC よりも常に高くなりました。対応のある t 検定を使用すると、コンセンサス ラベルを使用した場合のラベラー内 AUC 標準偏差と、他の 2 つのラベリング戦略を使用した場合の値の差は、パッシブ学習方法を使用した場合にのみ有意であり (p = 0.014)、3 つの AL 方法のいずれを使用する場合も有意ではありませんでした。結論: AL 方法を使用すると、(a) トレーニング フェーズ中に誘導モデルのパフォーマンスにおけるラベラー内変動が低減し、したがって、学習したモデルの残りとパフォーマンスが著しく異なるローカル最小値でプロセスが停止するリスクが低減します。 (b) ラベラー間のパフォーマンスのばらつきが減り、特定のラベラーの使用への依存が減ります。さらに、かなり不均等なラベラー グループによって合意されたコンセンサス ラベルの使用は、利用できない可能性のあるゴールド スタンダード ラベラーを使用する場合と少なくとも同等に優れており、グループの個々のラベラーの 1 人をランダムに選択するよりも確実に優れています。最後に、AL 方式を使用すると、コンセンサス ラベルによって提供される場合、受動学習を使用する場合と比較して、学習フェーズ中のラベラー内 AUC のばらつきが減りました。

背景と目的: ドメイン専門家が分類のためにインスタンスにラベルを付ける作業は、多くの場合、時間がかかり、費用もかかります。このようなラベル付けの労力を削減するために、私たちは能動学習 (AL) 手法の適用を提案し、臨床状態の重症度を分類するための CAESAR-ALE フレームワークを導入し、ラベル付けの労力を大幅に削減できることを示しました。3 つの AL 手法 (よく知られている 1 つ [SVM-Margin]、私たちが導入した 2 つ [Exploitation と Combination_XA]) のいずれかを使用すると、標準的なパッシブ (ランダム インスタンス選択) SVM 学習と比較して、状態のラベル付けの労力が大幅に削減されました (48% ~ 64%)。さらに、私たちの新しい AL 手法は、SVM-Margin AL 手法よりも 12% 少ないラベル付けケースを使用して、最大の精度を達成しました。ただし、ラベル付け担当者の専門知識のレベルはさまざまであるため、学習手法、特に AL 手法に関連する大きな問題は、ラベル付け担当者の委員会によって提供されたラベル付けをどのように最適に使用するかということです。まず、ラベラーの学習曲線に基づいて、AL 方法 (標準的な受動学習方法と比較して) を使用すると、ラベラー内変動 (各ラベラーの学習曲線内) とラベラー間変動 (異なるラベラーの学習曲線間) に効果があるかどうかを知りたいと考えました。次に、ラベラー グループの多数決によって作成されたラベルからの学習 (受動的または能動的) の効果を調べたいと考えました。方法: 臨床状態の重症度を分類するための CAESAR-ALE フレームワーク、3 つの AL 方法、および前述の受動学習方法を使用して、分類モデルを誘導しました。コロンビア大学メディカル センターで治療を受けた 190 万人の患者の医療記録から集約された特徴で表される 516 の臨床状態とその重症度ラベル付けのデータセットを使用しました。7 人のラベラーによって提供されたラベルを使用して誘導された分類モデル内 (ラベラー内)、特に (ラベラー間) の分類パフォーマンスの分散を分析しました。また、コンセンサス ラベルを使用した場合の受動的学習モデルと能動的学習モデルのパフォーマンスも比較しました。結果: AL 方式では、各ラベラーから誘導されたモデルについて、受動的学習方式を使用した場合に生成されたモデルと比較して、トレーニング フェーズ中に、より滑らかなラベラー内学習曲線が生成されました。すべてのラベラーに対する 3 つの AL 方式の学習曲線の平均標準偏差 (平均: 0.0379、範囲: [0.0182 ~ 0.0496]) は、受動的学習方式を使用した場合のラベラー内標準偏差 (平均: 0.0484、範囲: [0.0275-0.0724]) よりも大幅に低くなりました (p=0.049)。AL 方式を使用すると、トレーニング フェーズ中にラベラーのさまざまなモデルの AUC 値間の平均ラベラー間 AUC 標準偏差が、受動的学習を使用した場合に誘導されたモデルの AUC 値の分散よりも低くなりました。受動学習法を使用したラベラー間 AUC 標準偏差 (0.039) は、2 つの新しい AL 法を使用したラベラー間標準偏差 (それぞれ 0.02 と 0.019) のほぼ 2 倍でした。SVM-Margin AL 法の結果、ラベラー間標準偏差 (0.029) は、2 つの AL 法よりも約 50% 高くなりました。受動学習法と SVM-Margin 学習法のラベラー間標準偏差の差は有意でした (p=0.042)。SVM-Margin 法と Exploitation 法の差は有意ではなく (p=0.29)、Combination_XA 法と Exploitation 法の差も同様でした (p=0.67)。最後に、コンセンサス ラベルを使用すると、ラベラー内平均分散がより高くなる学習曲線が得られましたが、最終的には、ゴールド スタンダード ラベルを使用して達成された AUC と少なくとも同じ高さの AUC が得られ、学習方法の選択 (パッシブ学習方法を含む) に関係なく、ランダムに選択されたラベラーの予想される平均 AUC よりも常に高くなりました。対応のある t 検定を使用すると、コンセンサス ラベルを使用した場合のラベラー内 AUC 標準偏差と、他の 2 つのラベリング戦略を使用した場合の値の差は、パッシブ学習方法を使用した場合にのみ有意であり (p = 0.014)、3 つの AL 方法のいずれを使用する場合も有意ではありませんでした。結論: AL 方法を使用すると、(a) トレーニング フェーズ中に誘導モデルのパフォーマンスにおけるラベラー内変動が低減し、したがって、学習したモデルの残りとパフォーマンスが著しく異なるローカル最小値でプロセスが停止するリスクが低減します。 (b) ラベラー間のパフォーマンスのばらつきが減り、特定のラベラーの使用への依存が減ります。さらに、かなり不均等なラベラー グループによって合意されたコンセンサス ラベルの使用は、利用できない可能性のあるゴールド スタンダード ラベラーを使用する場合と少なくとも同等に優れており、グループの個々のラベラーの 1 人をランダムに選択するよりも確実に優れています。最後に、AL 方式を使用すると、コンセンサス ラベルによって提供される場合、受動学習を使用する場合と比較して、学習フェーズ中のラベラー内 AUC のばらつきが減りました。

BACKGROUND AND OBJECTIVES: Labeling instances by domain experts for classification is often time consuming and expensive. To reduce such labeling efforts, we had proposed the application of active learning (AL) methods, introduced our CAESAR-ALE framework for classifying the severity of clinical conditions, and shown its significant reduction of labeling efforts. The use of any of three AL methods (one well known [SVM-Margin], and two that we introduced [Exploitation and Combination_XA]) significantly reduced (by 48% to 64%) condition labeling efforts, compared to standard passive (random instance-selection) SVM learning. Furthermore, our new AL methods achieved maximal accuracy using 12% fewer labeled cases than the SVM-Margin AL method. However, because labelers have varying levels of expertise, a major issue associated with learning methods, and AL methods in particular, is how to best to use the labeling provided by a committee of labelers. First, we wanted to know, based on the labelers' learning curves, whether using AL methods (versus standard passive learning methods) has an effect on the Intra-labeler variability (within the learning curve of each labeler) and inter-labeler variability (among the learning curves of different labelers). Then, we wanted to examine the effect of learning (either passively or actively) from the labels created by the majority consensus of a group of labelers. METHODS: We used our CAESAR-ALE framework for classifying the severity of clinical conditions, the three AL methods and the passive learning method, as mentioned above, to induce the classifications models. We used a dataset of 516 clinical conditions and their severity labeling, represented by features aggregated from the medical records of 1.9 million patients treated at Columbia University Medical Center. We analyzed the variance of the classification performance within (intra-labeler), and especially among (inter-labeler) the classification models that were induced by using the labels provided by seven labelers. We also compared the performance of the passive and active learning models when using the consensus label. RESULTS: The AL methods: produced, for the models induced from each labeler, smoother Intra-labeler learning curves during the training phase, compared to the models produced when using the passive learning method. The mean standard deviation of the learning curves of the three AL methods over all labelers (mean: 0.0379; range: [0.0182 to 0.0496]), was significantly lower (p=0.049) than the Intra-labeler standard deviation when using the passive learning method (mean: 0.0484; range: [0.0275-0.0724). Using the AL methods resulted in a lower mean Inter-labeler AUC standard deviation among the AUC values of the labelers' different models during the training phase, compared to the variance of the induced models' AUC values when using passive learning. The Inter-labeler AUC standard deviation, using the passive learning method (0.039), was almost twice as high as the Inter-labeler standard deviation using our two new AL methods (0.02 and 0.019, respectively). The SVM-Margin AL method resulted in an Inter-labeler standard deviation (0.029) that was higher by almost 50% than that of our two AL methods The difference in the inter-labeler standard deviation between the passive learning method and the SVM-Margin learning method was significant (p=0.042). The difference between the SVM-Margin and Exploitation method was insignificant (p=0.29), as was the difference between the Combination_XA and Exploitation methods (p=0.67). Finally, using the consensus label led to a learning curve that had a higher mean intra-labeler variance, but resulted eventually in an AUC that was at least as high as the AUC achieved using the gold standard label and that was always higher than the expected mean AUC of a randomly selected labeler, regardless of the choice of learning method (including a passive learning method). Using a paired t-test, the difference between the intra-labeler AUC standard deviation when using the consensus label, versus that value when using the other two labeling strategies, was significant only when using the passive learning method (p=0.014), but not when using any of the three AL methods. CONCLUSIONS: The use of AL methods, (a) reduces intra-labeler variability in the performance of the induced models during the training phase, and thus reduces the risk of halting the process at a local minimum that is significantly different in performance from the rest of the learned models; and (b) reduces Inter-labeler performance variance, and thus reduces the dependence on the use of a particular labeler. In addition, the use of a consensus label, agreed upon by a rather uneven group of labelers, might be at least as good as using the gold standard labeler, who might not be available, and certainly better than randomly selecting one of the group's individual labelers. Finally, using the AL methods: when provided by the consensus label reduced the intra-labeler AUC variance during the learning phase, compared to using passive learning.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google