Loading...
Medical physics2014Mar01Vol.41issue(3)

自己評価されたパフォーマンスは、画像ラベルの統計的融合を改善します

,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, N.I.H., Extramural
  • Research Support, N.I.H., Intramural
  • Research Support, Non-U.S. Gov't
概要
Abstract

目的:エキスパートマニュアルラベルは、画像セグメンテーションのゴールドスタンダードですが、このプロセスは難しく、時間がかかり、個人間の違いが発生しやすくなります。完全に自動化された方法は多くの解剖学をターゲットにしているが、自動化された方法は多くの必須構造(磁気共鳴画像像に見られるように脊髄の内部構造)についてまだ開発されていない。共同ラベリングは、自動化のスループットと専門家のガイダンスの両方を実現できる堅牢な代替手段を提供する新しいパラダイムです。しかし、個人やサイト全体にマニュアルのラベル付けの専門知識を分配すると、潜在的な人的要因の懸念(トレーニング、ソフトウェアの使いやすさなど)と統計的考慮事項(たとえば、情報の融合、信頼の評価、バイアス)をさらに調査する必要があります。ラベリングプロセス中に、評価者にラベルの信頼を自己評価するように依頼するのは簡単ですが、これはめったに行われず、以前は定量的に研究されていません。ここで、著者は、統計的融合の文脈における評価者パフォーマンスの自動評価に関連して、自己評価の有用性を調査します。 方法:著者は、大学の学部人口から採用された75人の低訓練を受けた人間の評価者によって手動でラベル付けされた66巻の研究を実施しました。評価者には15分間のトレーニングが与えられ、その間に正しいセグメンテーションの例が示され、オンラインセグメンテーションツールが実証されました。ボリュームには2Dスライスのラベルが付けられ、スライスは順序付けられていませんでした。スライスに重ねられた自信バーをマークすることにより、各スライスの評価者によって自己評価された品質メトリックが生成されました。投票と統計融合アルゴリズムの両方によって生成されるボリュームは、同じボリュームの一連の専門家セグメンテーションと比較されました。 結果:8825の異なるスライスのラベルが取得されました。単純多数票の投票により、自己評価されたパフォーマンスによって加重される投票よりも、統計的にパフォーマンスが低下しました。統計的融合は、自己評価された加重投票から統計的に区別できないパフォーマンスをもたらしました。著者らは、統計的融合のフレームワークで自己評価されたパフォーマンスを使用するための新しい理論的基盤を開発し、情報のソース(統計的評価と自己評価の両方)が、個別に考慮される方法よりも統計的に有意な改善をもたらすことを実証しました。 結論:著者は、手動のラベル付けにおける自己評価パフォーマンスの最初の体系的な特性評価を提示します。著者らは、自己評価と統計的融合が類似しているが補完的なラベル融合の利点をもたらすことを実証しています。最後に、著者は、自己評価を統計的ラベル融合と組み合わせるための新しい理論的根拠を提示します。

目的:エキスパートマニュアルラベルは、画像セグメンテーションのゴールドスタンダードですが、このプロセスは難しく、時間がかかり、個人間の違いが発生しやすくなります。完全に自動化された方法は多くの解剖学をターゲットにしているが、自動化された方法は多くの必須構造(磁気共鳴画像像に見られるように脊髄の内部構造)についてまだ開発されていない。共同ラベリングは、自動化のスループットと専門家のガイダンスの両方を実現できる堅牢な代替手段を提供する新しいパラダイムです。しかし、個人やサイト全体にマニュアルのラベル付けの専門知識を分配すると、潜在的な人的要因の懸念(トレーニング、ソフトウェアの使いやすさなど)と統計的考慮事項(たとえば、情報の融合、信頼の評価、バイアス)をさらに調査する必要があります。ラベリングプロセス中に、評価者にラベルの信頼を自己評価するように依頼するのは簡単ですが、これはめったに行われず、以前は定量的に研究されていません。ここで、著者は、統計的融合の文脈における評価者パフォーマンスの自動評価に関連して、自己評価の有用性を調査します。 方法:著者は、大学の学部人口から採用された75人の低訓練を受けた人間の評価者によって手動でラベル付けされた66巻の研究を実施しました。評価者には15分間のトレーニングが与えられ、その間に正しいセグメンテーションの例が示され、オンラインセグメンテーションツールが実証されました。ボリュームには2Dスライスのラベルが付けられ、スライスは順序付けられていませんでした。スライスに重ねられた自信バーをマークすることにより、各スライスの評価者によって自己評価された品質メトリックが生成されました。投票と統計融合アルゴリズムの両方によって生成されるボリュームは、同じボリュームの一連の専門家セグメンテーションと比較されました。 結果:8825の異なるスライスのラベルが取得されました。単純多数票の投票により、自己評価されたパフォーマンスによって加重される投票よりも、統計的にパフォーマンスが低下しました。統計的融合は、自己評価された加重投票から統計的に区別できないパフォーマンスをもたらしました。著者らは、統計的融合のフレームワークで自己評価されたパフォーマンスを使用するための新しい理論的基盤を開発し、情報のソース(統計的評価と自己評価の両方)が、個別に考慮される方法よりも統計的に有意な改善をもたらすことを実証しました。 結論:著者は、手動のラベル付けにおける自己評価パフォーマンスの最初の体系的な特性評価を提示します。著者らは、自己評価と統計的融合が類似しているが補完的なラベル融合の利点をもたらすことを実証しています。最後に、著者は、自己評価を統計的ラベル融合と組み合わせるための新しい理論的根拠を提示します。

PURPOSE: Expert manual labeling is the gold standard for image segmentation, but this process is difficult, time-consuming, and prone to inter-individual differences. While fully automated methods have successfully targeted many anatomies, automated methods have not yet been developed for numerous essential structures (e.g., the internal structure of the spinal cord as seen on magnetic resonance imaging). Collaborative labeling is a new paradigm that offers a robust alternative that may realize both the throughput of automation and the guidance of experts. Yet, distributing manual labeling expertise across individuals and sites introduces potential human factors concerns (e.g., training, software usability) and statistical considerations (e.g., fusion of information, assessment of confidence, bias) that must be further explored. During the labeling process, it is simple to ask raters to self-assess the confidence of their labels, but this is rarely done and has not been previously quantitatively studied. Herein, the authors explore the utility of self-assessment in relation to automated assessment of rater performance in the context of statistical fusion. METHODS: The authors conducted a study of 66 volumes manually labeled by 75 minimally trained human raters recruited from the university undergraduate population. Raters were given 15 min of training during which they were shown examples of correct segmentation, and the online segmentation tool was demonstrated. The volumes were labeled 2D slice-wise, and the slices were unordered. A self-assessed quality metric was produced by raters for each slice by marking a confidence bar superimposed on the slice. Volumes produced by both voting and statistical fusion algorithms were compared against a set of expert segmentations of the same volumes. RESULTS: Labels for 8825 distinct slices were obtained. Simple majority voting resulted in statistically poorer performance than voting weighted by self-assessed performance. Statistical fusion resulted in statistically indistinguishable performance from self-assessed weighted voting. The authors developed a new theoretical basis for using self-assessed performance in the framework of statistical fusion and demonstrated that the combined sources of information (both statistical assessment and self-assessment) yielded statistically significant improvement over the methods considered separately. CONCLUSIONS: The authors present the first systematic characterization of self-assessed performance in manual labeling. The authors demonstrate that self-assessment and statistical fusion yield similar, but complementary, benefits for label fusion. Finally, the authors present a new theoretical basis for combining self-assessments with statistical label fusion.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google