著名医師による解説が無料で読めます
すると翻訳の精度が向上します
深い学習は、医療画像のセグメンテーションやその他の側面で広く使用されています。ただし、既存の医療画像セグメンテーションモデルのパフォーマンスは、法外なデータ注釈コストのために十分な高品質のラベル付きデータを取得するという課題によって制限されています。この制限を緩和するために、新しいテキストの高級医療イメージセグメンテーションモデルLVIT(言語が視覚変圧器を満たす)を提案します。LVITモデルでは、画像データの品質不足を補うために医療テキスト注釈が組み込まれています。さらに、テキスト情報は、半学習学習における品質の改善の擬似ラベルを生成するためにガイドできます。また、ピクセルレベルの注意モジュール(PLAM)が半監視LVIT設定でローカル画像機能を保存するのを支援するための指数擬似ラベル反復メカニズム(EPI)を提案します。私たちのモデルでは、LV(Language-Vision)Lossは、テキスト情報を直接使用して、非標識画像のトレーニングを監督するように設計されています。評価のために、X線とCT画像を含む3つのマルチモーダル医療セグメンテーションデータセット(画像 +テキスト)を作成します。実験結果は、提案されたLVITが、完全に監視されたものと半監視設定の両方で優れたセグメンテーションパフォーマンスを持っていることを示しています。コードとデータセットは、https://github.com/huanglizi/lvitで入手できます。
深い学習は、医療画像のセグメンテーションやその他の側面で広く使用されています。ただし、既存の医療画像セグメンテーションモデルのパフォーマンスは、法外なデータ注釈コストのために十分な高品質のラベル付きデータを取得するという課題によって制限されています。この制限を緩和するために、新しいテキストの高級医療イメージセグメンテーションモデルLVIT(言語が視覚変圧器を満たす)を提案します。LVITモデルでは、画像データの品質不足を補うために医療テキスト注釈が組み込まれています。さらに、テキスト情報は、半学習学習における品質の改善の擬似ラベルを生成するためにガイドできます。また、ピクセルレベルの注意モジュール(PLAM)が半監視LVIT設定でローカル画像機能を保存するのを支援するための指数擬似ラベル反復メカニズム(EPI)を提案します。私たちのモデルでは、LV(Language-Vision)Lossは、テキスト情報を直接使用して、非標識画像のトレーニングを監督するように設計されています。評価のために、X線とCT画像を含む3つのマルチモーダル医療セグメンテーションデータセット(画像 +テキスト)を作成します。実験結果は、提案されたLVITが、完全に監視されたものと半監視設定の両方で優れたセグメンテーションパフォーマンスを持っていることを示しています。コードとデータセットは、https://github.com/huanglizi/lvitで入手できます。
Deep learning has been widely used in medical image segmentation and other aspects. However, the performance of existing medical image segmentation models has been limited by the challenge of obtaining sufficient high-quality labeled data due to the prohibitive data annotation cost. To alleviate this limitation, we propose a new text-augmented medical image segmentation model LViT (Language meets Vision Transformer). In our LViT model, medical text annotation is incorporated to compensate for the quality deficiency in image data. In addition, the text information can guide to generate pseudo labels of improved quality in the semi-supervised learning. We also propose an Exponential Pseudo label Iteration mechanism (EPI) to help the Pixel-Level Attention Module (PLAM) preserve local image features in semi-supervised LViT setting. In our model, LV (Language-Vision) loss is designed to supervise the training of unlabeled images using text information directly. For evaluation, we construct three multimodal medical segmentation datasets (image + text) containing X-rays and CT images. Experimental results show that our proposed LViT has superior segmentation performance in both fully-supervised and semi-supervised setting. The code and datasets are available at https://github.com/HUANGLIZI/LViT.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。