著名医師による解説が無料で読めます
すると翻訳の精度が向上します
バックグラウンドコンテキスト:人工知能(AI)とのコンピューター支援診断が臨床的に使用されており、医療画像分析のAIパフォーマンスには、グラウンドトゥルースの一般化が重要です。AIモデルは、高齢者の特定のグループ(60歳)の特定のグループで訓練されていますが、若い成人グループ(18〜59歳)でも同様に機能することはまだ示されていません。 目的:開発されたAIモデルのパフォーマンスを、若年および高齢の成人集団の間の脊椎(PLR)の単純な外側レントゲン写真で椎骨骨折(VF)を特定する際に、60歳以上の人々のためのグラウンドトゥルースで訓練されたアンサンブルメソッドと比較する。 研究デザイン/設定:単一の医療機関におけるPLRの回顧的分析。 結果の測定:精度、感度、特異性、および観察者間信頼性(Kappa値)を使用して、AIモデルと2つのグループ間の副専門家のコンセンサスを比較しました。 方法:2016年1月から2018年12月の間に、1101 VFSと6358の正常椎骨を備えた60歳以上の941人の患者(1人あたり1人のPLR)のグラウンドトゥルースを使用して、AIモデルをセットアップしました。開発されたAIモデルのフレームワークには、次のものが含まれます。オブジェクトの検出とのオブジェクト検出PLRSのT0-L5レベルでバージョン3(Yolov3)、画像サイズと品質処理を備えたデータの前処理、およびAIアンサンブルモデル(ResNet34、Densenet1211、およびdensenet201)VFSを識別またはグレーディングするため。報告された全体的な精度、感度、特異性は、それぞれ92%、91%、93%であり、外部検証も実行されました。その後、VFSと診断され、2019年10月から2020年8月に私たちの施設で治療を受けた患者は、年齢に関係なく研究グループでした。合計で、高齢者集団の258人の患者(339 VFSおよび1725の正常椎骨)(平均年齢78±10.4、範囲、60-106)が登録されました。若い成人人口(平均年齢36±9.43;範囲、20〜49)では、106人の患者(120 VFSおよび728の正常椎骨)が登録されました。2人の副専門医の間でコンセンサスを伴うGenant Methodに基づいたVFSの識別とグレーディングの後、ヒトラベルを持つ各PLRのVFSは、テストデータセットとして定義されました。対応するCTまたはMRIスキャンは、PLRでのラベル付けに使用されました。ブートストラップ法は、テストデータセットに適用されました。 結果:臨床応用、デジタルイメージング、医学(DICOM)形式のコミュニケーションのモデルは、直接アップロードされます(http://140.113.114.104/vght_demo/svf-model(grading)およびhttp://140.113.114.1044.1044.1044.1044.1044./VGHT DEMO/SVF-MODEL2(ラベル)は、高齢者集団の全体的な精度、感度、特異性でした。%(95%CI 94.23%-94.29%)は、それぞれ若年成人集団の感度と特異性が93.75%(95.7%-93.8%)、65.00%(95%CI 64.33%-65.67%)および98.49%(95%CI 98.45%-98.52%)は、VFSの正確なパターンを正確にラベル付けすると、VFSグレーディングで100%に達しました。データセットからの四肢のようなVFが含まれていない場合、精度は93.75%(93.70%-93.80%)から95.78%(95%CI 95.73%-95.82%)に増加しました。%(95%CI 64.33%-65.67%)から70.13%(95%CI 68.98%-71.27%)および特異性は、それぞれ98.49%(95%CI 98.45%-98.52%)で変化しませんでした。高齢者の偽陰性結果の主な原因は、患者の肺マーク、横隔膜または腸の空気(37%、n = 14)に続いて、I型骨折(29%、n = 11)でした。若い成人の偽陰性の主な原因は、四肢様VFS(45%、n = 19)であり、その後にI型骨折(26%、n = 11)が続きました。AI差別と高齢者および若年成人の集団における副専門医のコンセンサスの間の全体的なカッパは、それぞれ0.77(95%CI、0.733-0.805)と0.72(95%CI、0.6524-0.80)でした。 結論:高齢者のグラウンドトゥルースに基づいた開発されたVFを特定するAIアンサンブルモデルは、高齢者のVFSを特定し、若年成人の非配置胸椎および腰椎椎骨を特定しました。年齢分布が異なると、潜在的な疾患の多様性があり、AIモデルのパフォーマンスに対するグラウンドトゥルースの一般化可能性の影響に関係している可能性があります。
バックグラウンドコンテキスト:人工知能(AI)とのコンピューター支援診断が臨床的に使用されており、医療画像分析のAIパフォーマンスには、グラウンドトゥルースの一般化が重要です。AIモデルは、高齢者の特定のグループ(60歳)の特定のグループで訓練されていますが、若い成人グループ(18〜59歳)でも同様に機能することはまだ示されていません。 目的:開発されたAIモデルのパフォーマンスを、若年および高齢の成人集団の間の脊椎(PLR)の単純な外側レントゲン写真で椎骨骨折(VF)を特定する際に、60歳以上の人々のためのグラウンドトゥルースで訓練されたアンサンブルメソッドと比較する。 研究デザイン/設定:単一の医療機関におけるPLRの回顧的分析。 結果の測定:精度、感度、特異性、および観察者間信頼性(Kappa値)を使用して、AIモデルと2つのグループ間の副専門家のコンセンサスを比較しました。 方法:2016年1月から2018年12月の間に、1101 VFSと6358の正常椎骨を備えた60歳以上の941人の患者(1人あたり1人のPLR)のグラウンドトゥルースを使用して、AIモデルをセットアップしました。開発されたAIモデルのフレームワークには、次のものが含まれます。オブジェクトの検出とのオブジェクト検出PLRSのT0-L5レベルでバージョン3(Yolov3)、画像サイズと品質処理を備えたデータの前処理、およびAIアンサンブルモデル(ResNet34、Densenet1211、およびdensenet201)VFSを識別またはグレーディングするため。報告された全体的な精度、感度、特異性は、それぞれ92%、91%、93%であり、外部検証も実行されました。その後、VFSと診断され、2019年10月から2020年8月に私たちの施設で治療を受けた患者は、年齢に関係なく研究グループでした。合計で、高齢者集団の258人の患者(339 VFSおよび1725の正常椎骨)(平均年齢78±10.4、範囲、60-106)が登録されました。若い成人人口(平均年齢36±9.43;範囲、20〜49)では、106人の患者(120 VFSおよび728の正常椎骨)が登録されました。2人の副専門医の間でコンセンサスを伴うGenant Methodに基づいたVFSの識別とグレーディングの後、ヒトラベルを持つ各PLRのVFSは、テストデータセットとして定義されました。対応するCTまたはMRIスキャンは、PLRでのラベル付けに使用されました。ブートストラップ法は、テストデータセットに適用されました。 結果:臨床応用、デジタルイメージング、医学(DICOM)形式のコミュニケーションのモデルは、直接アップロードされます(http://140.113.114.104/vght_demo/svf-model(grading)およびhttp://140.113.114.1044.1044.1044.1044.1044./VGHT DEMO/SVF-MODEL2(ラベル)は、高齢者集団の全体的な精度、感度、特異性でした。%(95%CI 94.23%-94.29%)は、それぞれ若年成人集団の感度と特異性が93.75%(95.7%-93.8%)、65.00%(95%CI 64.33%-65.67%)および98.49%(95%CI 98.45%-98.52%)は、VFSの正確なパターンを正確にラベル付けすると、VFSグレーディングで100%に達しました。データセットからの四肢のようなVFが含まれていない場合、精度は93.75%(93.70%-93.80%)から95.78%(95%CI 95.73%-95.82%)に増加しました。%(95%CI 64.33%-65.67%)から70.13%(95%CI 68.98%-71.27%)および特異性は、それぞれ98.49%(95%CI 98.45%-98.52%)で変化しませんでした。高齢者の偽陰性結果の主な原因は、患者の肺マーク、横隔膜または腸の空気(37%、n = 14)に続いて、I型骨折(29%、n = 11)でした。若い成人の偽陰性の主な原因は、四肢様VFS(45%、n = 19)であり、その後にI型骨折(26%、n = 11)が続きました。AI差別と高齢者および若年成人の集団における副専門医のコンセンサスの間の全体的なカッパは、それぞれ0.77(95%CI、0.733-0.805)と0.72(95%CI、0.6524-0.80)でした。 結論:高齢者のグラウンドトゥルースに基づいた開発されたVFを特定するAIアンサンブルモデルは、高齢者のVFSを特定し、若年成人の非配置胸椎および腰椎椎骨を特定しました。年齢分布が異なると、潜在的な疾患の多様性があり、AIモデルのパフォーマンスに対するグラウンドトゥルースの一般化可能性の影響に関係している可能性があります。
BACKGROUND CONTEXT: Computer-aided diagnosis with artificial intelligence (AI) has been used clinically, and ground truth generalizability is important for AI performance in medical image analyses. The AI model was trained on one specific group of older adults (aged≧60) has not yet been shown to work equally well in a younger adult group (aged 18-59). PURPOSE: To compare the performance of the developed AI model with ensemble method trained with the ground truth for those aged 60 years or older in identifying vertebral fractures (VFs) on plain lateral radiographs of spine (PLRS) between younger and older adult populations. STUDY DESIGN/SETTING: Retrospective analysis of PLRS in a single medical institution. OUTCOME MEASURES: Accuracy, sensitivity, specificity, and interobserver reliability (kappa value) were used to compare diagnostic performance of the AI model and subspecialists' consensus between the two groups. METHODS: Between January 2016 and December 2018, the ground truth of 941 patients (one PLRS per person) aged 60 years and older with 1101 VFs and 6358 normal vertebrae was used to set up the AI model. The framework of the developed AI model includes: object detection with You Only Look Once Version 3 (YOLOv3) at T0-L5 levels in the PLRS, data pre-preprocessing with image-size and quality processing, and AI ensemble model (ResNet34, DenseNet121, and DenseNet201) for identifying or grading VFs. The reported overall accuracy, sensitivity and specificity were 92%, 91% and 93%, respectively, and external validation was also performed. Thereafter, patients diagnosed as VFs and treated in our institution during October 2019 to August 2020 were the study group regardless of age. In total, 258 patients (339 VFs and 1725 normal vertebrae) in the older adult population (mean age 78±10.4; range, 60-106) were enrolled. In the younger adult population (mean age 36±9.43; range, 20-49), 106 patients (120 VFs and 728 normal vertebrae) were enrolled. After identification and grading of VFs based on the Genant method with consensus between two subspecialists', VFs in each PLRS with human labels were defined as the testing dataset. The corresponding CT or MRI scan was used for labeling in the PLRS. The bootstrap method was applied to the testing dataset. RESULTS: The model for clinical application, Digital Imaging and Communications in Medicine (DICOM) format, is uploaded directly (available at: http://140.113.114.104/vght_demo/svf-model (grading) and http://140.113.114.104/vght demo/svf-model2 (labeling). Overall accuracy, sensitivity and specificity in the older adult population were 93.36% (95% CI 93.34%-93.38%), 88.97% (95% CI 88.59%-88.99%) and 94.26% (95% CI 94.23%-94.29%), respectively. Overall accuracy, sensitivity and specificity in the younger adult population were 93.75% (95% CI 93.7%-93.8%), 65.00% (95% CI 64.33%-65.67%) and 98.49% (95% CI 98.45%-98.52%), respectively. Accuracy reached 100% in VFs grading once the VFs were labeled accurately. The unique pattern of limbus-like VFs, 43 (35.8%) were investigated only in the younger adult population. If limbus-like VFs from the dataset were not included, the accuracy increased from 93.75% (95% CI 93.70%-93.80%) to 95.78% (95% CI 95.73%-95.82%), sensitivity increased from 65.00% (95% CI 64.33%-65.67%) to 70.13% (95% CI 68.98%-71.27%) and specificity remained unchanged at 98.49% (95% CI 98.45%-98.52%), respectively. The main causes of false negative results in older adults were patients' lung markings, diaphragm or bowel airs (37%, n=14) followed by type I fracture (29%, n=11). The main causes of false negatives in younger adults were limbus-like VFs (45%, n=19), followed by type I fracture (26%, n=11). The overall kappa between AI discrimination and subspecialists' consensus in the older and younger adult populations were 0.77 (95% CI, 0.733-0.805) and 0.72 (95% CI, 0.6524-0.80), respectively. CONCLUSIONS: The developed VF-identifying AI ensemble model based on ground truth of older adults achieved better performance in identifying VFs in older adults and non-fractured thoracic and lumbar vertebrae in the younger adults. Different age distribution may have potential disease diversity and implicate the effect of ground truth generalizability on the AI model performance.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。