Loading...
The Lancet. Oncology2024Jun11Vol.issue()

MRI(PI-CAI)の前立腺癌検出における人工知能と放射線科医:国際的、ペアの、非劣性、確認研究

,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景:人工知能(AI)システムは、作業負荷の増加を軽減し、過剰診断を防ぎ、経験豊富な放射線科医への依存を減らすことにより、前立腺がんの診断経路を潜在的に助けることができます。前立腺イメージングレポートとデータシステムバージョン2.1(PI-RADS 2.1)を使用して放射線科医と比較して、MRIの臨床的に重要な前立腺がんの検出におけるAIシステムのパフォーマンスを調査することを目指しました。 方法:この国際、ペアの非劣性、確認的研究では、9129からの10 207 MRI試験の遡及コホートを使用してグリーソングレードグループ2または大癌を検出するためのAIシステム(国際コンソーシアム内で開発)を訓練し、外部的に検証しました。患者。これらの試験のうち、オランダに拠点を置く3つのセンター(11のサイト)からの9207症例がトレーニングとチューニングに使用され、オランダとノルウェーに拠点を置く4つのセンター(12サイト)の1000件がテストに使用されました。並行して、400のペアのMRI検査でPi-Rads(2.1)を使用して、62人の放射線科医(20か国の45のセンター、前立腺MRIの読み取りで7年の経験)を対象としたマルチリーダーのマルチキャゼオブザーバー研究を促進しました。テストコホート。主要エンドポイントは、PI-RADを使用しているすべての読者のそれと比較して、AIシステムの受信機動作特性曲線(AUROC)の感度、特異性、および領域(2.1)と比較して、および歴史的な放射線学の読み物と比較した領域でした。学際的なルーチンの実践(つまり、患者の歴史と仲間の相談を支援する標準的なケア)。組織病理学と少なくとも3年(中央値5 [IQR 4-6]年)の追跡調査を使用して、参照基準を確立しました。統計分析計画は、非劣性が確認された場合、非劣性の主要な仮説(0・05のマージンを考慮)とAIシステムに対する優位性の二次仮説を事前に指定しました。この研究は、ClinicalTrials.gov、NCT05489341に登録されました。 調査結果:2012年1月1日から2021年12月31日までの10の207試験のうち、2440件の症例では、グリーソングレードグループ2以上の前立腺がんが組織学的に確認されました。AIシステムを読者研究に参加している放射線科医と比較した400のテストケースのサブセットでは、AIシステムは0・91の統計的に優れたAurocおよび非層Aurocを示しました(95%CI 0・87-0・94; P <0・0001)、0・86(0・83-0・89)の62人の放射線科医のプールと比較して、双方向95%WALD CIの低い境界があります。0・02のauroc。すべての読者の平均PI-RADS 3以上の動作点で、AIシステムは、同じ特異性でグリーソングレードのグループ2または大癌の6・8%の症例を検出しました(57・7%、95%CI 51・6-63・3)、または50・4%の偽陽性結果が少なく、20・0%が同じ感度でグリーソングレードのグループ1癌を伴う症例が少ない(89・4%、95%CI 85・3-92・9)。AIシステムが学際的な慣行中に行われた放射線測定と比較されたすべての1000のテストケースでは、AIシステムの特異性が低いことを示したため、非劣性は確認されませんでした(68.9%[95%CI 65・3-72・4] vs 69・0%[65・5-72・5])同じ感度(96・1%、94・0-98・2)で、PI-RADS 3以上の動作点と同じ。特異性の違い(-0・04)の両側95%Wald CIの低い境界は、非劣性マージン(-0・05)よりも大きく、有意なしきい値を下回るP値に達しました(p <0に達しました・001)。 解釈:AIシステムは、平均してPI-RADS(2.1)を使用して、臨床的に重大な前立腺癌を検出し、標準ケアに匹敵する放射線科医よりも優れていました。このようなシステムは、患者と放射線科医にいくつかの関連する利点を持つ、主要な診断環境内の支持ツールになる可能性を示しています。このシステムの臨床的適用性をテストするには、前向き検証が必要です。 資金調達:Health〜Holland and EU Horizo​​n 2020。

背景:人工知能(AI)システムは、作業負荷の増加を軽減し、過剰診断を防ぎ、経験豊富な放射線科医への依存を減らすことにより、前立腺がんの診断経路を潜在的に助けることができます。前立腺イメージングレポートとデータシステムバージョン2.1(PI-RADS 2.1)を使用して放射線科医と比較して、MRIの臨床的に重要な前立腺がんの検出におけるAIシステムのパフォーマンスを調査することを目指しました。 方法:この国際、ペアの非劣性、確認的研究では、9129からの10 207 MRI試験の遡及コホートを使用してグリーソングレードグループ2または大癌を検出するためのAIシステム(国際コンソーシアム内で開発)を訓練し、外部的に検証しました。患者。これらの試験のうち、オランダに拠点を置く3つのセンター(11のサイト)からの9207症例がトレーニングとチューニングに使用され、オランダとノルウェーに拠点を置く4つのセンター(12サイト)の1000件がテストに使用されました。並行して、400のペアのMRI検査でPi-Rads(2.1)を使用して、62人の放射線科医(20か国の45のセンター、前立腺MRIの読み取りで7年の経験)を対象としたマルチリーダーのマルチキャゼオブザーバー研究を促進しました。テストコホート。主要エンドポイントは、PI-RADを使用しているすべての読者のそれと比較して、AIシステムの受信機動作特性曲線(AUROC)の感度、特異性、および領域(2.1)と比較して、および歴史的な放射線学の読み物と比較した領域でした。学際的なルーチンの実践(つまり、患者の歴史と仲間の相談を支援する標準的なケア)。組織病理学と少なくとも3年(中央値5 [IQR 4-6]年)の追跡調査を使用して、参照基準を確立しました。統計分析計画は、非劣性が確認された場合、非劣性の主要な仮説(0・05のマージンを考慮)とAIシステムに対する優位性の二次仮説を事前に指定しました。この研究は、ClinicalTrials.gov、NCT05489341に登録されました。 調査結果:2012年1月1日から2021年12月31日までの10の207試験のうち、2440件の症例では、グリーソングレードグループ2以上の前立腺がんが組織学的に確認されました。AIシステムを読者研究に参加している放射線科医と比較した400のテストケースのサブセットでは、AIシステムは0・91の統計的に優れたAurocおよび非層Aurocを示しました(95%CI 0・87-0・94; P <0・0001)、0・86(0・83-0・89)の62人の放射線科医のプールと比較して、双方向95%WALD CIの低い境界があります。0・02のauroc。すべての読者の平均PI-RADS 3以上の動作点で、AIシステムは、同じ特異性でグリーソングレードのグループ2または大癌の6・8%の症例を検出しました(57・7%、95%CI 51・6-63・3)、または50・4%の偽陽性結果が少なく、20・0%が同じ感度でグリーソングレードのグループ1癌を伴う症例が少ない(89・4%、95%CI 85・3-92・9)。AIシステムが学際的な慣行中に行われた放射線測定と比較されたすべての1000のテストケースでは、AIシステムの特異性が低いことを示したため、非劣性は確認されませんでした(68.9%[95%CI 65・3-72・4] vs 69・0%[65・5-72・5])同じ感度(96・1%、94・0-98・2)で、PI-RADS 3以上の動作点と同じ。特異性の違い(-0・04)の両側95%Wald CIの低い境界は、非劣性マージン(-0・05)よりも大きく、有意なしきい値を下回るP値に達しました(p <0に達しました・001)。 解釈:AIシステムは、平均してPI-RADS(2.1)を使用して、臨床的に重大な前立腺癌を検出し、標準ケアに匹敵する放射線科医よりも優れていました。このようなシステムは、患者と放射線科医にいくつかの関連する利点を持つ、主要な診断環境内の支持ツールになる可能性を示しています。このシステムの臨床的適用性をテストするには、前向き検証が必要です。 資金調達:Health〜Holland and EU Horizo​​n 2020。

BACKGROUND: Artificial intelligence (AI) systems can potentially aid the diagnostic pathway of prostate cancer by alleviating the increasing workload, preventing overdiagnosis, and reducing the dependence on experienced radiologists. We aimed to investigate the performance of AI systems at detecting clinically significant prostate cancer on MRI in comparison with radiologists using the Prostate Imaging-Reporting and Data System version 2.1 (PI-RADS 2.1) and the standard of care in multidisciplinary routine practice at scale. METHODS: In this international, paired, non-inferiority, confirmatory study, we trained and externally validated an AI system (developed within an international consortium) for detecting Gleason grade group 2 or greater cancers using a retrospective cohort of 10 207 MRI examinations from 9129 patients. Of these examinations, 9207 cases from three centres (11 sites) based in the Netherlands were used for training and tuning, and 1000 cases from four centres (12 sites) based in the Netherlands and Norway were used for testing. In parallel, we facilitated a multireader, multicase observer study with 62 radiologists (45 centres in 20 countries; median 7 [IQR 5-10] years of experience in reading prostate MRI) using PI-RADS (2.1) on 400 paired MRI examinations from the testing cohort. Primary endpoints were the sensitivity, specificity, and the area under the receiver operating characteristic curve (AUROC) of the AI system in comparison with that of all readers using PI-RADS (2.1) and in comparison with that of the historical radiology readings made during multidisciplinary routine practice (ie, the standard of care with the aid of patient history and peer consultation). Histopathology and at least 3 years (median 5 [IQR 4-6] years) of follow-up were used to establish the reference standard. The statistical analysis plan was prespecified with a primary hypothesis of non-inferiority (considering a margin of 0·05) and a secondary hypothesis of superiority towards the AI system, if non-inferiority was confirmed. This study was registered at ClinicalTrials.gov, NCT05489341. FINDINGS: Of the 10 207 examinations included from Jan 1, 2012, through Dec 31, 2021, 2440 cases had histologically confirmed Gleason grade group 2 or greater prostate cancer. In the subset of 400 testing cases in which the AI system was compared with the radiologists participating in the reader study, the AI system showed a statistically superior and non-inferior AUROC of 0·91 (95% CI 0·87-0·94; p<0·0001), in comparison to the pool of 62 radiologists with an AUROC of 0·86 (0·83-0·89), with a lower boundary of the two-sided 95% Wald CI for the difference in AUROC of 0·02. At the mean PI-RADS 3 or greater operating point of all readers, the AI system detected 6·8% more cases with Gleason grade group 2 or greater cancers at the same specificity (57·7%, 95% CI 51·6-63·3), or 50·4% fewer false-positive results and 20·0% fewer cases with Gleason grade group 1 cancers at the same sensitivity (89·4%, 95% CI 85·3-92·9). In all 1000 testing cases where the AI system was compared with the radiology readings made during multidisciplinary practice, non-inferiority was not confirmed, as the AI system showed lower specificity (68·9% [95% CI 65·3-72·4] vs 69·0% [65·5-72·5]) at the same sensitivity (96·1%, 94·0-98·2) as the PI-RADS 3 or greater operating point. The lower boundary of the two-sided 95% Wald CI for the difference in specificity (-0·04) was greater than the non-inferiority margin (-0·05) and a p value below the significance threshold was reached (p<0·001). INTERPRETATION: An AI system was superior to radiologists using PI-RADS (2.1), on average, at detecting clinically significant prostate cancer and comparable to the standard of care. Such a system shows the potential to be a supportive tool within a primary diagnostic setting, with several associated benefits for patients and radiologists. Prospective validation is needed to test clinical applicability of this system. FUNDING: Health~Holland and EU Horizon 2020.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google