Loading...
※翻訳は機械翻訳サービスを利用しております
Clinical orthopaedics and related research2023Jun12Vol.issue()

欠落データの存在は、脊髄転移患者のSORGマシンラーニングアルゴリズムのパフォーマンスに影響しますか?インターネットアプリケーションアルゴリズムの開発

,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景: Skeletal Oncology Research Group の機械学習アルゴリズム (SORG-MLA) は、脊椎転移患者の生存を予測するために開発されました。このアルゴリズムは、5 つの国際機関で、さまざまな大陸から来た 1,101 人の患者を使用してテストされ、成功しました。 18 の予後因子を組み込むことで、その予測能力は強化されますが、臨床医が予測を希望するときに一部の予後因子が臨床的に利用できない可能性があるため、その臨床的有用性は制限されます。質問/目的: この研究は、(1) データを使用した SORG-MLA のパフォーマンスを評価し、(2) 欠落データを補完するインターネット ベースのアプリケーションを開発するために実行されました。方法: 合計 2,768 人の患者がこの研究に参加しました。外科的治療を受けた617人の患者のデータは意図的に消去され、放射線療法と内科的治療を受けた他の2151人の患者のデータは人為的に欠落したデータを補完するために使用された。非外科的治療を受けた患者と比較して、手術を受けた患者は若く(中央値59歳[IQR 51~67歳]対中央値62歳[IQR 53~71歳])、少なくとも3つの脊椎転移レベルを有する患者の割合が高かった。 (77% [474/617] 対 72% [1547/2151])、より多くの神経障害 (米国脊髄損傷協会 [E] 正常 68% [301/443] 対 79% [1227/1561])、BMI が高い ( 23 kg/m2 [IQR 20 ~ 25 kg/m2] 対 22 kg/m2 [IQR 20 ~ 25 kg/m2])、血小板数が多い (240 × 103/μL [IQR 173 ~ 327 × 103/μL] 対 227 × 103/μL [IQR 165 ~ 302 × 103/μL]、リンパ球数が多い (15 × 103/μL [IQR 9 ~ 21× 103/μL] と 14 × 103/μL [IQR 8 ~ 21 × 103/μL]) )、血清クレアチニン値の低下(0.7 mg/dL [IQR 0.6 ~ 0.9 mg/dL] vs 0.8 mg/dL [IQR 0.6 ~ 1.0 mg/dL])、以前の全身療法の減少(19% [115 of 617] vs 24 % [526/2151])、癌以外のチャールソン併存疾患が少なく (28% [170/617] 対 36% [770/2151])、生存期間中央値が長くなります。 2 つの患者グループは、その他の点では違いはありませんでした。これらの所見は、BMIやリンパ球数などの予後良好因子のレベルと、白血球数や血清クレアチニンレベルなどの予後不良因子の低レベル、および程度に基づいて外科的介入の対象となる患者を選択するという当院の施設理念と一致している。脊椎の不安定性と神経障害の重篤度。このアプローチは、より良好な生存成績を持つ患者を特定し、それに応じて外科的介入を優先することを目的としています。過去の5つの検証研究と臨床経験に基づいて、7つの要素(血清アルブミンおよびアルカリホスファターゼレベル、国際正規化比、リンパ球および好中球数、内臓転移または脳転移の存在)が欠落している可能性のある項目とみなされました。人為的に欠損したデータは、検証研究で SORG-MLA に適合することが以前に適用され、正常にテストされた missForest 補完手法を使用して補完されました。 SORG-MLA のパフォーマンスを評価するために、識別、校正、全体的なパフォーマンス、および決定曲線分析が適用されました。識別能力は、受信機動作特性曲線の下の面積で測定されました。範囲は 0.5 ~ 1.0 で、0.5 は最悪の識別を示し、1.0 は完全な識別を示します。 0.7 の曲線下面積は、臨床的に許容できる識別とみなされます。キャリブレーションとは、予測された結果と実際の結果が一致することを指します。理想的なキャリブレーション モデルでは、観察された生存率と一致する予測生存率が得られます。 Brier スコアは、実際の結果と予測された確率の間の二乗差を測定し、キャリブレーションと識別能力を同時に捉えます。ブライアー スコア 0 は完全な予測を示し、ブライアー スコア 1 は最も悪い予測を示します。 6 週間、90 日、および 1 年の予測モデルに対して決定曲線分析を実行し、さまざまなしきい値確率にわたる純利益を評価しました。分析の結果を使用して、ポイントオブケアでの臨床意思決定のためのリアルタイムのデータ入力を容易にするインターネットベースのアプリケーションを開発しました。このツールを使用すると、医療専門家は不足しているデータに効率的かつ効果的に対処できるようになり、患者ケアを常に最適な状態に保つことができます。結果: 一般に、SORG-MLA は優れた識別能力を示し、ほとんどの場合で曲線下面積が 0.7 を超え、全体的なパフォーマンスも良好で、1 ~ 3 個の項目が欠落している場合でも Brier スコアが最大 25% 向上しました。唯一の例外はアルブミン レベルとリンパ球数であり、これら 2 つの項目が欠けていると SORG-MLA のパフォーマンスが低下するため、これらの値がないと SORG-MLA の信頼性が低い可能性があることが示されています。このモデルは患者の生存率を過小評価する傾向がありました。欠落品の数が増加するにつれて、モデルの識別能力は徐々に損なわれ、患者生存率の顕著な過小評価が観察されました。具体的には、物品が 3 つ欠落している場合、実際の生存者数は予想される生存者数の最大 1.3 倍でしたが、物品が 1 つだけ欠落している場合には、差異はわずか 10% しか観察されませんでした。 2 つまたは 3 つの項目が省略された場合、決定曲線は大幅な重複を示し、パフォーマンスに一貫した差異がないことを示しました。この発見は、省略された 2 つまたは 3 つの項目に関係なく、SORG-MLA が一貫して正確な予測を生成することを示唆しています。私たちは、最大 3 つの欠落項目で SORG-MLA を使用できるようにするインターネット アプリケーション (https://sorg-spine-mets-missing-data-imputation.azurewebsites.net/) を開発しました。結論: SORG-MLA は、血清アルブミン レベルとリンパ球数 (修正バージョンの SORG-MLA を使用した場合でも、適切な予測に不可欠です) を除いて、1 ~ 3 つの欠落項目が存在する場合でも一般的に良好に機能しました。臨床上の決定を下す必要がある時点では一部のデータが利用できないため、将来の研究では欠損データがある場合に使用できる予測モデルを開発するか、欠損データを補完する手段を提供することをお勧めします。臨床関連性: 結果は、このアルゴリズムが、待ち時間が長くて放射線検査が時間内に実行できない場合、特に早期の手術が有益である可能性がある場合に役立つ可能性があることを示唆しました。これは、たとえ手術の適応が明らかな場合でも、整形外科医が緩和的に介入するか広範囲に介入するかを決定するのに役立つ可能性がある。

背景: Skeletal Oncology Research Group の機械学習アルゴリズム (SORG-MLA) は、脊椎転移患者の生存を予測するために開発されました。このアルゴリズムは、5 つの国際機関で、さまざまな大陸から来た 1,101 人の患者を使用してテストされ、成功しました。 18 の予後因子を組み込むことで、その予測能力は強化されますが、臨床医が予測を希望するときに一部の予後因子が臨床的に利用できない可能性があるため、その臨床的有用性は制限されます。質問/目的: この研究は、(1) データを使用した SORG-MLA のパフォーマンスを評価し、(2) 欠落データを補完するインターネット ベースのアプリケーションを開発するために実行されました。方法: 合計 2,768 人の患者がこの研究に参加しました。外科的治療を受けた617人の患者のデータは意図的に消去され、放射線療法と内科的治療を受けた他の2151人の患者のデータは人為的に欠落したデータを補完するために使用された。非外科的治療を受けた患者と比較して、手術を受けた患者は若く(中央値59歳[IQR 51~67歳]対中央値62歳[IQR 53~71歳])、少なくとも3つの脊椎転移レベルを有する患者の割合が高かった。 (77% [474/617] 対 72% [1547/2151])、より多くの神経障害 (米国脊髄損傷協会 [E] 正常 68% [301/443] 対 79% [1227/1561])、BMI が高い ( 23 kg/m2 [IQR 20 ~ 25 kg/m2] 対 22 kg/m2 [IQR 20 ~ 25 kg/m2])、血小板数が多い (240 × 103/μL [IQR 173 ~ 327 × 103/μL] 対 227 × 103/μL [IQR 165 ~ 302 × 103/μL]、リンパ球数が多い (15 × 103/μL [IQR 9 ~ 21× 103/μL] と 14 × 103/μL [IQR 8 ~ 21 × 103/μL]) )、血清クレアチニン値の低下(0.7 mg/dL [IQR 0.6 ~ 0.9 mg/dL] vs 0.8 mg/dL [IQR 0.6 ~ 1.0 mg/dL])、以前の全身療法の減少(19% [115 of 617] vs 24 % [526/2151])、癌以外のチャールソン併存疾患が少なく (28% [170/617] 対 36% [770/2151])、生存期間中央値が長くなります。 2 つの患者グループは、その他の点では違いはありませんでした。これらの所見は、BMIやリンパ球数などの予後良好因子のレベルと、白血球数や血清クレアチニンレベルなどの予後不良因子の低レベル、および程度に基づいて外科的介入の対象となる患者を選択するという当院の施設理念と一致している。脊椎の不安定性と神経障害の重篤度。このアプローチは、より良好な生存成績を持つ患者を特定し、それに応じて外科的介入を優先することを目的としています。過去の5つの検証研究と臨床経験に基づいて、7つの要素(血清アルブミンおよびアルカリホスファターゼレベル、国際正規化比、リンパ球および好中球数、内臓転移または脳転移の存在)が欠落している可能性のある項目とみなされました。人為的に欠損したデータは、検証研究で SORG-MLA に適合することが以前に適用され、正常にテストされた missForest 補完手法を使用して補完されました。 SORG-MLA のパフォーマンスを評価するために、識別、校正、全体的なパフォーマンス、および決定曲線分析が適用されました。識別能力は、受信機動作特性曲線の下の面積で測定されました。範囲は 0.5 ~ 1.0 で、0.5 は最悪の識別を示し、1.0 は完全な識別を示します。 0.7 の曲線下面積は、臨床的に許容できる識別とみなされます。キャリブレーションとは、予測された結果と実際の結果が一致することを指します。理想的なキャリブレーション モデルでは、観察された生存率と一致する予測生存率が得られます。 Brier スコアは、実際の結果と予測された確率の間の二乗差を測定し、キャリブレーションと識別能力を同時に捉えます。ブライアー スコア 0 は完全な予測を示し、ブライアー スコア 1 は最も悪い予測を示します。 6 週間、90 日、および 1 年の予測モデルに対して決定曲線分析を実行し、さまざまなしきい値確率にわたる純利益を評価しました。分析の結果を使用して、ポイントオブケアでの臨床意思決定のためのリアルタイムのデータ入力を容易にするインターネットベースのアプリケーションを開発しました。このツールを使用すると、医療専門家は不足しているデータに効率的かつ効果的に対処できるようになり、患者ケアを常に最適な状態に保つことができます。結果: 一般に、SORG-MLA は優れた識別能力を示し、ほとんどの場合で曲線下面積が 0.7 を超え、全体的なパフォーマンスも良好で、1 ~ 3 個の項目が欠落している場合でも Brier スコアが最大 25% 向上しました。唯一の例外はアルブミン レベルとリンパ球数であり、これら 2 つの項目が欠けていると SORG-MLA のパフォーマンスが低下するため、これらの値がないと SORG-MLA の信頼性が低い可能性があることが示されています。このモデルは患者の生存率を過小評価する傾向がありました。欠落品の数が増加するにつれて、モデルの識別能力は徐々に損なわれ、患者生存率の顕著な過小評価が観察されました。具体的には、物品が 3 つ欠落している場合、実際の生存者数は予想される生存者数の最大 1.3 倍でしたが、物品が 1 つだけ欠落している場合には、差異はわずか 10% しか観察されませんでした。 2 つまたは 3 つの項目が省略された場合、決定曲線は大幅な重複を示し、パフォーマンスに一貫した差異がないことを示しました。この発見は、省略された 2 つまたは 3 つの項目に関係なく、SORG-MLA が一貫して正確な予測を生成することを示唆しています。私たちは、最大 3 つの欠落項目で SORG-MLA を使用できるようにするインターネット アプリケーション (https://sorg-spine-mets-missing-data-imputation.azurewebsites.net/) を開発しました。結論: SORG-MLA は、血清アルブミン レベルとリンパ球数 (修正バージョンの SORG-MLA を使用した場合でも、適切な予測に不可欠です) を除いて、1 ~ 3 つの欠落項目が存在する場合でも一般的に良好に機能しました。臨床上の決定を下す必要がある時点では一部のデータが利用できないため、将来の研究では欠損データがある場合に使用できる予測モデルを開発するか、欠損データを補完する手段を提供することをお勧めします。臨床関連性: 結果は、このアルゴリズムが、待ち時間が長くて放射線検査が時間内に実行できない場合、特に早期の手術が有益である可能性がある場合に役立つ可能性があることを示唆しました。これは、たとえ手術の適応が明らかな場合でも、整形外科医が緩和的に介入するか広範囲に介入するかを決定するのに役立つ可能性がある。

BACKGROUND: The Skeletal Oncology Research Group machine-learning algorithm (SORG-MLA) was developed to predict the survival of patients with spinal metastasis. The algorithm was successfully tested in five international institutions using 1101 patients from different continents. The incorporation of 18 prognostic factors strengthens its predictive ability but limits its clinical utility because some prognostic factors might not be clinically available when a clinician wishes to make a prediction. QUESTIONS/PURPOSES: We performed this study to (1) evaluate the SORG-MLA's performance with data and (2) develop an internet-based application to impute the missing data. METHODS: A total of 2768 patients were included in this study. The data of 617 patients who were treated surgically were intentionally erased, and the data of the other 2151 patients who were treated with radiotherapy and medical treatment were used to impute the artificially missing data. Compared with those who were treated nonsurgically, patients undergoing surgery were younger (median 59 years [IQR 51 to 67 years] versus median 62 years [IQR 53 to 71 years]) and had a higher proportion of patients with at least three spinal metastatic levels (77% [474 of 617] versus 72% [1547 of 2151]), more neurologic deficit (normal American Spinal Injury Association [E] 68% [301 of 443] versus 79% [1227 of 1561]), higher BMI (23 kg/m2 [IQR 20 to 25 kg/m2] versus 22 kg/m2 [IQR 20 to 25 kg/m2]), higher platelet count (240 × 103/µL [IQR 173 to 327 × 103/µL] versus 227 × 103/µL [IQR 165 to 302 × 103/µL], higher lymphocyte count (15 × 103/µL [IQR 9 to 21× 103/µL] versus 14 × 103/µL [IQR 8 to 21 × 103/µL]), lower serum creatinine level (0.7 mg/dL [IQR 0.6 to 0.9 mg/dL] versus 0.8 mg/dL [IQR 0.6 to 1.0 mg/dL]), less previous systemic therapy (19% [115 of 617] versus 24% [526 of 2151]), fewer Charlson comorbidities other than cancer (28% [170 of 617] versus 36% [770 of 2151]), and longer median survival. The two patient groups did not differ in other regards. These findings aligned with our institutional philosophy of selecting patients for surgical intervention based on their level of favorable prognostic factors such as BMI or lymphocyte counts and lower levels of unfavorable prognostic factors such as white blood cell counts or serum creatinine level, as well as the degree of spinal instability and severity of neurologic deficits. This approach aims to identify patients with better survival outcomes and prioritize their surgical intervention accordingly. Seven factors (serum albumin and alkaline phosphatase levels, international normalized ratio, lymphocyte and neutrophil counts, and the presence of visceral or brain metastases) were considered possible missing items based on five previous validation studies and clinical experience. Artificially missing data were imputed using the missForest imputation technique, which was previously applied and successfully tested to fit the SORG-MLA in validation studies. Discrimination, calibration, overall performance, and decision curve analysis were applied to evaluate the SORG-MLA's performance. The discrimination ability was measured with an area under the receiver operating characteristic curve. It ranges from 0.5 to 1.0, with 0.5 indicating the worst discrimination and 1.0 indicating perfect discrimination. An area under the curve of 0.7 is considered clinically acceptable discrimination. Calibration refers to the agreement between the predicted outcomes and actual outcomes. An ideal calibration model will yield predicted survival rates that are congruent with the observed survival rates. The Brier score measures the squared difference between the actual outcome and predicted probability, which captures calibration and discrimination ability simultaneously. A Brier score of 0 indicates perfect prediction, whereas a Brier score of 1 indicates the poorest prediction. A decision curve analysis was performed for the 6-week, 90-day, and 1-year prediction models to evaluate their net benefit across different threshold probabilities. Using the results from our analysis, we developed an internet-based application that facilitates real-time data imputation for clinical decision-making at the point of care. This tool allows healthcare professionals to efficiently and effectively address missing data, ensuring that patient care remains optimal at all times. RESULTS: Generally, the SORG-MLA demonstrated good discriminatory ability, with areas under the curve greater than 0.7 in most cases, and good overall performance, with up to 25% improvement in Brier scores in the presence of one to three missing items. The only exceptions were albumin level and lymphocyte count, because the SORG-MLA's performance was reduced when these two items were missing, indicating that the SORG-MLA might be unreliable without these values. The model tended to underestimate the patient survival rate. As the number of missing items increased, the model's discriminatory ability was progressively impaired, and a marked underestimation of patient survival rates was observed. Specifically, when three items were missing, the number of actual survivors was up to 1.3 times greater than the number of expected survivors, while only 10% discrepancy was observed when only one item was missing. When either two or three items were omitted, the decision curves exhibited substantial overlap, indicating a lack of consistent disparities in performance. This finding suggests that the SORG-MLA consistently generates accurate predictions, regardless of the two or three items that are omitted. We developed an internet application (https://sorg-spine-mets-missing-data-imputation.azurewebsites.net/) that allows the use of SORG-MLA with up to three missing items. CONCLUSION: The SORG-MLA generally performed well in the presence of one to three missing items, except for serum albumin level and lymphocyte count (which are essential for adequate predictions, even using our modified version of the SORG-MLA). We recommend that future studies should develop prediction models that allow for their use when there are missing data, or provide a means to impute those missing data, because some data are not available at the time a clinical decision must be made. CLINICAL RELEVANCE: The results suggested the algorithm could be helpful when a radiologic evaluation owing to a lengthy waiting period cannot be performed in time, especially in situations when an early operation could be beneficial. It could help orthopaedic surgeons to decide whether to intervene palliatively or extensively, even when the surgical indication is clear.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google