Loading...
※翻訳は機械翻訳サービスを利用しております
International journal of medical informatics2019Dec01Vol.132issue()

脳卒中臨床結果の検証のために複数のデータセットを使用して密度ベースの異常値の識別を適用する

,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, N.I.H., Intramural
概要
Abstract

はじめに:臨床医は一般に、脳卒中後の臨床結果を測定するために、修正ランキンスケール(MRS)とバーセル指数(BI)を使用します。これらは、脳卒中の結果予測のための機械学習モデルの潜在的なターゲットです。したがって、測定の品質は、これらのモデルのトレーニングと検証に重要です。この研究の目的は、複数の大ストロークデータセットで潜在的に誤った測定値を識別して測定品質を評価するための密度ベースの異常値検出方法を適用および評価することでした。 方法:アプリケーションの密度ベースの空間クラスタリング(DBSCAN)、階層DBSCAN(HDBSCAN)、および台湾の全国的な前向きストロークレジストリから得られた大規模なデータセットに基づいたローカル外れ値因子(LOF)を含む3つの密度ベースの異常値検出方法を適用しました。各メソッドのテストは、4つの異なるNinds資金によるストロークデータセットを使用して行われました。 結果:DBSCANは、最高の平均精度が4のMRSで99.2±0.7であり、平均精度が最も低いMRSで999.2±0.7であるすべてのMRS値で高性能を達成しました。LOFは同様のパフォーマンスを達成しましたが、デフォルトのパラメーター設定を設定するHDBSCANは、さらに調整する必要がありました。 結論:密度ベースの異常値検出方法は、ストロークアウトカム測定の検証に有望であることが証明されていました。大規模な前向きレジストリデータセットから開発された外れ値検出アルゴリズムは、高性能の結果を持つ4つの異なるNindsストロークデータセットに効果的に適用されました。この検出アルゴリズムから開発されたツールは、実際のデータセットにさらに適用して、ストロークアウトカム測定のデータ品質を向上させることができます。

はじめに:臨床医は一般に、脳卒中後の臨床結果を測定するために、修正ランキンスケール(MRS)とバーセル指数(BI)を使用します。これらは、脳卒中の結果予測のための機械学習モデルの潜在的なターゲットです。したがって、測定の品質は、これらのモデルのトレーニングと検証に重要です。この研究の目的は、複数の大ストロークデータセットで潜在的に誤った測定値を識別して測定品質を評価するための密度ベースの異常値検出方法を適用および評価することでした。 方法:アプリケーションの密度ベースの空間クラスタリング(DBSCAN)、階層DBSCAN(HDBSCAN)、および台湾の全国的な前向きストロークレジストリから得られた大規模なデータセットに基づいたローカル外れ値因子(LOF)を含む3つの密度ベースの異常値検出方法を適用しました。各メソッドのテストは、4つの異なるNinds資金によるストロークデータセットを使用して行われました。 結果:DBSCANは、最高の平均精度が4のMRSで99.2±0.7であり、平均精度が最も低いMRSで999.2±0.7であるすべてのMRS値で高性能を達成しました。LOFは同様のパフォーマンスを達成しましたが、デフォルトのパラメーター設定を設定するHDBSCANは、さらに調整する必要がありました。 結論:密度ベースの異常値検出方法は、ストロークアウトカム測定の検証に有望であることが証明されていました。大規模な前向きレジストリデータセットから開発された外れ値検出アルゴリズムは、高性能の結果を持つ4つの異なるNindsストロークデータセットに効果的に適用されました。この検出アルゴリズムから開発されたツールは、実際のデータセットにさらに適用して、ストロークアウトカム測定のデータ品質を向上させることができます。

INTRODUCTION: Clinicians commonly use the modified Rankin Scale (mRS) and the Barthel Index (BI) to measure clinical outcome after stroke. These are potential targets in machine learning models for stroke outcome prediction. Therefore, the quality of the measurements is crucial for training and validation of these models. The objective of this study was to apply and evaluate density-based outlier detection methods for identifying potentially incorrect measurements in multiple large stroke datasets to assess the measurement quality. METHOD: We applied three density-based outlier detection methods including density-based spatial clustering of applications (DBSCAN), hierarchical DBSCAN (HDBSCAN) and local outlier factor (LOF) based on a large dataset obtained from a nationwide prospective stroke registry in Taiwan. The testing of each method was done by using four different NINDS funded stroke datasets. RESULT: The DBSCAN achieved a high performance across all mRS values where the highest average accuracy was 99.2 ± 0.7 at mRS of 4 and the lowest average accuracy was 92.0 ± 4.6 at mRS of 3. The LOF also achieved similar performance, however, the HDBSCAN with default parameters setting required further tuning improvement. CONCLUSION: The density-based outlier detection methods were proven to be promising for validation of stroke outcome measures. The outlier detection algorithm developed from a large prospective registry dataset was effectively applied in four different NINDS stroke datasets with high performance results. The tool developed from this detection algorithm can be further applied to real world datasets to increase the data quality in stroke outcome measures.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google