著名医師による解説が無料で読めます
すると翻訳の精度が向上します
背景:機械学習ツールは、半自動の引用スクリーニングにより、系統的レビュー(SR)プロセスを促進できます。関連する記録を予測することにより、abstrackr半自動の引用スクリーニング。4つのスクリーニングプロジェクトのパフォーマンスを評価しました。 方法:カナダのエドモントンにあるアルバータ州の健康調査センターで完了したスクリーニングプロジェクトの便利なサンプルを使用しました。SRスクリーニング方法を使用した3つのSRSと1つの記述分析を使用しました。プロジェクトは、検索利回り(中央値9328、範囲5243〜47,385レコード、四分位範囲(IQR)15,688レコード)、トピック(抗精神病薬、気管支炎、糖尿病、子どもの健康SRS)、および複雑さの洗浄に関して不均一でした。レコードをAbstrackRにアップロードし、残りのレコードの関連性について予測するまでスクリーニングしました。各プロジェクトの3つの試験で、予測を人間のレビュアーの決定と比較し、感度、特異性、精度、偽陰性率、割合が見逃され、ワークロードの節約を計算しました。 結果:AbstrackRの感度はすべてのプロジェクトで0.75を超え、平均特異性は0.19であるChild Health SRSを除き、0.69から0.90の範囲でした。精度(関連性があると正しく予測される記録の割合)は、スクリーニングタスクによって異なります(中央値26.6%、範囲14.8〜64.7%、IQR 29.7%)。偽陰性率の中央値(無関係であると誤って予測される記録の割合)は12.6%(範囲3.5〜21.2%、IQR 12.3%)でした。ワークロードの節約はしばしば大きかった(中央値67.2%、範囲9.5〜88.4%、IQR 23.9%)。見逃された割合(最終レポートに含まれていないと予測された記録の割合の割合は、無関係であると予測された総数のうち)のうち、すべてのSRSで0.1%、記述分析で6.4%でした。これは、最終レポートの記録の4.2%(範囲0〜12.2%; IQR 7.8%)に相当しました。 結論:Abstrackrの信頼性とワークロードの節約は、スクリーニングタスクによって異なります。ワークロードの節約は、関連する記録が潜在的に欠落していることを犠牲にして行われました。これがSRSの結果と結論にどのように影響するかを評価する必要があります。ペアの2番目のレビュアーとしてAbstrackrを評価する研究は、信頼性に対する懸念が低下するかどうかを判断するために興味深いでしょう。Abstrackrのパフォーマンスと使いやすさのさらなる評価は、その洗練と実用的な有用性を知らせます。
背景:機械学習ツールは、半自動の引用スクリーニングにより、系統的レビュー(SR)プロセスを促進できます。関連する記録を予測することにより、abstrackr半自動の引用スクリーニング。4つのスクリーニングプロジェクトのパフォーマンスを評価しました。 方法:カナダのエドモントンにあるアルバータ州の健康調査センターで完了したスクリーニングプロジェクトの便利なサンプルを使用しました。SRスクリーニング方法を使用した3つのSRSと1つの記述分析を使用しました。プロジェクトは、検索利回り(中央値9328、範囲5243〜47,385レコード、四分位範囲(IQR)15,688レコード)、トピック(抗精神病薬、気管支炎、糖尿病、子どもの健康SRS)、および複雑さの洗浄に関して不均一でした。レコードをAbstrackRにアップロードし、残りのレコードの関連性について予測するまでスクリーニングしました。各プロジェクトの3つの試験で、予測を人間のレビュアーの決定と比較し、感度、特異性、精度、偽陰性率、割合が見逃され、ワークロードの節約を計算しました。 結果:AbstrackRの感度はすべてのプロジェクトで0.75を超え、平均特異性は0.19であるChild Health SRSを除き、0.69から0.90の範囲でした。精度(関連性があると正しく予測される記録の割合)は、スクリーニングタスクによって異なります(中央値26.6%、範囲14.8〜64.7%、IQR 29.7%)。偽陰性率の中央値(無関係であると誤って予測される記録の割合)は12.6%(範囲3.5〜21.2%、IQR 12.3%)でした。ワークロードの節約はしばしば大きかった(中央値67.2%、範囲9.5〜88.4%、IQR 23.9%)。見逃された割合(最終レポートに含まれていないと予測された記録の割合の割合は、無関係であると予測された総数のうち)のうち、すべてのSRSで0.1%、記述分析で6.4%でした。これは、最終レポートの記録の4.2%(範囲0〜12.2%; IQR 7.8%)に相当しました。 結論:Abstrackrの信頼性とワークロードの節約は、スクリーニングタスクによって異なります。ワークロードの節約は、関連する記録が潜在的に欠落していることを犠牲にして行われました。これがSRSの結果と結論にどのように影響するかを評価する必要があります。ペアの2番目のレビュアーとしてAbstrackrを評価する研究は、信頼性に対する懸念が低下するかどうかを判断するために興味深いでしょう。Abstrackrのパフォーマンスと使いやすさのさらなる評価は、その洗練と実用的な有用性を知らせます。
BACKGROUND: Machine learning tools can expedite systematic review (SR) processes by semi-automating citation screening. Abstrackr semi-automates citation screening by predicting relevant records. We evaluated its performance for four screening projects. METHODS: We used a convenience sample of screening projects completed at the Alberta Research Centre for Health Evidence, Edmonton, Canada: three SRs and one descriptive analysis for which we had used SR screening methods. The projects were heterogeneous with respect to search yield (median 9328; range 5243 to 47,385 records; interquartile range (IQR) 15,688 records), topic (Antipsychotics, Bronchiolitis, Diabetes, Child Health SRs), and screening complexity. We uploaded the records to Abstrackr and screened until it made predictions about the relevance of the remaining records. Across three trials for each project, we compared the predictions to human reviewer decisions and calculated the sensitivity, specificity, precision, false negative rate, proportion missed, and workload savings. RESULTS: Abstrackr's sensitivity was > 0.75 for all projects and the mean specificity ranged from 0.69 to 0.90 with the exception of Child Health SRs, for which it was 0.19. The precision (proportion of records correctly predicted as relevant) varied by screening task (median 26.6%; range 14.8 to 64.7%; IQR 29.7%). The median false negative rate (proportion of records incorrectly predicted as irrelevant) was 12.6% (range 3.5 to 21.2%; IQR 12.3%). The workload savings were often large (median 67.2%, range 9.5 to 88.4%; IQR 23.9%). The proportion missed (proportion of records predicted as irrelevant that were included in the final report, out of the total number predicted as irrelevant) was 0.1% for all SRs and 6.4% for the descriptive analysis. This equated to 4.2% (range 0 to 12.2%; IQR 7.8%) of the records in the final reports. CONCLUSIONS: Abstrackr's reliability and the workload savings varied by screening task. Workload savings came at the expense of potentially missing relevant records. How this might affect the results and conclusions of SRs needs to be evaluated. Studies evaluating Abstrackr as the second reviewer in a pair would be of interest to determine if concerns for reliability would diminish. Further evaluations of Abstrackr's performance and usability will inform its refinement and practical utility.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。