著名医師による解説が無料で読めます
すると翻訳の精度が向上します
背景:ダイアログエージェント(チャットボット)には、患者の自己管理のサポートやカウンセリングの提供などのタスクに使用されているヘルスケアのアプリケーションの長い歴史があります。それらの使用は、医療システムに対する需要の増加と人工知能(AI)能力の改善とともに成長すると予想されています。しかし、ヘルスケアチャットボットの評価へのアプローチは、多様で偶然のように思われ、その結果、フィールドの進歩に対する潜在的な障壁が生じます。 目的:この研究の目的は、医療チャットボットを評価するために以前の研究で使用されていた技術的な(非臨床的)メトリックを特定することです。 方法:研究は、含まれている研究と関連するレビューの後方および前方の参照リストのチェックを実施することに加えて、7つの書誌データベース(MedlineおよびPsycinfoなど)を検索することによって特定されました。この研究は、2人のレビュアーによって独立して選択され、その後、含まれている研究からデータを抽出しました。抽出されたデータは、特定されたメトリックが評価したチャットボットの側面に基づいて、特定されたメトリックをカテゴリにグループ化することにより、物語的に合成されました。 結果:取得した1498の引用のうち、65の研究がこのレビューに含まれていました。チャットボットは、チャットボット全体(ユーザビリティ、分類器のパフォーマンス、速度など)、応答生成(例えば、包括性、リアリズム、繰り返し)、応答の理解(ユーザーが評価するチャットボットの理解(例:ユーザー性、リアリズム、繰り返し)に関連する27の技術的メトリックを使用して評価されました。、単語エラー率、概念エラー率)、および審美性(例えば、仮想エージェントの外観、背景色、コンテンツ)。 結論:ヘルスチャットボットの研究の技術的な指標は多様であり、調査デザインとグローバルな使いやすさの指標が支配的でした。標準化の欠如と客観的な尺度の不足により、ヘルスチャットボットのパフォーマンスを比較することは困難であり、フィールドの進歩を阻害する可能性があります。研究者は、会話ログから計算されたメトリックをより頻繁に含めることをお勧めします。さらに、チャットボット研究に含めるための特定の状況に関する推奨事項を備えた技術指標のフレームワークの開発をお勧めします。
背景:ダイアログエージェント(チャットボット)には、患者の自己管理のサポートやカウンセリングの提供などのタスクに使用されているヘルスケアのアプリケーションの長い歴史があります。それらの使用は、医療システムに対する需要の増加と人工知能(AI)能力の改善とともに成長すると予想されています。しかし、ヘルスケアチャットボットの評価へのアプローチは、多様で偶然のように思われ、その結果、フィールドの進歩に対する潜在的な障壁が生じます。 目的:この研究の目的は、医療チャットボットを評価するために以前の研究で使用されていた技術的な(非臨床的)メトリックを特定することです。 方法:研究は、含まれている研究と関連するレビューの後方および前方の参照リストのチェックを実施することに加えて、7つの書誌データベース(MedlineおよびPsycinfoなど)を検索することによって特定されました。この研究は、2人のレビュアーによって独立して選択され、その後、含まれている研究からデータを抽出しました。抽出されたデータは、特定されたメトリックが評価したチャットボットの側面に基づいて、特定されたメトリックをカテゴリにグループ化することにより、物語的に合成されました。 結果:取得した1498の引用のうち、65の研究がこのレビューに含まれていました。チャットボットは、チャットボット全体(ユーザビリティ、分類器のパフォーマンス、速度など)、応答生成(例えば、包括性、リアリズム、繰り返し)、応答の理解(ユーザーが評価するチャットボットの理解(例:ユーザー性、リアリズム、繰り返し)に関連する27の技術的メトリックを使用して評価されました。、単語エラー率、概念エラー率)、および審美性(例えば、仮想エージェントの外観、背景色、コンテンツ)。 結論:ヘルスチャットボットの研究の技術的な指標は多様であり、調査デザインとグローバルな使いやすさの指標が支配的でした。標準化の欠如と客観的な尺度の不足により、ヘルスチャットボットのパフォーマンスを比較することは困難であり、フィールドの進歩を阻害する可能性があります。研究者は、会話ログから計算されたメトリックをより頻繁に含めることをお勧めします。さらに、チャットボット研究に含めるための特定の状況に関する推奨事項を備えた技術指標のフレームワークの開発をお勧めします。
BACKGROUND: Dialog agents (chatbots) have a long history of application in health care, where they have been used for tasks such as supporting patient self-management and providing counseling. Their use is expected to grow with increasing demands on health systems and improving artificial intelligence (AI) capability. Approaches to the evaluation of health care chatbots, however, appear to be diverse and haphazard, resulting in a potential barrier to the advancement of the field. OBJECTIVE: This study aims to identify the technical (nonclinical) metrics used by previous studies to evaluate health care chatbots. METHODS: Studies were identified by searching 7 bibliographic databases (eg, MEDLINE and PsycINFO) in addition to conducting backward and forward reference list checking of the included studies and relevant reviews. The studies were independently selected by two reviewers who then extracted data from the included studies. Extracted data were synthesized narratively by grouping the identified metrics into categories based on the aspect of chatbots that the metrics evaluated. RESULTS: Of the 1498 citations retrieved, 65 studies were included in this review. Chatbots were evaluated using 27 technical metrics, which were related to chatbots as a whole (eg, usability, classifier performance, speed), response generation (eg, comprehensibility, realism, repetitiveness), response understanding (eg, chatbot understanding as assessed by users, word error rate, concept error rate), and esthetics (eg, appearance of the virtual agent, background color, and content). CONCLUSIONS: The technical metrics of health chatbot studies were diverse, with survey designs and global usability metrics dominating. The lack of standardization and paucity of objective measures make it difficult to compare the performance of health chatbots and could inhibit advancement of the field. We suggest that researchers more frequently include metrics computed from conversation logs. In addition, we recommend the development of a framework of technical metrics with recommendations for specific circumstances for their inclusion in chatbot studies.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。