Loading...
Psychiatry and clinical neurosciences2024Feb26Vol.issue()

台湾精神科ライセンス検査でのChATGPT GPT-4、バード、およびラマ2のパフォーマンスを比較し、マルチセンター精神科医との鑑別診断において比較する

,
,
,
,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

目的:大規模な言語モデル(LLM)は、医学教育と医学的実践において役割を果たすことが提案されています。ただし、精神医学的領域での応用の可能性は十分に研究されていません。 方法:最初のステップでは、伝統的なマンダリンで実施された2022年の台湾精神科ライセンス試験におけるChATGPT GPT-4、BARD、およびLLAMA-2のパフォーマンスを比較しました。2番目のステップでは、これら3つのLLMのスコアを、精神医学的鑑別診断のために設計された10の高度な臨床シナリオ質問で、24人の経験豊富な精神科医のスコアと比較しました。 結果:GPT-4のみが2022年のタイワンの精神科免許試験(スコア69と60以上が合格段階と見なされ)を通過し、バードは36を獲得し、ラマ-2は25を獲得しました。「病態生理学と疫学」(χ2= 22.4、p <0.001)および「精神薬理学およびその他の治療法」(χ2= 15.8、p <0.001)の領域。鑑別診断では、24人の経験豊富な精神科医の平均スコア(平均6.1、標準偏差1.9)は、GPT-4(5)、バード(3)、およびllama-2(1)の平均スコアよりも高かった。 結論:BardおよびLlama-2と比較して、GPT-4は精神症状を特定し、臨床的判断を下す上で優れた能力を示しました。その上、GPT-4の鑑別診断能力は、経験豊富な精神科医の能力に密接に近づきました。GPT-4は、3つのLLMの中で精神医学的実践における貴重なツールとして有望な可能性を明らかにしました。

目的:大規模な言語モデル(LLM)は、医学教育と医学的実践において役割を果たすことが提案されています。ただし、精神医学的領域での応用の可能性は十分に研究されていません。 方法:最初のステップでは、伝統的なマンダリンで実施された2022年の台湾精神科ライセンス試験におけるChATGPT GPT-4、BARD、およびLLAMA-2のパフォーマンスを比較しました。2番目のステップでは、これら3つのLLMのスコアを、精神医学的鑑別診断のために設計された10の高度な臨床シナリオ質問で、24人の経験豊富な精神科医のスコアと比較しました。 結果:GPT-4のみが2022年のタイワンの精神科免許試験(スコア69と60以上が合格段階と見なされ)を通過し、バードは36を獲得し、ラマ-2は25を獲得しました。「病態生理学と疫学」(χ2= 22.4、p <0.001)および「精神薬理学およびその他の治療法」(χ2= 15.8、p <0.001)の領域。鑑別診断では、24人の経験豊富な精神科医の平均スコア(平均6.1、標準偏差1.9)は、GPT-4(5)、バード(3)、およびllama-2(1)の平均スコアよりも高かった。 結論:BardおよびLlama-2と比較して、GPT-4は精神症状を特定し、臨床的判断を下す上で優れた能力を示しました。その上、GPT-4の鑑別診断能力は、経験豊富な精神科医の能力に密接に近づきました。GPT-4は、3つのLLMの中で精神医学的実践における貴重なツールとして有望な可能性を明らかにしました。

AIM: Large language models (LLMs) have been suggested to play a role in medical education and medical practice. However, the potential of their application in the psychiatric domain has not been well-studied. METHOD: In the first step, we compared the performance of ChatGPT GPT-4, Bard, and Llama-2 in the 2022 Taiwan Psychiatric Licensing Examination conducted in traditional Mandarin. In the second step, we compared the scores of these three LLMs with those of 24 experienced psychiatrists in 10 advanced clinical scenario questions designed for psychiatric differential diagnosis. RESULT: Only GPT-4 passed the 2022 Taiwan Psychiatric Licensing Examination (scoring 69 and ≥ 60 being considered a passing grade), while Bard scored 36 and Llama-2 scored 25. GPT-4 outperformed Bard and Llama-2, especially in the areas of 'Pathophysiology & Epidemiology' (χ2  = 22.4, P < 0.001) and 'Psychopharmacology & Other therapies' (χ2  = 15.8, P < 0.001). In the differential diagnosis, the mean score of the 24 experienced psychiatrists (mean 6.1, standard deviation 1.9) was higher than that of GPT-4 (5), Bard (3), and Llama-2 (1). CONCLUSION: Compared to Bard and Llama-2, GPT-4 demonstrated superior abilities in identifying psychiatric symptoms and making clinical judgments. Besides, GPT-4's ability for differential diagnosis closely approached that of the experienced psychiatrists. GPT-4 revealed a promising potential as a valuable tool in psychiatric practice among the three LLMs.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google