著名医師による解説が無料で読めます
すると翻訳の精度が向上します
背景:ChatGptのような大規模な言語モデルは、自然言語処理の分野に革命をもたらし、テキストコンテンツを理解して生成する能力を備えており、医学教育において役割を果たす可能性を示しています。この研究の目的は、国家医療免許試験(NMLE)、国家薬剤師ライセンス試験(NPLE)、および国立看護師ライセンス試験(NNLE)を含む中国の3種類の国内医療検査でのCHATGPTのパフォーマンスを定量的に評価および包括的に分析することを目的としています。 方法:2017年から2021年まで中国のNMLE、NPLE、NNLEから質問を収集しました。NMLEとNPLEでは、各試験は4ユニットで構成され、NNLEでは各試験は2ユニットで構成されています。数字、表、または化学構造の質問は手動で特定され、臨床医によって除外されました。複数のプロンプトを介して直接命令戦略を適用して、CHATGPTを強制して、単一選択と複数選択の質問を区別する機能を備えた明確な答えを生成しました。 結果:CHATGPTは、5年間の3種類の試験のいずれかで0.6の精度のしきい値を渡すことができませんでした。具体的には、NMLEでは、記録された最高の精度は0.5467で、2018年と2021年の両方で達成されました。NPLEでは、2017年の最高の精度は0.5599でした。0.5897は、評価全体で最も高い精度でもあります。ChatGptのパフォーマンスは、異なるユニットに有意差はありませんでしたが、異なる質問タイプに大きな違いがありました。ChatGPTは、臨床疫学、人間の寄生虫学、皮膚科などのさまざまな領域で、また分子、健康管理と予防、診断、スクリーニングなどのさまざまな医療トピックでうまく機能しました。 結論:これらの結果は、2017年から2021年まで、中国のNMLE、NPLE、およびNNLEにCHATGPTが失敗したことを示しています。しかし、医学教育における大規模な言語モデルの大きな可能性を示しています。将来、パフォーマンスを改善するには、高品質の医療データが必要になります。
背景:ChatGptのような大規模な言語モデルは、自然言語処理の分野に革命をもたらし、テキストコンテンツを理解して生成する能力を備えており、医学教育において役割を果たす可能性を示しています。この研究の目的は、国家医療免許試験(NMLE)、国家薬剤師ライセンス試験(NPLE)、および国立看護師ライセンス試験(NNLE)を含む中国の3種類の国内医療検査でのCHATGPTのパフォーマンスを定量的に評価および包括的に分析することを目的としています。 方法:2017年から2021年まで中国のNMLE、NPLE、NNLEから質問を収集しました。NMLEとNPLEでは、各試験は4ユニットで構成され、NNLEでは各試験は2ユニットで構成されています。数字、表、または化学構造の質問は手動で特定され、臨床医によって除外されました。複数のプロンプトを介して直接命令戦略を適用して、CHATGPTを強制して、単一選択と複数選択の質問を区別する機能を備えた明確な答えを生成しました。 結果:CHATGPTは、5年間の3種類の試験のいずれかで0.6の精度のしきい値を渡すことができませんでした。具体的には、NMLEでは、記録された最高の精度は0.5467で、2018年と2021年の両方で達成されました。NPLEでは、2017年の最高の精度は0.5599でした。0.5897は、評価全体で最も高い精度でもあります。ChatGptのパフォーマンスは、異なるユニットに有意差はありませんでしたが、異なる質問タイプに大きな違いがありました。ChatGPTは、臨床疫学、人間の寄生虫学、皮膚科などのさまざまな領域で、また分子、健康管理と予防、診断、スクリーニングなどのさまざまな医療トピックでうまく機能しました。 結論:これらの結果は、2017年から2021年まで、中国のNMLE、NPLE、およびNNLEにCHATGPTが失敗したことを示しています。しかし、医学教育における大規模な言語モデルの大きな可能性を示しています。将来、パフォーマンスを改善するには、高品質の医療データが必要になります。
BACKGROUND: Large language models like ChatGPT have revolutionized the field of natural language processing with their capability to comprehend and generate textual content, showing great potential to play a role in medical education. This study aimed to quantitatively evaluate and comprehensively analysis the performance of ChatGPT on three types of national medical examinations in China, including National Medical Licensing Examination (NMLE), National Pharmacist Licensing Examination (NPLE), and National Nurse Licensing Examination (NNLE). METHODS: We collected questions from Chinese NMLE, NPLE and NNLE from year 2017 to 2021. In NMLE and NPLE, each exam consists of 4 units, while in NNLE, each exam consists of 2 units. The questions with figures, tables or chemical structure were manually identified and excluded by clinician. We applied direct instruction strategy via multiple prompts to force ChatGPT to generate the clear answer with the capability to distinguish between single-choice and multiple-choice questions. RESULTS: ChatGPT failed to pass the accuracy threshold of 0.6 in any of the three types of examinations over the five years. Specifically, in the NMLE, the highest recorded accuracy was 0.5467, which was attained in both 2018 and 2021. In the NPLE, the highest accuracy was 0.5599 in 2017. In the NNLE, the most impressive result was shown in 2017, with an accuracy of 0.5897, which is also the highest accuracy in our entire evaluation. ChatGPT's performance showed no significant difference in different units, but significant difference in different question types. ChatGPT performed well in a range of subject areas, including clinical epidemiology, human parasitology, and dermatology, as well as in various medical topics such as molecules, health management and prevention, diagnosis and screening. CONCLUSIONS: These results indicate ChatGPT failed the NMLE, NPLE and NNLE in China, spanning from year 2017 to 2021. but show great potential of large language models in medical education. In the future high-quality medical data will be required to improve the performance.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。