Loading...
Hepatology (Baltimore, Md.)2024Mar07Vol.issue()

検索拡張生成を使用した肝臓疾患固有の大手言語モデルチャットインターフェイスの開発

,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景:大規模な言語モデル(LLM)には、臨床情報処理タスクに重要な機能があります。ただし、市販のLLMは臨床用途に最適化されておらず、幻覚情報を生成する傾向があります。検索された生成(RAG)は、カスタマイズされたデータをLLMに組み込むことを可能にするエンタープライズアーキテクチャです。このアプローチはLLMSを「専門化」し、幻覚を減らすと考えられています。 方法:肝臓の保護された健康情報(PHI) - コンプレインテキストの埋め込みとLLMプラットフォーム「Versa」を使用して、肝臓疾患固有のLLMである「Liversa」を開発しました。私たちは、Liversaに組み込まれる肝疾患のガイダンス文書の研究のための30の公的に利用可能な米国協会でRAGを実施しました。 結果:2ラウンドのテストを実施することにより、Liversaのパフォーマンスを評価しました。まず、Liversaの出力と、以前に公開された知識評価の研修生の出力を比較しました。Liversaは10の質問すべてに正しく答えました。第二に、15人の肝臓専門医に、Liversa、OpenaiのChatGPT 4、およびMetaのLlama 2によって生成された10の肝臓学のトピック質問への出力を評価するように依頼しました。Liversaの出力はより正確でしたが、ChatGpt 4のものと比較して包括的で安全ではありませんでした。 ディスカッション:このデモでは、RAGを使用して疾患固有のPHI準拠のLLMを構築しました。Liversaは、肝臓学に関連する質問に答える際に高い精度を示しましたが、RAGに使用される文書の数によって設定された制限により、いくつかの欠陥がありました。Liversaは、潜在的なライブ展開の前にさらに改良が必要になる可能性があります。ただし、Liversaプロトタイプは、RAGを利用して臨床ユースケースのLLMをカスタマイズするための概念の証明です。

背景:大規模な言語モデル(LLM)には、臨床情報処理タスクに重要な機能があります。ただし、市販のLLMは臨床用途に最適化されておらず、幻覚情報を生成する傾向があります。検索された生成(RAG)は、カスタマイズされたデータをLLMに組み込むことを可能にするエンタープライズアーキテクチャです。このアプローチはLLMSを「専門化」し、幻覚を減らすと考えられています。 方法:肝臓の保護された健康情報(PHI) - コンプレインテキストの埋め込みとLLMプラットフォーム「Versa」を使用して、肝臓疾患固有のLLMである「Liversa」を開発しました。私たちは、Liversaに組み込まれる肝疾患のガイダンス文書の研究のための30の公的に利用可能な米国協会でRAGを実施しました。 結果:2ラウンドのテストを実施することにより、Liversaのパフォーマンスを評価しました。まず、Liversaの出力と、以前に公開された知識評価の研修生の出力を比較しました。Liversaは10の質問すべてに正しく答えました。第二に、15人の肝臓専門医に、Liversa、OpenaiのChatGPT 4、およびMetaのLlama 2によって生成された10の肝臓学のトピック質問への出力を評価するように依頼しました。Liversaの出力はより正確でしたが、ChatGpt 4のものと比較して包括的で安全ではありませんでした。 ディスカッション:このデモでは、RAGを使用して疾患固有のPHI準拠のLLMを構築しました。Liversaは、肝臓学に関連する質問に答える際に高い精度を示しましたが、RAGに使用される文書の数によって設定された制限により、いくつかの欠陥がありました。Liversaは、潜在的なライブ展開の前にさらに改良が必要になる可能性があります。ただし、Liversaプロトタイプは、RAGを利用して臨床ユースケースのLLMをカスタマイズするための概念の証明です。

BACKGROUND: Large language models (LLMs) have significant capabilities in clinical information processing tasks. Commercially available LLMs, however, are not optimized for clinical uses and are prone to generating hallucinatory information. Retrieval-augmented generation (RAG) is an enterprise architecture that allows embedding of customized data into LLMs. This approach "specializes" the LLMs and is thought to reduce hallucinations. METHODS: We developed "LiVersa," a liver disease-specific LLM, by using our institution's protected health information (PHI)-complaint text embedding and LLM platform, "Versa." We conducted RAG on 30 publicly available American Association for the Study of Liver Diseases guidance documents to be incorporated into LiVersa. RESULTS: We evaluated LiVersa's performance by conducting two rounds of testing. First, we compared LiVersa's outputs versus those of trainees from a previously published knowledge assessment. LiVersa answered all 10 questions correctly. Second, we asked 15 hepatologists to evaluate the outputs to ten hepatology topic questions generated by LiVersa, OpenAI's ChatGPT 4, and Meta's LLaMA 2. LiVersa's outputs were more accurate but were rated less comprehensive and safe compared to those of ChatGPT 4. DISCUSSION: In this demonstration, we built a disease-specific and PHI-compliant LLMs using RAG. While LiVersa demonstrated higher accuracy in answering questions related to hepatology - there were some deficiencies due to limitations set by the number of documents used for RAG. LiVersa will likely require further refinement before potential live deployment. The LiVersa prototype, however, is a proof of concept for utilizing RAG to customize LLMs for clinical use cases.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google