Loading...
Journal of the American Medical Informatics Association : JAMIA20130101Vol.20issue(5)

臨床メモと情報抽出のための臨床試験の発表における薬とその属性をリンクするためのシーケンスラベル付けアプローチ

,
,
,
,
,
,
,
文献タイプ:
  • Evaluation Study
  • Journal Article
  • Research Support, N.I.H., Extramural
概要
Abstract

目的:この作業の目標は、2つの臨床コーパスにおける薬物属性リンク検出のための機械学習方法、バイナリ分類、シーケンスラベル付けを評価することでした。 データと方法:3000の臨床試験アナウンス(CTA)と1655の臨床ノート(CN)に、エンティティとその属性という属性のための1655の臨床ノート(CN)を2倍にしました。パリモンの特徴セットを備えたバイナリサポートベクターマシン(SVM)分類法、および条件付きランダムフィールド(CRF)ベースのマルチレイヤーシーケンスラベリング(MLSL)モデルが提案され、対応する属性間のリンクを特定しました。人間が生成したゴールドスタンダードに対するシステムのパフォーマンスを評価しました。 結果:実験では、2つの機械学習アプローチがベースラインルールベースのアプローチよりも統計的に有意に優れていることが示されました。バイナリSVM分類は、特徴として個々のトークンを使用して0.94 F-Measureを達成しました。par約的な機能セットで訓練されたSVMモデルは、CNで0.81 Fメジャー、CTAで0.87を達成しました。CRF MLSLメソッドは、両方のコーパスで0.80 Fメジャーを達成しました。 議論と結論:新しいMLSL法をバイナリ分類とルールベースの方法と比較しました。MLSLメソッドは、ルールベースのメソッドよりも統計的に有意に優れたパフォーマンスを発揮しました。ただし、SVMベースのバイナリ分類法は、CTAおよびCNコーパスの両方のMLSLメソッドよりも統計的に有意に優れていました。par約的な特徴を使用すると、SVMベースのバイナリ分類とCRFベースのMLSLメソッドの両方が、CTAおよびCNの投薬名と属性リンクの検出において高性能を達成しました。

目的:この作業の目標は、2つの臨床コーパスにおける薬物属性リンク検出のための機械学習方法、バイナリ分類、シーケンスラベル付けを評価することでした。 データと方法:3000の臨床試験アナウンス(CTA)と1655の臨床ノート(CN)に、エンティティとその属性という属性のための1655の臨床ノート(CN)を2倍にしました。パリモンの特徴セットを備えたバイナリサポートベクターマシン(SVM)分類法、および条件付きランダムフィールド(CRF)ベースのマルチレイヤーシーケンスラベリング(MLSL)モデルが提案され、対応する属性間のリンクを特定しました。人間が生成したゴールドスタンダードに対するシステムのパフォーマンスを評価しました。 結果:実験では、2つの機械学習アプローチがベースラインルールベースのアプローチよりも統計的に有意に優れていることが示されました。バイナリSVM分類は、特徴として個々のトークンを使用して0.94 F-Measureを達成しました。par約的な機能セットで訓練されたSVMモデルは、CNで0.81 Fメジャー、CTAで0.87を達成しました。CRF MLSLメソッドは、両方のコーパスで0.80 Fメジャーを達成しました。 議論と結論:新しいMLSL法をバイナリ分類とルールベースの方法と比較しました。MLSLメソッドは、ルールベースのメソッドよりも統計的に有意に優れたパフォーマンスを発揮しました。ただし、SVMベースのバイナリ分類法は、CTAおよびCNコーパスの両方のMLSLメソッドよりも統計的に有意に優れていました。par約的な特徴を使用すると、SVMベースのバイナリ分類とCRFベースのMLSLメソッドの両方が、CTAおよびCNの投薬名と属性リンクの検出において高性能を達成しました。

OBJECTIVE: The goal of this work was to evaluate machine learning methods, binary classification and sequence labeling, for medication-attribute linkage detection in two clinical corpora. DATA AND METHODS: We double annotated 3000 clinical trial announcements (CTA) and 1655 clinical notes (CN) for medication named entities and their attributes. A binary support vector machine (SVM) classification method with parsimonious feature sets, and a conditional random fields (CRF)-based multi-layered sequence labeling (MLSL) model were proposed to identify the linkages between the entities and their corresponding attributes. We evaluated the system's performance against the human-generated gold standard. RESULTS: The experiments showed that the two machine learning approaches performed statistically significantly better than the baseline rule-based approach. The binary SVM classification achieved 0.94 F-measure with individual tokens as features. The SVM model trained on a parsimonious feature set achieved 0.81 F-measure for CN and 0.87 for CTA. The CRF MLSL method achieved 0.80 F-measure on both corpora. DISCUSSION AND CONCLUSIONS: We compared the novel MLSL method with a binary classification and a rule-based method. The MLSL method performed statistically significantly better than the rule-based method. However, the SVM-based binary classification method was statistically significantly better than the MLSL method for both the CTA and CN corpora. Using parsimonious feature sets both the SVM-based binary classification and CRF-based MLSL methods achieved high performance in detecting medication name and attribute linkages in CTA and CN.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google