Loading...
Journal of biomedical informatics2014Feb01Vol.47issue()

楕円との調整されたNPで非elipticalエンティティの言及を特定する

,
,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

生物医学ドメインの名前付きエンティティは、多くの場合、名詞句(NP)を使用して「および」などの調整接続詞を使用して書かれています。さらに、指定されたエンティティの言及の間で繰り返される単語は頻繁に省略されます。指名されたエンティティを特定することはしばしば困難です。さまざまな名前付きエンティティ認識(NER)メソッドはこの問題を解決しようとしましたが、これらの方法は、調整されたNPの比較的単純な楕円パターンのみを扱うことができます。言語ルールとエンティティに言及する辞書を使用して、単純または複雑な楕円を使用した非elipticalエンティティの言及を特定するための新しいNER方法を提案します。遺伝子とクラフトのコーパスは、提案されたシステムのパフォーマンスを評価するために使用されました。遺伝子コーパスは、辞書の品質に応じてシステムのパフォーマンスを評価するために使用されました。遺伝子コーパスは、1585年に楕円と調整されたNPにおける3434の非elipticalエンティティの言及で構成されています。このシステムは、調整されたNPでの非elipticalエンティティの言及の識別において、92.11%の精度、95.20%のリコール、および93.63%Fスコアを達成します。シンプルで複雑な楕円を解決する際のシステムの精度は、それぞれ94.54%と91.95%です。クラフトコーパスは、現実的な条件下でシステムのパフォーマンスを評価するために使用されました。このシステムは、調整されたNPで78.47%の精度、67.10%のリコール、72.34%Fスコアを達成しました。システムのパフォーマンス評価は、楕円によって引き起こされる問題を効率的に解決し、NERのパフォーマンスを向上させることを示しています。アルゴリズムはPHPに実装され、コードはhttps://code.google.com/p/medtextmining/からダウンロードできます。

生物医学ドメインの名前付きエンティティは、多くの場合、名詞句(NP)を使用して「および」などの調整接続詞を使用して書かれています。さらに、指定されたエンティティの言及の間で繰り返される単語は頻繁に省略されます。指名されたエンティティを特定することはしばしば困難です。さまざまな名前付きエンティティ認識(NER)メソッドはこの問題を解決しようとしましたが、これらの方法は、調整されたNPの比較的単純な楕円パターンのみを扱うことができます。言語ルールとエンティティに言及する辞書を使用して、単純または複雑な楕円を使用した非elipticalエンティティの言及を特定するための新しいNER方法を提案します。遺伝子とクラフトのコーパスは、提案されたシステムのパフォーマンスを評価するために使用されました。遺伝子コーパスは、辞書の品質に応じてシステムのパフォーマンスを評価するために使用されました。遺伝子コーパスは、1585年に楕円と調整されたNPにおける3434の非elipticalエンティティの言及で構成されています。このシステムは、調整されたNPでの非elipticalエンティティの言及の識別において、92.11%の精度、95.20%のリコール、および93.63%Fスコアを達成します。シンプルで複雑な楕円を解決する際のシステムの精度は、それぞれ94.54%と91.95%です。クラフトコーパスは、現実的な条件下でシステムのパフォーマンスを評価するために使用されました。このシステムは、調整されたNPで78.47%の精度、67.10%のリコール、72.34%Fスコアを達成しました。システムのパフォーマンス評価は、楕円によって引き起こされる問題を効率的に解決し、NERのパフォーマンスを向上させることを示しています。アルゴリズムはPHPに実装され、コードはhttps://code.google.com/p/medtextmining/からダウンロードできます。

Named entities in the biomedical domain are often written using a Noun Phrase (NP) along with a coordinating conjunction such as 'and' and 'or'. In addition, repeated words among named entity mentions are frequently omitted. It is often difficult to identify named entities. Although various Named Entity Recognition (NER) methods have tried to solve this problem, these methods can only deal with relatively simple elliptical patterns in coordinated NPs. We propose a new NER method for identifying non-elliptical entity mentions with simple or complex ellipses using linguistic rules and an entity mention dictionary. The GENIA and CRAFT corpora were used to evaluate the performance of the proposed system. The GENIA corpus was used to evaluate the performance of the system according to the quality of the dictionary. The GENIA corpus comprises 3434 non-elliptical entity mentions in 1585 coordinated NPs with ellipses. The system achieves 92.11% precision, 95.20% recall, and 93.63% F-score in identification of non-elliptical entity mentions in coordinated NPs. The accuracy of the system in resolving simple and complex ellipses is 94.54% and 91.95%, respectively. The CRAFT corpus was used to evaluate the performance of the system under realistic conditions. The system achieved 78.47% precision, 67.10% recall, and 72.34% F-score in coordinated NPs. The performance evaluations of the system show that it efficiently solves the problem caused by ellipses, and improves NER performance. The algorithm is implemented in PHP and the code can be downloaded from https://code.google.com/p/medtextmining/.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google