Loading...
Journal of biomedical informatics2018Dec01Vol.88issue()

CIBS:トピックベースの文クラスタリングを使用した生物医学的テキストサマライザー

,
文献タイプ:
  • Journal Article
概要
Abstract

自動テキストの要約は、最も重要な部分を抽出することにより、長いテキストドキュメントを読むのに必要な時間を短縮できます。マルチドキュメントの要約は、冗長な情報の範囲を減らすために、複数の関連する入力テキストの主要なトピックをカバーする要約を作成する必要があります。この論文では、クラスタリングとアイテムセットマイニングベースの生物医学要約(CIBS)という名前の新しい要約方法を提案します。summarizerは、入力ドキュメントから生物医学の概念を抽出し、アイテムセットマイニングアルゴリズムを採用して主要なトピックを発見します。次に、クラスタリングアルゴリズムを適用して、文をクラスターに入れて、同じクラスターの文章を同様のトピックを共有するようにします。すべてのクラスターから文章を選択すると、summarizerは、入力テキストの幅広いトピックをカバーする要約を作成できます。Gisting評価(Rouge)Toolkitのリコール指向の研究を使用して、最先端の方法を含む4つの要約に対するCIBSメソッドのパフォーマンスを評価します。結果は、CIBSメソッドが単一およびマルチドキュメントの生物医学的テキストの要約のパフォーマンスを改善できることを示しています。トピックベースの文クラスター化アプローチを効果的に使用して、概要の有益なコンテンツを増やし、冗長な情報を減らすことができることが示されています。

自動テキストの要約は、最も重要な部分を抽出することにより、長いテキストドキュメントを読むのに必要な時間を短縮できます。マルチドキュメントの要約は、冗長な情報の範囲を減らすために、複数の関連する入力テキストの主要なトピックをカバーする要約を作成する必要があります。この論文では、クラスタリングとアイテムセットマイニングベースの生物医学要約(CIBS)という名前の新しい要約方法を提案します。summarizerは、入力ドキュメントから生物医学の概念を抽出し、アイテムセットマイニングアルゴリズムを採用して主要なトピックを発見します。次に、クラスタリングアルゴリズムを適用して、文をクラスターに入れて、同じクラスターの文章を同様のトピックを共有するようにします。すべてのクラスターから文章を選択すると、summarizerは、入力テキストの幅広いトピックをカバーする要約を作成できます。Gisting評価(Rouge)Toolkitのリコール指向の研究を使用して、最先端の方法を含む4つの要約に対するCIBSメソッドのパフォーマンスを評価します。結果は、CIBSメソッドが単一およびマルチドキュメントの生物医学的テキストの要約のパフォーマンスを改善できることを示しています。トピックベースの文クラスター化アプローチを効果的に使用して、概要の有益なコンテンツを増やし、冗長な情報を減らすことができることが示されています。

Automatic text summarizers can reduce the time required to read lengthy text documents by extracting the most important parts. Multi-document summarizers should produce a summary that covers the main topics of multiple related input texts to diminish the extent of redundant information. In this paper, we propose a novel summarization method named Clustering and Itemset mining based Biomedical Summarizer (CIBS). The summarizer extracts biomedical concepts from the input documents and employs an itemset mining algorithm to discover main topics. Then, it applies a clustering algorithm to put the sentences into clusters such that those in the same cluster share similar topics. Selecting sentences from all the clusters, the summarizer can produce a summary that covers a wide range of topics of the input text. Using the Recall-Oriented Understudy for Gisting Evaluation (ROUGE) toolkit, we evaluate the performance of the CIBS method against four summarizers including a state-of-the-art method. The results show that the CIBS method can improve the performance of single- and multi-document biomedical text summarization. It is shown that the topic-based sentence clustering approach can be effectively used to increase the informative content of summaries, as well as to decrease the redundant information.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google