Loading...
Database : the journal of biological databases and curation2019Jan01Vol.2019issue()

Foodbase Corpus:注釈付き食品団体の新しいリソース

,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

注釈付きテキスト コーパスの存在は、自然言語処理 (NLP) とテキスト マイニングに基づく公衆衛生サービスとツールの開発に不可欠です。最近組織化された生物医学 NLP 共有タスクにより、遺伝子、表現型、薬物、疾患、化学物質などのさまざまな生物医学的実体に関連する注釈付きコーパスが提供されています。これらは、テキストからエンティティを抽出し、それらの関係を見つけるために使用される固有表現認識 (NER) モデルを開発するために必要です。しかし、私たちの知る限り、食品と食事の管理は公衆衛生上不可欠な問題であるにもかかわらず、食品実体に関する情報を提供する注釈付きコーパスは限られています。そこで、私たちは FoodBase という名前の、注釈付きの食品エンティティの新しいコーパスを開発しました。これは、現在最大の食品に焦点を当てたソーシャル ネットワークである Allrecipes から抽出されたレシピを使用して構築されました。レシピは「前菜とスナック」、「朝食と昼食」、「デザート」、「ディナー」、「ドリンク」の5つのカテゴリーから選ばれました。食品実体に注釈を付けるために使用されるセマンティック タグは、Hansard コーパスから選択されました。食品エンティティを抽出して注釈を付けるために、FoodIE と呼ばれるルールベースの食品 NER メソッドを適用しました。FoodIE は弱い注釈が付けられたコーパスを提供するため、1000 のレシピで得られた結果を手動で評価することにより、FoodBase のゴールド スタンダードを作成しました。これは、2105 の固有の食品実体を説明する 12 844 の食品実体アノテーションで構成されています。さらに、追加の 21 790 レシピに関する弱い注釈付きのコーパスを提供しました。これは 274 053 の食品エンティティの注釈で構成されており、そのうち 13 079 は固有です。FoodBase コーパスは、マルチクラス分類、マルチラベル分類、階層型マルチラベル分類などの機械学習タスクの新しいベンチマーク データセットとして、食品科学用のコーパスベースの NER モデルを開発するために必要です。FoodBase は、食品の概念間の意味的な違い/類似性を検出するために使用でき、結局のところ、予測研究に使用できる食品の埋め込み空間を学習するための新しい道を開くものであると私たちは信じています。

注釈付きテキスト コーパスの存在は、自然言語処理 (NLP) とテキスト マイニングに基づく公衆衛生サービスとツールの開発に不可欠です。最近組織化された生物医学 NLP 共有タスクにより、遺伝子、表現型、薬物、疾患、化学物質などのさまざまな生物医学的実体に関連する注釈付きコーパスが提供されています。これらは、テキストからエンティティを抽出し、それらの関係を見つけるために使用される固有表現認識 (NER) モデルを開発するために必要です。しかし、私たちの知る限り、食品と食事の管理は公衆衛生上不可欠な問題であるにもかかわらず、食品実体に関する情報を提供する注釈付きコーパスは限られています。そこで、私たちは FoodBase という名前の、注釈付きの食品エンティティの新しいコーパスを開発しました。これは、現在最大の食品に焦点を当てたソーシャル ネットワークである Allrecipes から抽出されたレシピを使用して構築されました。レシピは「前菜とスナック」、「朝食と昼食」、「デザート」、「ディナー」、「ドリンク」の5つのカテゴリーから選ばれました。食品実体に注釈を付けるために使用されるセマンティック タグは、Hansard コーパスから選択されました。食品エンティティを抽出して注釈を付けるために、FoodIE と呼ばれるルールベースの食品 NER メソッドを適用しました。FoodIE は弱い注釈が付けられたコーパスを提供するため、1000 のレシピで得られた結果を手動で評価することにより、FoodBase のゴールド スタンダードを作成しました。これは、2105 の固有の食品実体を説明する 12 844 の食品実体アノテーションで構成されています。さらに、追加の 21 790 レシピに関する弱い注釈付きのコーパスを提供しました。これは 274 053 の食品エンティティの注釈で構成されており、そのうち 13 079 は固有です。FoodBase コーパスは、マルチクラス分類、マルチラベル分類、階層型マルチラベル分類などの機械学習タスクの新しいベンチマーク データセットとして、食品科学用のコーパスベースの NER モデルを開発するために必要です。FoodBase は、食品の概念間の意味的な違い/類似性を検出するために使用でき、結局のところ、予測研究に使用できる食品の埋め込み空間を学習するための新しい道を開くものであると私たちは信じています。

The existence of annotated text corpora is essential for the development of public health services and tools based on natural language processing (NLP) and text mining. Recently organized biomedical NLP shared tasks have provided annotated corpora related to different biomedical entities such as genes, phenotypes, drugs, diseases and chemical entities. These are needed to develop named-entity recognition (NER) models that are used for extracting entities from text and finding their relations. However, to the best of our knowledge, there are limited annotated corpora that provide information about food entities despite food and dietary management being an essential public health issue. Hence, we developed a new annotated corpus of food entities, named FoodBase. It was constructed using recipes extracted from Allrecipes, which is currently the largest food-focused social network. The recipes were selected from five categories: 'Appetizers and Snacks', 'Breakfast and Lunch', 'Dessert', 'Dinner' and 'Drinks'. Semantic tags used for annotating food entities were selected from the Hansard corpus. To extract and annotate food entities, we applied a rule-based food NER method called FoodIE. Since FoodIE provides a weakly annotated corpus, by manually evaluating the obtained results on 1000 recipes, we created a gold standard of FoodBase. It consists of 12 844 food entity annotations describing 2105 unique food entities. Additionally, we provided a weakly annotated corpus on an additional 21 790 recipes. It consists of 274 053 food entity annotations, 13 079 of which are unique. The FoodBase corpus is necessary for developing corpus-based NER models for food science, as a new benchmark dataset for machine learning tasks such as multi-class classification, multi-label classification and hierarchical multi-label classification. FoodBase can be used for detecting semantic differences/similarities between food concepts, and after all we believe that it will open a new path for learning food embedding space that can be used in predictive studies.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google