Loading...
BMC medical informatics and decision making2018Dec07Vol.18issue(Suppl 5)

セルラーコンポーネントドメインからのGO用語を使用した自動遺伝子注釈

,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

背景:Gene Ontology(GO)は、生物学的知識を表すオントロジーを使用して遺伝子製品機能に関する情報を提供するリソースです。これらのオントロジーは、細胞成分(CC)、分子関数(MF)、および生物学的プロセス(BP)の3つのドメインをカバーしています。GO Annotationは、文献の関連遺伝子にGO用語を使用して遺伝子機能情報を割り当てるプロセスです。これは、モデル生物データベース(MOD)グループ間で一般的なタスクです。手動GOアノテーションは、生物医学文献を読んでGO用語を使用して遺伝子機能情報を割り当てる人間のキュレーターに依存しています。このプロセスは非常に時間がかかり、労働集約的です。その結果、多くのMODは、関連する記事のほんの一部のみをキュレートする余裕があります。 方法:CCドメインからのGO用語は、基本的に2つのサブヒーラルチに分割できます:細胞内の位置用語とタンパク質複合項。遺伝子と他のエンティティ間の関係抽出としてのCCドメインからのGO用語を使用して遺伝子注釈のタスクをキャストします。(1)タンパク質が細胞内位置にあることがわかった抽出ケース、および(2)タンパク質が抽出する場合タンパク質複合体のサブユニット。各関係抽出タスクについて、トリガーと構文依存関係に基づいたアプローチを使用して、エンティティ間の望ましい関係を抽出します。 結果:Go Annotationのために公開されているコーパスであるBC4GOテストセットでアプローチをテストしました。私たちのアプローチでは、71%のF1スコア、91%の精度、および与えられた遺伝子のCCドメインからのGO条件を予測するために58%のリコールが得られます。 結論:CCドメインからのGO用語で遺伝子注釈を2つの関係抽出サブタスクとして扱うという新しいアプローチを説明しました。評価の結果は、私たちのアプローチが与えられた遺伝子のGO項を予測するために71%のF1スコアを達成することを示しています。これにより、私たちのアプローチを使用して、バイオアノテーターのGO注釈のプロセスを加速できます。

背景:Gene Ontology(GO)は、生物学的知識を表すオントロジーを使用して遺伝子製品機能に関する情報を提供するリソースです。これらのオントロジーは、細胞成分(CC)、分子関数(MF)、および生物学的プロセス(BP)の3つのドメインをカバーしています。GO Annotationは、文献の関連遺伝子にGO用語を使用して遺伝子機能情報を割り当てるプロセスです。これは、モデル生物データベース(MOD)グループ間で一般的なタスクです。手動GOアノテーションは、生物医学文献を読んでGO用語を使用して遺伝子機能情報を割り当てる人間のキュレーターに依存しています。このプロセスは非常に時間がかかり、労働集約的です。その結果、多くのMODは、関連する記事のほんの一部のみをキュレートする余裕があります。 方法:CCドメインからのGO用語は、基本的に2つのサブヒーラルチに分割できます:細胞内の位置用語とタンパク質複合項。遺伝子と他のエンティティ間の関係抽出としてのCCドメインからのGO用語を使用して遺伝子注釈のタスクをキャストします。(1)タンパク質が細胞内位置にあることがわかった抽出ケース、および(2)タンパク質が抽出する場合タンパク質複合体のサブユニット。各関係抽出タスクについて、トリガーと構文依存関係に基づいたアプローチを使用して、エンティティ間の望ましい関係を抽出します。 結果:Go Annotationのために公開されているコーパスであるBC4GOテストセットでアプローチをテストしました。私たちのアプローチでは、71%のF1スコア、91%の精度、および与えられた遺伝子のCCドメインからのGO条件を予測するために58%のリコールが得られます。 結論:CCドメインからのGO用語で遺伝子注釈を2つの関係抽出サブタスクとして扱うという新しいアプローチを説明しました。評価の結果は、私たちのアプローチが与えられた遺伝子のGO項を予測するために71%のF1スコアを達成することを示しています。これにより、私たちのアプローチを使用して、バイオアノテーターのGO注釈のプロセスを加速できます。

BACKGROUND: The Gene Ontology (GO) is a resource that supplies information about gene product function using ontologies to represent biological knowledge. These ontologies cover three domains: Cellular Component (CC), Molecular Function (MF), and Biological Process (BP). GO annotation is a process which assigns gene functional information using GO terms to relevant genes in the literature. It is a common task among the Model Organism Database (MOD) groups. Manual GO annotation relies on human curators assigning gene functional information using GO terms by reading the biomedical literature. This process is very time-consuming and labor-intensive. As a result, many MODs can afford to curate only a fraction of relevant articles. METHODS: GO terms from the CC domain can be essentially divided into two sub-hierarchies: subcellular location terms, and protein complex terms. We cast the task of gene annotation using GO terms from the CC domain as relation extraction between gene and other entities: (1) extract cases where a protein is found to be in a subcellular location, and (2) extract cases where a protein is a subunit of a protein complex. For each relation extraction task, we use an approach based on triggers and syntactic dependencies to extract the desired relations among entities. RESULTS: We tested our approach on the BC4GO test set, a publicly available corpus for GO annotation. Our approach obtains a F1-score of 71%, a precision of 91% and a recall of 58% for predicting GO terms from CC Domain for given genes. CONCLUSIONS: We have described a novel approach of treating gene annotation with GO terms from CC domain as two relation extraction subtasks. Evaluation results show that our approach achieves a F1-score of 71% for predicting GO terms for given genes. Thereby our approach can be used to accelerate the process of GO annotation for the bio-annotators.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google