著名医師による解説が無料で読めます
すると翻訳の精度が向上します
背景:遺伝子名の認識と正規化は、他の指定されたエンティティの検出とともに、生物医学的テキストマイニングの重要なステップであり、複雑なイベントの抽出などのより高度な技術の開発のための根本的な基礎です。現在の最先端のソリューションは、平均して非常に有望な結果を達成しますが、非常に曖昧な同義語を持つ特定の遺伝子でパフォーマンスが大幅に低下する可能性があります。関心のあるトピックに応じて、これはそのようなテキストマイニング結果の広範な手動キュレーションの必要性を引き起こす可能性があります。私たちの目標は、公的に利用可能なソースとともに、Konstanz Information Miner(KNIME)のテキスト処理と分類機能を利用して、製薬業界で広く使用されているツールに基づいて、このキュレーションステップを強化することでした。 結果:非常にあいまいな遺伝子の遺伝子特異的試験コーポラで達成されたFスコアは、非常に低い精度のため、いくつかのケースで0.9> 0.9に近い値に近い値から改善できます。興味深いことに、提示されたアプローチは、最初の遺伝子名の正規化ですでに良い結果を示す遺伝子のFスコアの増加さえもたらしました。ほとんどのテストケースでは、高いリコールを保持しながら、精度を大幅に改善できました。 結論:ナイムを使用して、多数の偽陽性ヒットを含むテキストマイニング結果の手動キュレーションを支援できることを示すことができます。また、我々の結果は、現在の最新アルゴリズムに共通する誤って特定された遺伝子に基づいて、遺伝子名の正規化の分野での将来の開発に有益である可能性があることを示しています。
背景:遺伝子名の認識と正規化は、他の指定されたエンティティの検出とともに、生物医学的テキストマイニングの重要なステップであり、複雑なイベントの抽出などのより高度な技術の開発のための根本的な基礎です。現在の最先端のソリューションは、平均して非常に有望な結果を達成しますが、非常に曖昧な同義語を持つ特定の遺伝子でパフォーマンスが大幅に低下する可能性があります。関心のあるトピックに応じて、これはそのようなテキストマイニング結果の広範な手動キュレーションの必要性を引き起こす可能性があります。私たちの目標は、公的に利用可能なソースとともに、Konstanz Information Miner(KNIME)のテキスト処理と分類機能を利用して、製薬業界で広く使用されているツールに基づいて、このキュレーションステップを強化することでした。 結果:非常にあいまいな遺伝子の遺伝子特異的試験コーポラで達成されたFスコアは、非常に低い精度のため、いくつかのケースで0.9> 0.9に近い値に近い値から改善できます。興味深いことに、提示されたアプローチは、最初の遺伝子名の正規化ですでに良い結果を示す遺伝子のFスコアの増加さえもたらしました。ほとんどのテストケースでは、高いリコールを保持しながら、精度を大幅に改善できました。 結論:ナイムを使用して、多数の偽陽性ヒットを含むテキストマイニング結果の手動キュレーションを支援できることを示すことができます。また、我々の結果は、現在の最新アルゴリズムに共通する誤って特定された遺伝子に基づいて、遺伝子名の正規化の分野での将来の開発に有益である可能性があることを示しています。
BACKGROUND: Gene name recognition and normalization is, together with detection of other named entities, a crucial step in biomedical text mining and the underlying basis for development of more advanced techniques like extraction of complex events. While the current state of the art solutions achieve highly promising results on average, performance can drop significantly for specific genes with highly ambiguous synonyms. Depending on the topic of interest, this can cause the need for extensive manual curation of such text mining results. Our goal was to enhance this curation step based on tools widely used in pharmaceutical industry utilizing the text processing and classification capabilities of the Konstanz Information Miner (KNIME) along with publicly available sources. RESULTS: F-score achieved on gene specific test corpora for highly ambiguous genes could be improved from values close to zero, due to very low precision, to values >0.9 for several cases. Interestingly the presented approach even resulted in an increased F-score for genes showing already good results in initial gene name normalization. For most test cases, we could significantly improve precision, while retaining a high recall. CONCLUSIONS: We could show that KNIME can be used to assist in manual curation of text mining results containing high numbers of false positive hits. Our results also indicate that it could be beneficial for future development in the field of gene name normalization to create gene specific training corpora based on incorrectly identified genes common to current state of the art algorithms.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。