著名医師による解説が無料で読めます
すると翻訳の精度が向上します
この記事では、ウィキペディアの知識を活用してドキュメントを概念の重みのベクトルとして表す分類器を紹介し、英語の文書でのみトレーニングされている場合、あらゆる言語で記述された生物医学文書を分類するための適合性を分析します。Wikipedia Interlanguageリンクに依存して、言語間で概念ベクトルを変換するために、クロス言語コンセプトマッチング手法を提案します。分類器のパフォーマンスは、機械翻訳に基づいた分類子とメタマップに基づく2つの分類器と比較されます。実験を実行するために、2つの多言語コーパスを作成しました。最初のものである多言語のuvigomed(ml-uvigomed)は、英語、ドイツ語、フランス語、スペイン語、イタリア語、ガリシア語、ルーマニア語、アイスランド語で書かれた生物医学的トピックに関する23,647のウィキペディア文書で構成されています。2つ目は、英語とフランスのスペインのドイツエラギ(efsg-uvigomed)は、英語、フランス語、スペイン語、ドイツ語で書かれたメドラインから抽出された19,210の生物医学的抽象的な抽象抽出で構成されています。提案されたアプローチのパフォーマンスは、ベンチマークの最先端の分類器よりも優れています。ウィキペディアの知識を活用することは、生物医学文書の多言語分類のタスクにおいて大きな利点があると結論付けています。
この記事では、ウィキペディアの知識を活用してドキュメントを概念の重みのベクトルとして表す分類器を紹介し、英語の文書でのみトレーニングされている場合、あらゆる言語で記述された生物医学文書を分類するための適合性を分析します。Wikipedia Interlanguageリンクに依存して、言語間で概念ベクトルを変換するために、クロス言語コンセプトマッチング手法を提案します。分類器のパフォーマンスは、機械翻訳に基づいた分類子とメタマップに基づく2つの分類器と比較されます。実験を実行するために、2つの多言語コーパスを作成しました。最初のものである多言語のuvigomed(ml-uvigomed)は、英語、ドイツ語、フランス語、スペイン語、イタリア語、ガリシア語、ルーマニア語、アイスランド語で書かれた生物医学的トピックに関する23,647のウィキペディア文書で構成されています。2つ目は、英語とフランスのスペインのドイツエラギ(efsg-uvigomed)は、英語、フランス語、スペイン語、ドイツ語で書かれたメドラインから抽出された19,210の生物医学的抽象的な抽象抽出で構成されています。提案されたアプローチのパフォーマンスは、ベンチマークの最先端の分類器よりも優れています。ウィキペディアの知識を活用することは、生物医学文書の多言語分類のタスクにおいて大きな利点があると結論付けています。
This article presents a classifier that leverages Wikipedia knowledge to represent documents as vectors of concepts weights, and analyses its suitability for classifying biomedical documents written in any language when it is trained only with English documents. We propose the cross-language concept matching technique, which relies on Wikipedia interlanguage links to convert concept vectors between languages. The performance of the classifier is compared to a classifier based on machine translation, and two classifiers based on MetaMap. To perform the experiments, we created two multilingual corpus. The first one, Multi-Lingual UVigoMED (ML-UVigoMED) is composed of 23,647 Wikipedia documents about biomedical topics written in English, German, French, Spanish, Italian, Galician, Romanian, and Icelandic. The second one, English-French-Spanish-German UVigoMED (EFSG-UVigoMED) is composed of 19,210 biomedical abstract extracted from MEDLINE written in English, French, Spanish, and German. The performance of the approach proposed is superior to any of the state-of-the art classifier in the benchmark. We conclude that leveraging Wikipedia knowledge is of great advantage in tasks of multilingual classification of biomedical documents.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。