著名医師による解説が無料で読めます
すると翻訳の精度が向上します
ヒューマンコンピューターの相互作用の分野では、話すオブジェクトの正確な識別は、ロボットが意思決定や推奨などのその後のタスクを達成するのに役立ちます。したがって、オブジェクトの決定は、前提条件のタスクとして非常に興味深いものです。自然言語処理(NLP)作業におけるエンティティ認識(NER)と名付けられているかどうかにかかわらず、コンピュータービジョン(CV)フィールドの作業またはオブジェクト検出(OD)タスクは、オブジェクト認識を達成することです。現在、マルチモーダルアプローチは、基本的な画像認識と自然言語処理タスクで広く使用されています。このマルチモーダルアーキテクチャは、エンティティ認識タスクをより正確に実行できますが、より多くのノイズを含む短いテキストと画像に直面した場合、画像テキストベースのマルチモーダル名のエンティティ認識(MNER)アーキテクチャに最適化の余地がまだあることがわかります。この研究では、セマンティック理解を高め、その後エンティティの識別効果を改善するための有用な視覚情報を抽出できるネットワークである新しいマルチレベルマルチモーダルという名前のエンティティ認識アーキテクチャを提案します。具体的には、最初に個別に画像とテキストを実行し、次にマルチモーダル機能融合のためのトランスに基づいた対称ニューラルネットワークアーキテクチャを構築しました。ゲーティングメカニズムを利用して、テキストの理解を高め、セマンティックの乱用を実現するために、テキストコンテンツに大きく関連する視覚情報をフィルタリングしました。さらに、テキストノイズを減らすために、文字レベルのベクトルエンコードを組み込みました。最後に、ラベル分類タスクに条件付きランダムフィールドを使用しました。Twitterデータセットでの実験は、モデルがMNERタスクの精度を高めるために機能することを示しています。
ヒューマンコンピューターの相互作用の分野では、話すオブジェクトの正確な識別は、ロボットが意思決定や推奨などのその後のタスクを達成するのに役立ちます。したがって、オブジェクトの決定は、前提条件のタスクとして非常に興味深いものです。自然言語処理(NLP)作業におけるエンティティ認識(NER)と名付けられているかどうかにかかわらず、コンピュータービジョン(CV)フィールドの作業またはオブジェクト検出(OD)タスクは、オブジェクト認識を達成することです。現在、マルチモーダルアプローチは、基本的な画像認識と自然言語処理タスクで広く使用されています。このマルチモーダルアーキテクチャは、エンティティ認識タスクをより正確に実行できますが、より多くのノイズを含む短いテキストと画像に直面した場合、画像テキストベースのマルチモーダル名のエンティティ認識(MNER)アーキテクチャに最適化の余地がまだあることがわかります。この研究では、セマンティック理解を高め、その後エンティティの識別効果を改善するための有用な視覚情報を抽出できるネットワークである新しいマルチレベルマルチモーダルという名前のエンティティ認識アーキテクチャを提案します。具体的には、最初に個別に画像とテキストを実行し、次にマルチモーダル機能融合のためのトランスに基づいた対称ニューラルネットワークアーキテクチャを構築しました。ゲーティングメカニズムを利用して、テキストの理解を高め、セマンティックの乱用を実現するために、テキストコンテンツに大きく関連する視覚情報をフィルタリングしました。さらに、テキストノイズを減らすために、文字レベルのベクトルエンコードを組み込みました。最後に、ラベル分類タスクに条件付きランダムフィールドを使用しました。Twitterデータセットでの実験は、モデルがMNERタスクの精度を高めるために機能することを示しています。
In the field of human-computer interaction, accurate identification of talking objects can help robots to accomplish subsequent tasks such as decision-making or recommendation; therefore, object determination is of great interest as a pre-requisite task. Whether it is named entity recognition (NER) in natural language processing (NLP) work or object detection (OD) task in the computer vision (CV) field, the essence is to achieve object recognition. Currently, multimodal approaches are widely used in basic image recognition and natural language processing tasks. This multimodal architecture can perform entity recognition tasks more accurately, but when faced with short texts and images containing more noise, we find that there is still room for optimization in the image-text-based multimodal named entity recognition (MNER) architecture. In this study, we propose a new multi-level multimodal named entity recognition architecture, which is a network capable of extracting useful visual information for boosting semantic understanding and subsequently improving entity identification efficacy. Specifically, we first performed image and text encoding separately and then built a symmetric neural network architecture based on Transformer for multimodal feature fusion. We utilized a gating mechanism to filter visual information that is significantly related to the textual content, in order to enhance text understanding and achieve semantic disambiguation. Furthermore, we incorporated character-level vector encoding to reduce text noise. Finally, we employed Conditional Random Fields for label classification task. Experiments on the Twitter dataset show that our model works to increase the accuracy of the MNER task.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。