著名医師による解説が無料で読めます
すると翻訳の精度が向上します
手話は、ろうコミュニティ間でメッセージを伝えるための自然なコミュニケーション方法として設計されています。ウェアラブルセンサーを介した手話認識の研究では、データソースは限られており、データ収集プロセスは複雑です。この研究の目的は、ウェアラブル慣性モーションキャプチャシステムを使用してアメリカの手話データセットを収集し、ディープラーニングモデルを使用した手話の文章の認識とエンドツーエンドの翻訳を実現することを目的としています。この作業では、300人の一般的に使用される文で構成されるデータセットが3人のボランティアから収集されます。認識ネットワークの設計では、このモデルは主に3つの層で構成されています:畳み込みニューラルネットワーク、双方向の長期記憶、およびコネクショニストの時間的分類。このモデルは、単語レベルの評価で99.07%、文レベルの評価で97.34%の精度率を達成します。翻訳ネットワークの設計では、エンコーダデコーダー構造化モデルは、主に世界的な注意を払った長期の短期メモリに基づいています。エンドツーエンド翻訳の単語エラー率は16.63%です。提案された方法には、デバイスからの信頼できる慣性データを使用して、より多くの手話文を認識する可能性があります。
手話は、ろうコミュニティ間でメッセージを伝えるための自然なコミュニケーション方法として設計されています。ウェアラブルセンサーを介した手話認識の研究では、データソースは限られており、データ収集プロセスは複雑です。この研究の目的は、ウェアラブル慣性モーションキャプチャシステムを使用してアメリカの手話データセットを収集し、ディープラーニングモデルを使用した手話の文章の認識とエンドツーエンドの翻訳を実現することを目的としています。この作業では、300人の一般的に使用される文で構成されるデータセットが3人のボランティアから収集されます。認識ネットワークの設計では、このモデルは主に3つの層で構成されています:畳み込みニューラルネットワーク、双方向の長期記憶、およびコネクショニストの時間的分類。このモデルは、単語レベルの評価で99.07%、文レベルの評価で97.34%の精度率を達成します。翻訳ネットワークの設計では、エンコーダデコーダー構造化モデルは、主に世界的な注意を払った長期の短期メモリに基づいています。エンドツーエンド翻訳の単語エラー率は16.63%です。提案された方法には、デバイスからの信頼できる慣性データを使用して、より多くの手話文を認識する可能性があります。
Sign language is designed as a natural communication method to convey messages among the deaf community. In the study of sign language recognition through wearable sensors, the data sources are limited, and the data acquisition process is complex. This research aims to collect an American sign language dataset with a wearable inertial motion capture system and realize the recognition and end-to-end translation of sign language sentences with deep learning models. In this work, a dataset consisting of 300 commonly used sentences is gathered from 3 volunteers. In the design of the recognition network, the model mainly consists of three layers: convolutional neural network, bi-directional long short-term memory, and connectionist temporal classification. The model achieves accuracy rates of 99.07% in word-level evaluation and 97.34% in sentence-level evaluation. In the design of the translation network, the encoder-decoder structured model is mainly based on long short-term memory with global attention. The word error rate of end-to-end translation is 16.63%. The proposed method has the potential to recognize more sign language sentences with reliable inertial data from the device.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。