著名医師による解説が無料で読めます
すると翻訳の精度が向上します
実際の単語エラーは、辞書の実際の用語であることによって特徴付けられます。コンテキストを提供することにより、実際の単語エラーが検出されます。このようなエラーを検出して修正する従来の方法は、主にコーパス内の短い単語シーケンスの頻度をカウントすることに基づいています。次に、単語が実際の単語エラーである可能性が計算されます。一方、最先端のアプローチでは、テキストからセマンティック機能を抽出することにより、コンテキストを学習するために、ディープラーニングモデルを使用します。この作業では、臨床テキストの実際の単語エラーを修正するために、深い学習モデルが実装されました。具体的には、それらを修正するために誤った文章をマッピングしたSEQ2SEQニューラルマシン翻訳モデルがマッピングされました。そのため、ルールを使用して、正しい文で異なるタイプのエラーが生成されました。さまざまなseq2seqモデルを訓練し、2つのコーパスで訓練および評価されました。ウィキコルパスと3つの臨床データセットのコレクションです。薬のコーパスは、患者情報を扱う際のプライバシーの問題のため、ウィキコルパスよりもはるかに小さかった。さらに、グローブとWord2vecの前提条件のワード埋め込みを使用して、パフォーマンスを研究しました。薬のコーパスはウィキコルパスよりもはるかに小さいにもかかわらず、薬のコーパスで訓練されたseq2seqモデルは、ウィキコルパスで訓練されたモデルよりも優れたパフォーマンスを発揮しました。それにもかかわらず、結果を改善するには、より多くの臨床テキストが必要です。
実際の単語エラーは、辞書の実際の用語であることによって特徴付けられます。コンテキストを提供することにより、実際の単語エラーが検出されます。このようなエラーを検出して修正する従来の方法は、主にコーパス内の短い単語シーケンスの頻度をカウントすることに基づいています。次に、単語が実際の単語エラーである可能性が計算されます。一方、最先端のアプローチでは、テキストからセマンティック機能を抽出することにより、コンテキストを学習するために、ディープラーニングモデルを使用します。この作業では、臨床テキストの実際の単語エラーを修正するために、深い学習モデルが実装されました。具体的には、それらを修正するために誤った文章をマッピングしたSEQ2SEQニューラルマシン翻訳モデルがマッピングされました。そのため、ルールを使用して、正しい文で異なるタイプのエラーが生成されました。さまざまなseq2seqモデルを訓練し、2つのコーパスで訓練および評価されました。ウィキコルパスと3つの臨床データセットのコレクションです。薬のコーパスは、患者情報を扱う際のプライバシーの問題のため、ウィキコルパスよりもはるかに小さかった。さらに、グローブとWord2vecの前提条件のワード埋め込みを使用して、パフォーマンスを研究しました。薬のコーパスはウィキコルパスよりもはるかに小さいにもかかわらず、薬のコーパスで訓練されたseq2seqモデルは、ウィキコルパスで訓練されたモデルよりも優れたパフォーマンスを発揮しました。それにもかかわらず、結果を改善するには、より多くの臨床テキストが必要です。
Real-word errors are characterized by being actual terms in the dictionary. By providing context, real-word errors are detected. Traditional methods to detect and correct such errors are mostly based on counting the frequency of short word sequences in a corpus. Then, the probability of a word being a real-word error is computed. On the other hand, state-of-the-art approaches make use of deep learning models to learn context by extracting semantic features from text. In this work, a deep learning model were implemented for correcting real-word errors in clinical text. Specifically, a Seq2seq Neural Machine Translation Model mapped erroneous sentences to correct them. For that, different types of error were generated in correct sentences by using rules. Different Seq2seq models were trained and evaluated on two corpora: the Wikicorpus and a collection of three clinical datasets. The medicine corpus was much smaller than the Wikicorpus due to privacy issues when dealing with patient information. Moreover, GloVe and Word2Vec pretrained word embeddings were used to study their performance. Despite the medicine corpus being much smaller than the Wikicorpus, Seq2seq models trained on the medicine corpus performed better than those models trained on the Wikicorpus. Nevertheless, a larger amount of clinical text is required to improve the results.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。