著名医師による解説が無料で読めます
すると翻訳の精度が向上します
n-gram辞書を使用してベトナムのテキストを圧縮するための効率的な方法を提案します。同じデータセット上の最先端のメソッドの圧縮比と比較して、大きな圧縮率があります。最初にテキストが与えられた場合、提案された方法はそれをn-gramsに分割し、n-gram辞書に基づいてそれらをエンコードします。エンコーディングフェーズでは、Bigramから5グラムまでの範囲のサイズのスライディングウィンドウを使用して、最高のエンコーディングストリームを取得します。各N-Gramは、対応するN-Gram辞書に基づいて、2〜4バイトでエンコードされます。いくつかのベトナムの報道機関から2.5 GBのテキストコーパスを収集して、ユニグラムから5グラムまでn-Gram辞書を構築し、合計12 GBの辞書を実現しました。私たちの方法を評価するために、さまざまなサイズの10の異なるテキストファイルのテストセットを収集しました。実験結果は、私たちの方法が圧縮比を約90%に達成し、最先端の方法よりも優れていることを示しています。
n-gram辞書を使用してベトナムのテキストを圧縮するための効率的な方法を提案します。同じデータセット上の最先端のメソッドの圧縮比と比較して、大きな圧縮率があります。最初にテキストが与えられた場合、提案された方法はそれをn-gramsに分割し、n-gram辞書に基づいてそれらをエンコードします。エンコーディングフェーズでは、Bigramから5グラムまでの範囲のサイズのスライディングウィンドウを使用して、最高のエンコーディングストリームを取得します。各N-Gramは、対応するN-Gram辞書に基づいて、2〜4バイトでエンコードされます。いくつかのベトナムの報道機関から2.5 GBのテキストコーパスを収集して、ユニグラムから5グラムまでn-Gram辞書を構築し、合計12 GBの辞書を実現しました。私たちの方法を評価するために、さまざまなサイズの10の異なるテキストファイルのテストセットを収集しました。実験結果は、私たちの方法が圧縮比を約90%に達成し、最先端の方法よりも優れていることを示しています。
We propose an efficient method for compressing Vietnamese text using n-gram dictionaries. It has a significant compression ratio in comparison with those of state-of-the-art methods on the same dataset. Given a text, first, the proposed method splits it into n-grams and then encodes them based on n-gram dictionaries. In the encoding phase, we use a sliding window with a size that ranges from bigram to five grams to obtain the best encoding stream. Each n-gram is encoded by two to four bytes accordingly based on its corresponding n-gram dictionary. We collected 2.5 GB text corpus from some Vietnamese news agencies to build n-gram dictionaries from unigram to five grams and achieve dictionaries with a size of 12 GB in total. In order to evaluate our method, we collected a testing set of 10 different text files with different sizes. The experimental results indicate that our method achieves compression ratio around 90% and outperforms state-of-the-art methods.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。