Loading...
PloS one20160101Vol.11issue(9)

人間の表情認識のための新しい最大エントロピーマルコフモデル

,
,
,
,
,
文献タイプ:
  • Journal Article
  • Validation Study
概要
Abstract

ビデオベースのFERシステムの研究は、過去10年間で爆発しました。ただし、以前のメソッドのほとんどは、同じデータセットでトレーニングおよびテストされている場合にうまく機能します。照明設定、画像解像度、カメラの角度、および人の物理的特性は、データセットごとに異なります。単一のデータセットを考慮すると、差異が違いに起因する分散が最小限に抑えられます。したがって、いくつかのデータセットで動作できる堅牢なFERシステムを持つことは非常に望ましいです。この作業の目的は、異なるデータセットを使用してそのようなシステムを設計、実装、および検証することです。この点で、発現認識のために最大エントロピーマルコフモデル(MEMM)を使用する認識モジュールで主要な貢献が行われます。このモデルでは、ビデオセンサーの観察をMEMMの観測と見なすことにより、人間の表現の状態はMEMMの状態としてモデル化されています。修正されたViterBIが利用され、そのような観察に基づいて最も可能性の高い発現状態配列を生成します。最後に、生成された状態シーケンスから発現状態を予測するアルゴリズムが設計されています。パフォーマンスは、6つの公開されたデータセットのいくつかの既存の最先端のFERシステムと比較されます。すべてのデータセットで97%の加重平均精度が達成されます。

ビデオベースのFERシステムの研究は、過去10年間で爆発しました。ただし、以前のメソッドのほとんどは、同じデータセットでトレーニングおよびテストされている場合にうまく機能します。照明設定、画像解像度、カメラの角度、および人の物理的特性は、データセットごとに異なります。単一のデータセットを考慮すると、差異が違いに起因する分散が最小限に抑えられます。したがって、いくつかのデータセットで動作できる堅牢なFERシステムを持つことは非常に望ましいです。この作業の目的は、異なるデータセットを使用してそのようなシステムを設計、実装、および検証することです。この点で、発現認識のために最大エントロピーマルコフモデル(MEMM)を使用する認識モジュールで主要な貢献が行われます。このモデルでは、ビデオセンサーの観察をMEMMの観測と見なすことにより、人間の表現の状態はMEMMの状態としてモデル化されています。修正されたViterBIが利用され、そのような観察に基づいて最も可能性の高い発現状態配列を生成します。最後に、生成された状態シーケンスから発現状態を予測するアルゴリズムが設計されています。パフォーマンスは、6つの公開されたデータセットのいくつかの既存の最先端のFERシステムと比較されます。すべてのデータセットで97%の加重平均精度が達成されます。

Research in video based FER systems has exploded in the past decade. However, most of the previous methods work well when they are trained and tested on the same dataset. Illumination settings, image resolution, camera angle, and physical characteristics of the people differ from one dataset to another. Considering a single dataset keeps the variance, which results from differences, to a minimum. Having a robust FER system, which can work across several datasets, is thus highly desirable. The aim of this work is to design, implement, and validate such a system using different datasets. In this regard, the major contribution is made at the recognition module which uses the maximum entropy Markov model (MEMM) for expression recognition. In this model, the states of the human expressions are modeled as the states of an MEMM, by considering the video-sensor observations as the observations of MEMM. A modified Viterbi is utilized to generate the most probable expression state sequence based on such observations. Lastly, an algorithm is designed which predicts the expression state from the generated state sequence. Performance is compared against several existing state-of-the-art FER systems on six publicly available datasets. A weighted average accuracy of 97% is achieved across all datasets.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google