Loading...
Mathematical biosciences and engineering : MBE2021Apr28Vol.18issue(4)

生成敵のネットワークの潜在的な空間ベクトルに細かい調整されたVGGを使用したマルチポーズ表現認識を保存するアイデンティティ

,
,
文献タイプ:
  • Journal Article
概要
Abstract

表情は、人間が精神状態を表現するための重要な要素であり、コンピュータービジョンにおける研究の顕著な分野の1つになりました。ただし、指定された顔のイメージが非前頭である場合、タスクは挑戦的になります。顔の画像に対するポーズの影響は、学習が不変の表現をもたらすことができる生成的な敵対的なネットワークのエンコーダーを使用して緩和されます。画像生成の最先端の結果は、StyleGanアーキテクチャを使用して達成されます。与えられた画像をStyleGanの潜在的なベクトル空間に埋め込むための効率的なモデルが提案されています。エンコーダーは、顔の画像の高レベルの機能を抽出し、それらを潜在空間にエンコードします。スタイルガンの潜在的な空間に隠されたセマンティクスの厳密な分析が実行されます。分析に基づいて、顔のイメージが合成され、表情表現は発現認識ニューラルネットワークを使用して認識されます。元の画像は、潜在空間にエンコードされた機能から回復されます。顔の回転、スタイルの転送、顔の老化、画像のモーフィング、表現転送などの意味編集操作は、スタイルガンの機能エンコードされた潜在スペースを使用して生成された画像から得られた画像で実行できます。L2機能ごとの損失は、再構築された画像の品質を保証するために適用されます。次に、フェイシャルイメージを属性分類器に供給して高レベルの特徴を抽出し、機能を連結して表情分類を実行します。生成された結果で評価が実行され、提案された方法を使用して最先端の結果が達成されることを実証します。

表情は、人間が精神状態を表現するための重要な要素であり、コンピュータービジョンにおける研究の顕著な分野の1つになりました。ただし、指定された顔のイメージが非前頭である場合、タスクは挑戦的になります。顔の画像に対するポーズの影響は、学習が不変の表現をもたらすことができる生成的な敵対的なネットワークのエンコーダーを使用して緩和されます。画像生成の最先端の結果は、StyleGanアーキテクチャを使用して達成されます。与えられた画像をStyleGanの潜在的なベクトル空間に埋め込むための効率的なモデルが提案されています。エンコーダーは、顔の画像の高レベルの機能を抽出し、それらを潜在空間にエンコードします。スタイルガンの潜在的な空間に隠されたセマンティクスの厳密な分析が実行されます。分析に基づいて、顔のイメージが合成され、表情表現は発現認識ニューラルネットワークを使用して認識されます。元の画像は、潜在空間にエンコードされた機能から回復されます。顔の回転、スタイルの転送、顔の老化、画像のモーフィング、表現転送などの意味編集操作は、スタイルガンの機能エンコードされた潜在スペースを使用して生成された画像から得られた画像で実行できます。L2機能ごとの損失は、再構築された画像の品質を保証するために適用されます。次に、フェイシャルイメージを属性分類器に供給して高レベルの特徴を抽出し、機能を連結して表情分類を実行します。生成された結果で評価が実行され、提案された方法を使用して最先端の結果が達成されることを実証します。

Facial expression is the crucial component for human beings to express their mental state and it has become one of the prominent areas of research in computer vision. However, the task becomes challenging when the given facial image is non-frontal. The influence of poses on facial images is alleviated using an encoder of a generative adversarial network capable of learning pose invariant representations. State-of-art results for image generation are achieved using styleGAN architecture. An efficient model is proposed to embed the given image into the latent vector space of styleGAN. The encoder extracts high-level features of the facial image and encodes them into the latent space. Rigorous analysis of semantics hidden in the latent space of styleGAN is performed. Based on the analysis, the facial image is synthesized, and facial expressions are recognized using an expression recognition neural network. The original image is recovered from the features encoded in the latent space. Semantic editing operations like face rotation, style transfer, face aging, image morphing and expression transfer can be performed on the image obtained from the image generated using the features encoded latent space of styleGAN. L2 feature-wise loss is applied to warrant the quality of the rebuilt image. The facial image is then fed into the attribute classifier to extract high-level features, and the features are concatenated to perform facial expression classification. Evaluations are performed on the generated results to demonstrate that state-of-art results are achieved using the proposed method.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google