Loading...
Sensors (Basel, Switzerland)2021Aug25Vol.21issue(17)

ディスカス:センサーとしてのカメラによるディスカッションに関するマイクロ動作分析

,
,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

さまざまな種類の商用カメラ(コンパクト、高解像度、高視野角、高速、および高ダイナミックレンジなど)の出現は、人間の活動の理解に大きく貢献しています。高視野の特性を活用することにより、このホワイトペーパーでは、微生物叢と、単一の360度カメラでの小グループの議論を、定量化された会議分析に向けて認識するシステムを示しています。顔の画像のビデオストリームとランダムフォレスト分類器から、既存の研究で見落とされていることが多い話とうなずきを認識する方法を提案します。提案されたアプローチは、3つのデータセットで評価されました。1番目と2番目のデータセットを作成するために、参加者に物理的に会うように依頼しました。21人のユニークな参加者からの5分間のデータの16セットと、12人のユニークな参加者からの10分間の会議データの7セット。実験結果は、私たちのアプローチが、10倍のランダムスプリット交差検証で67.9%のマクロ平均F1スコアと、休暇中毒の交差検証で62.5%のマクロ平均F1スコアで話すこととうなずきを検出できることを示しました。Covid-19パンデミックによるオンライン会議の需要の増加を考慮することにより、Webカメラでキャプチャされた3番目のデータセットとしてキャプチャされた画面に顔を記録し、アイデアを仮想ビデオ会議に適用する潜在的と課題について説明しました。

さまざまな種類の商用カメラ(コンパクト、高解像度、高視野角、高速、および高ダイナミックレンジなど)の出現は、人間の活動の理解に大きく貢献しています。高視野の特性を活用することにより、このホワイトペーパーでは、微生物叢と、単一の360度カメラでの小グループの議論を、定量化された会議分析に向けて認識するシステムを示しています。顔の画像のビデオストリームとランダムフォレスト分類器から、既存の研究で見落とされていることが多い話とうなずきを認識する方法を提案します。提案されたアプローチは、3つのデータセットで評価されました。1番目と2番目のデータセットを作成するために、参加者に物理的に会うように依頼しました。21人のユニークな参加者からの5分間のデータの16セットと、12人のユニークな参加者からの10分間の会議データの7セット。実験結果は、私たちのアプローチが、10倍のランダムスプリット交差検証で67.9%のマクロ平均F1スコアと、休暇中毒の交差検証で62.5%のマクロ平均F1スコアで話すこととうなずきを検出できることを示しました。Covid-19パンデミックによるオンライン会議の需要の増加を考慮することにより、Webカメラでキャプチャされた3番目のデータセットとしてキャプチャされた画面に顔を記録し、アイデアを仮想ビデオ会議に適用する潜在的と課題について説明しました。

The emergence of various types of commercial cameras (compact, high resolution, high angle of view, high speed, and high dynamic range, etc.) has contributed significantly to the understanding of human activities. By taking advantage of the characteristic of a high angle of view, this paper demonstrates a system that recognizes micro-behaviors and a small group discussion with a single 360 degree camera towards quantified meeting analysis. We propose a method that recognizes speaking and nodding, which have often been overlooked in existing research, from a video stream of face images and a random forest classifier. The proposed approach was evaluated on our three datasets. In order to create the first and the second datasets, we asked participants to meet physically: 16 sets of five minutes data from 21 unique participants and seven sets of 10 min meeting data from 12 unique participants. The experimental results showed that our approach could detect speaking and nodding with a macro average f1-score of 67.9% in a 10-fold random split cross-validation and a macro average f1-score of 62.5% in a leave-one-participant-out cross-validation. By considering the increased demand for an online meeting due to the COVID-19 pandemic, we also record faces on a screen that are captured by web cameras as the third dataset and discussed the potential and challenges of applying our ideas to virtual video conferences.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google