Loading...
※翻訳は機械翻訳サービスを利用しております
Proceedings of the National Academy of Sciences of the United States of America2021Feb23Vol.118issue(8)

深い学習のための生態学的に動機付けられた画像データセットは、人間の視覚のより良いモデルを生み出します

,
,
,
,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

ディープニューラルネットワークは、霊長類の脳における現在の最高の視覚情報処理モデルを提供します。コンピュータービジョンからの作業を利用して、最も一般的に使用されるネットワークは、ImagENet大規模な視覚認識チャレンジのデータで前提とされています。このデータセットは、自動化された視覚オブジェクト認識システムの挑戦的なテストベッドを提供するために選択された1,000カテゴリの画像で構成されています。この一般的な慣行を超えて移動すると、ここでは、人間に関連するオブジェクトの分布をより適切にキャプチャするために選択された565の基本レベルのカテゴリから150万を超える画像のコレクションであるEcosetを紹介します。Ecosetカテゴリは、言語の使用とコンクリートの両方で頻繁に見られるように選択され、それにより世界の重要な物理的オブジェクトを反映しています。2つのニューラルネットワークアーキテクチャの複数のインスタンスを使用して、この生態学的により有効なデータセットに対するトレーニングの効果をテストします。AlexnetとVNETは、人間の腹部河川に沿った受容フィールドサイズの進行性の増加を模倣するように設計された新しいアーキテクチャです。Ecosetでのトレーニングは、人間の高レベルの視覚皮質と知覚的判断の表現を予測することに大幅に改善され、以前の最先端を上回ることを示しています。2つの別々の機能的磁気共鳴画像法(fMRI)データセットと行動データの両方のアーキテクチャについて、重要な非常に一貫した利点が実証されており、さまざまなオブジェクトカテゴリからの1,292の視覚刺激に対する応答を共同でカバーしています。これらの結果は、計算視覚神経科学が、人間の知覚的および認知的経験を反映する画像セットを使用することにより、深い学習フレームワークをよりよく活用する可能性があることを示唆しています。ECOSETおよび訓練されたネットワークモデルは、研究コミュニティが公然と利用できます。

ディープニューラルネットワークは、霊長類の脳における現在の最高の視覚情報処理モデルを提供します。コンピュータービジョンからの作業を利用して、最も一般的に使用されるネットワークは、ImagENet大規模な視覚認識チャレンジのデータで前提とされています。このデータセットは、自動化された視覚オブジェクト認識システムの挑戦的なテストベッドを提供するために選択された1,000カテゴリの画像で構成されています。この一般的な慣行を超えて移動すると、ここでは、人間に関連するオブジェクトの分布をより適切にキャプチャするために選択された565の基本レベルのカテゴリから150万を超える画像のコレクションであるEcosetを紹介します。Ecosetカテゴリは、言語の使用とコンクリートの両方で頻繁に見られるように選択され、それにより世界の重要な物理的オブジェクトを反映しています。2つのニューラルネットワークアーキテクチャの複数のインスタンスを使用して、この生態学的により有効なデータセットに対するトレーニングの効果をテストします。AlexnetとVNETは、人間の腹部河川に沿った受容フィールドサイズの進行性の増加を模倣するように設計された新しいアーキテクチャです。Ecosetでのトレーニングは、人間の高レベルの視覚皮質と知覚的判断の表現を予測することに大幅に改善され、以前の最先端を上回ることを示しています。2つの別々の機能的磁気共鳴画像法(fMRI)データセットと行動データの両方のアーキテクチャについて、重要な非常に一貫した利点が実証されており、さまざまなオブジェクトカテゴリからの1,292の視覚刺激に対する応答を共同でカバーしています。これらの結果は、計算視覚神経科学が、人間の知覚的および認知的経験を反映する画像セットを使用することにより、深い学習フレームワークをよりよく活用する可能性があることを示唆しています。ECOSETおよび訓練されたネットワークモデルは、研究コミュニティが公然と利用できます。

Deep neural networks provide the current best models of visual information processing in the primate brain. Drawing on work from computer vision, the most commonly used networks are pretrained on data from the ImageNet Large Scale Visual Recognition Challenge. This dataset comprises images from 1,000 categories, selected to provide a challenging testbed for automated visual object recognition systems. Moving beyond this common practice, we here introduce ecoset, a collection of >1.5 million images from 565 basic-level categories selected to better capture the distribution of objects relevant to humans. Ecoset categories were chosen to be both frequent in linguistic usage and concrete, thereby mirroring important physical objects in the world. We test the effects of training on this ecologically more valid dataset using multiple instances of two neural network architectures: AlexNet and vNet, a novel architecture designed to mimic the progressive increase in receptive field sizes along the human ventral stream. We show that training on ecoset leads to significant improvements in predicting representations in human higher-level visual cortex and perceptual judgments, surpassing the previous state of the art. Significant and highly consistent benefits are demonstrated for both architectures on two separate functional magnetic resonance imaging (fMRI) datasets and behavioral data, jointly covering responses to 1,292 visual stimuli from a wide variety of object categories. These results suggest that computational visual neuroscience may take better advantage of the deep learning framework by using image sets that reflect the human perceptual and cognitive experience. Ecoset and trained network models are openly available to the research community.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google