Loading...
IEEE transactions on neural networks and learning systems2022May09Vol.PPissue()

resdnet:高レベルのビジョンタスクのための残差学習を備えた効率的な密度マルチスケール表現

,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

ディープフィーチャーフュージョンは、コンピュータービジョンタスクの畳み込みニューラルネットワーク(CNNS)の強力な学習能力において重要な役割を果たします。最近、作品は効率的な集約戦略の利点を継続的に実証しており、それらのいくつかはマルチスケール表現を参照しています。この記事では、高レベルのコンピュータービジョンタスクの新しいネットワークアーキテクチャについて説明します。ここでは、密に接続された機能Fusionが残差ネットワークにマルチスケール表現を提供します。私たちは、スライディング密度の高いブロック(SDB)という名前の濃いブロックのバリアントを含むシーケンシャルRESDNETモジュールで構成されたシンプルで効率的なバックボーンであるresdnetと呼んでいます。Densenetと比較して、Resdnetは特徴の融合を強化し、浅く接続されたアーキテクチャによる冗長性を低下させます。CIFAR-10、CIFAR-100、およびImagenetを含む3つの分類ベンチマークでの実験結果は、Resdnetの有効性を示しています。resdnetは、CIFAR-100でのはるかに少ない計算を使用して、常にデンセネットよりも優れています。Imagenetでは、ResDNET-B-129は、ResNet-50およびDensenet-2010で1.94%および0.89%のTOP-1精度の改善を達成し、同様の複雑さを実現します。また、1000を超えるレイヤーを持つResdnetは、他の最先端の結果と比較してCIFARで顕著な精度を達成します。レチナネットのMMDETECTION実装に基づいて、RESDNET-B-129は、COCOデータセットのResNet-50と比較して36.3から39.5にMAPを改善します。

ディープフィーチャーフュージョンは、コンピュータービジョンタスクの畳み込みニューラルネットワーク(CNNS)の強力な学習能力において重要な役割を果たします。最近、作品は効率的な集約戦略の利点を継続的に実証しており、それらのいくつかはマルチスケール表現を参照しています。この記事では、高レベルのコンピュータービジョンタスクの新しいネットワークアーキテクチャについて説明します。ここでは、密に接続された機能Fusionが残差ネットワークにマルチスケール表現を提供します。私たちは、スライディング密度の高いブロック(SDB)という名前の濃いブロックのバリアントを含むシーケンシャルRESDNETモジュールで構成されたシンプルで効率的なバックボーンであるresdnetと呼んでいます。Densenetと比較して、Resdnetは特徴の融合を強化し、浅く接続されたアーキテクチャによる冗長性を低下させます。CIFAR-10、CIFAR-100、およびImagenetを含む3つの分類ベンチマークでの実験結果は、Resdnetの有効性を示しています。resdnetは、CIFAR-100でのはるかに少ない計算を使用して、常にデンセネットよりも優れています。Imagenetでは、ResDNET-B-129は、ResNet-50およびDensenet-2010で1.94%および0.89%のTOP-1精度の改善を達成し、同様の複雑さを実現します。また、1000を超えるレイヤーを持つResdnetは、他の最先端の結果と比較してCIFARで顕著な精度を達成します。レチナネットのMMDETECTION実装に基づいて、RESDNET-B-129は、COCOデータセットのResNet-50と比較して36.3から39.5にMAPを改善します。

Deep feature fusion plays a significant role in the strong learning ability of convolutional neural networks (CNNs) for computer vision tasks. Recently, works continually demonstrate the advantages of efficient aggregation strategy and some of them refer to multiscale representations. In this article, we describe a novel network architecture for high-level computer vision tasks where densely connected feature fusion provides multiscale representations for the residual network. We term our method the ResDNet which is a simple and efficient backbone made up of sequential ResDNet modules containing the variants of dense blocks named sliding dense blocks (SDBs). Compared with DenseNet, ResDNet enhances the feature fusion and reduces the redundancy by shallower densely connected architectures. Experimental results on three classification benchmarks including CIFAR-10, CIFAR-100, and ImageNet demonstrate the effectiveness of ResDNet. ResDNet always outperforms DenseNet using much less computation on CIFAR-100. On ImageNet, ResDNet-B-129 achieves 1.94% and 0.89% top-1 accuracy improvement over ResNet-50 and DenseNet-201 with similar complexity. Besides, ResDNet with more than 1000 layers achieves remarkable accuracy on CIFAR compared with other state-of-the-art results. Based on MMdetection implementation of RetinaNet, ResDNet-B-129 improves mAP from 36.3 to 39.5 compared with ResNet-50 on COCO dataset.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google