著名医師による解説が無料で読めます
すると翻訳の精度が向上します
ハードウェアの推論のために最適化された効率的な機械学習の実装は、アプリケーションに応じて、より低い推論レイテンシからより高いデータスループット、エネルギー消費の削減まで、幅広い利点があります。ニューラルネットワークの計算を削減するための2つの一般的な手法は、剪定、取るに足らないシナプスの除去、および量子化の除去であり、計算の精度を減らします。この作業では、高エネルギー物理学のユースケースを対象とする超低レイテンシアプリケーションのニューラルネットワークのトレーニング中の剪定と量子化の相互作用を調査します。この研究のために開発された手法は、他の多くのドメインにわたって潜在的なアプリケーションを持っています。量子化認識トレーニング中に剪定のさまざまな構成を研究します。これは、量子化に対応する剪定、正則化、バッチ正規化、パフォーマンス、計算の複雑さ、情報コンテンツメトリックに関するさまざまな剪定スキームなどの技術の効果を調査します。量子化を認識している剪定は、私たちのタスクに対して剪定または量子化だけよりも計算上効率的なモデルを生成することがわかります。さらに、量子化を認識した剪定は、通常、ベイジアンの最適化などの他の神経アーキテクチャ検索技術と比較して、計算効率の点で同様の性能を発揮します。驚くべきことに、異なるトレーニング構成を持つネットワークはベンチマークアプリケーションで同様のパフォーマンスを持つことができますが、ネットワーク内の情報コンテンツは大きく異なり、一般化に影響します。
ハードウェアの推論のために最適化された効率的な機械学習の実装は、アプリケーションに応じて、より低い推論レイテンシからより高いデータスループット、エネルギー消費の削減まで、幅広い利点があります。ニューラルネットワークの計算を削減するための2つの一般的な手法は、剪定、取るに足らないシナプスの除去、および量子化の除去であり、計算の精度を減らします。この作業では、高エネルギー物理学のユースケースを対象とする超低レイテンシアプリケーションのニューラルネットワークのトレーニング中の剪定と量子化の相互作用を調査します。この研究のために開発された手法は、他の多くのドメインにわたって潜在的なアプリケーションを持っています。量子化認識トレーニング中に剪定のさまざまな構成を研究します。これは、量子化に対応する剪定、正則化、バッチ正規化、パフォーマンス、計算の複雑さ、情報コンテンツメトリックに関するさまざまな剪定スキームなどの技術の効果を調査します。量子化を認識している剪定は、私たちのタスクに対して剪定または量子化だけよりも計算上効率的なモデルを生成することがわかります。さらに、量子化を認識した剪定は、通常、ベイジアンの最適化などの他の神経アーキテクチャ検索技術と比較して、計算効率の点で同様の性能を発揮します。驚くべきことに、異なるトレーニング構成を持つネットワークはベンチマークアプリケーションで同様のパフォーマンスを持つことができますが、ネットワーク内の情報コンテンツは大きく異なり、一般化に影響します。
Efficient machine learning implementations optimized for inference in hardware have wide-ranging benefits, depending on the application, from lower inference latency to higher data throughput and reduced energy consumption. Two popular techniques for reducing computation in neural networks are pruning, removing insignificant synapses, and quantization, reducing the precision of the calculations. In this work, we explore the interplay between pruning and quantization during the training of neural networks for ultra low latency applications targeting high energy physics use cases. Techniques developed for this study have potential applications across many other domains. We study various configurations of pruning during quantization-aware training, which we term quantization-aware pruning, and the effect of techniques like regularization, batch normalization, and different pruning schemes on performance, computational complexity, and information content metrics. We find that quantization-aware pruning yields more computationally efficient models than either pruning or quantization alone for our task. Further, quantization-aware pruning typically performs similar to or better in terms of computational efficiency compared to other neural architecture search techniques like Bayesian optimization. Surprisingly, while networks with different training configurations can have similar performance for the benchmark application, the information content in the network can vary significantly, affecting its generalizability.
医師のための臨床サポートサービス
ヒポクラ x マイナビのご紹介
無料会員登録していただくと、さらに便利で効率的な検索が可能になります。