Loading...
Neural computation2007Jun01Vol.19issue(6)

スパイクタイミング依存性のシナプス可塑性の変調による強化学習

,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
概要
Abstract

シナプス前およびシナプス後スパイクの相対的なタイミングの関数としてのシナプス効果の持続的な修正は、スパイクタイミング依存可塑性(STDP)として知られる現象です。ここでは、グローバルな報酬信号によるSTDPの変調が強化学習につながることを示します。最初に、スパイクニューロンの確率的スパイク応答モデルに強化学習アルゴリズムを適用することにより、報酬変調されたスパイク - タイミング依存性シナプスおよび固有の可塑性を含む分析的に学習ルールを導き出します。これらのルールには、脳で実験的に見られる可塑性メカニズムに共通するいくつかの特徴があります。次に、統合ニューロンのネットワークのシミュレーションで、変調されたSTDPを含む2つの単純な学習ルールの有効性を示します。1つのルールは、標準のSTDPモデル(変調STDP)の直接拡張であり、もう1つは、シナプス前とシナプス後のスパイクペアの最近のペアの間の関係のメモリを崩壊させる各シナプスに保存された適格性トレースを伴います(変調STDP適格性トレースで)。この後者のルールは、報酬信号が遅れている場合でも学習を許可します。提案されたルールは、レートコード化された入力と一時的にコード化された入力の両方でXOR問題を解決し、ターゲット出力発火率パターンを学習することができます。これらの学習ルールは生物学的にもっともらしいものであり、使用されるニューラルモデルに関係なく、一般的な人工スパイクニューラルネットワークのトレーニングに使用され、報酬変調されたSTDPの存在の動物の実験的調査を示唆しています。

シナプス前およびシナプス後スパイクの相対的なタイミングの関数としてのシナプス効果の持続的な修正は、スパイクタイミング依存可塑性(STDP)として知られる現象です。ここでは、グローバルな報酬信号によるSTDPの変調が強化学習につながることを示します。最初に、スパイクニューロンの確率的スパイク応答モデルに強化学習アルゴリズムを適用することにより、報酬変調されたスパイク - タイミング依存性シナプスおよび固有の可塑性を含む分析的に学習ルールを導き出します。これらのルールには、脳で実験的に見られる可塑性メカニズムに共通するいくつかの特徴があります。次に、統合ニューロンのネットワークのシミュレーションで、変調されたSTDPを含む2つの単純な学習ルールの有効性を示します。1つのルールは、標準のSTDPモデル(変調STDP)の直接拡張であり、もう1つは、シナプス前とシナプス後のスパイクペアの最近のペアの間の関係のメモリを崩壊させる各シナプスに保存された適格性トレースを伴います(変調STDP適格性トレースで)。この後者のルールは、報酬信号が遅れている場合でも学習を許可します。提案されたルールは、レートコード化された入力と一時的にコード化された入力の両方でXOR問題を解決し、ターゲット出力発火率パターンを学習することができます。これらの学習ルールは生物学的にもっともらしいものであり、使用されるニューラルモデルに関係なく、一般的な人工スパイクニューラルネットワークのトレーニングに使用され、報酬変調されたSTDPの存在の動物の実験的調査を示唆しています。

The persistent modification of synaptic efficacy as a function of the relative timing of pre- and postsynaptic spikes is a phenomenon known as spike-timing-dependent plasticity (STDP). Here we show that the modulation of STDP by a global reward signal leads to reinforcement learning. We first derive analytically learning rules involving reward-modulated spike-timing-dependent synaptic and intrinsic plasticity, by applying a reinforcement learning algorithm to the stochastic spike response model of spiking neurons. These rules have several features common to plasticity mechanisms experimentally found in the brain. We then demonstrate in simulations of networks of integrate-and-fire neurons the efficacy of two simple learning rules involving modulated STDP. One rule is a direct extension of the standard STDP model (modulated STDP), and the other one involves an eligibility trace stored at each synapse that keeps a decaying memory of the relationships between the recent pairs of pre- and postsynaptic spike pairs (modulated STDP with eligibility trace). This latter rule permits learning even if the reward signal is delayed. The proposed rules are able to solve the XOR problem with both rate coded and temporally coded input and to learn a target output firing-rate pattern. These learning rules are biologically plausible, may be used for training generic artificial spiking neural networks, regardless of the neural model used, and suggest the experimental investigation in animals of the existence of reward-modulated STDP.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google