Loading...
Theory in biosciences = Theorie in den Biowissenschaften2012Sep01Vol.131issue(3)

好奇心駆動型強化学習への情報理論的アプローチ

,
,
文献タイプ:
  • Journal Article
  • Research Support, Non-U.S. Gov't
  • Research Support, U.S. Gov't, Non-P.H.S.
概要
Abstract

私たちは、情報理論からのアイデアを利用して、強化学習における探求の問題を新たに見ていきます。まず、強化学習で使用される主要な探索方法の1つであるボルツマンスタイルの探索が、ポリシーのコーディングコストに対して期待されるリターンを最適に取引するという点で、情報理論の観点から最適であることを示します。第二に、好奇心による学習の問題に対処します。予想リターンを最大化することに加えて、学習者は学習者の予測力を最大化するポリシーを選択する必要があることを提案します。これにより、世界は面白くて搾取可能になります。最適なポリシーは、提案された最適化の原則から自然に出現する新しい探査爆発トレードオフを含むボルツマンスタイルの探索の形式をボーナスで持っています。重要なことに、この探索と爆発のトレードオフは、最適な決定論的ポリシー、つまりランダム性による探査がない場合に持続します。その結果、探査は、アクションの選択の純粋なランダム化としてモデル化されるのではなく、情報のゲインを最適化する新しい動作として理解されます。

私たちは、情報理論からのアイデアを利用して、強化学習における探求の問題を新たに見ていきます。まず、強化学習で使用される主要な探索方法の1つであるボルツマンスタイルの探索が、ポリシーのコーディングコストに対して期待されるリターンを最適に取引するという点で、情報理論の観点から最適であることを示します。第二に、好奇心による学習の問題に対処します。予想リターンを最大化することに加えて、学習者は学習者の予測力を最大化するポリシーを選択する必要があることを提案します。これにより、世界は面白くて搾取可能になります。最適なポリシーは、提案された最適化の原則から自然に出現する新しい探査爆発トレードオフを含むボルツマンスタイルの探索の形式をボーナスで持っています。重要なことに、この探索と爆発のトレードオフは、最適な決定論的ポリシー、つまりランダム性による探査がない場合に持続します。その結果、探査は、アクションの選択の純粋なランダム化としてモデル化されるのではなく、情報のゲインを最適化する新しい動作として理解されます。

We provide a fresh look at the problem of exploration in reinforcement learning, drawing on ideas from information theory. First, we show that Boltzmann-style exploration, one of the main exploration methods used in reinforcement learning, is optimal from an information-theoretic point of view, in that it optimally trades expected return for the coding cost of the policy. Second, we address the problem of curiosity-driven learning. We propose that, in addition to maximizing the expected return, a learner should choose a policy that also maximizes the learner's predictive power. This makes the world both interesting and exploitable. Optimal policies then have the form of Boltzmann-style exploration with a bonus, containing a novel exploration-exploitation trade-off which emerges naturally from the proposed optimization principle. Importantly, this exploration-exploitation trade-off persists in the optimal deterministic policy, i.e., when there is no exploration due to randomness. As a result, exploration is understood as an emerging behavior that optimizes information gain, rather than being modeled as pure randomization of action choices.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google