Loading...
Frontiers in neurorobotics20230101Vol.17issue()

ロボットパス計画のための自己学習モンテカルロツリー検索アルゴリズム

,
,
,
,
,
,
文献タイプ:
  • Journal Article
概要
Abstract

このペーパーでは、シングルプレイヤーシナリオで問題解決能力を継続的に改善する能力を持つ自己学習モンテカルロツリー検索アルゴリズム(SL-MCTS)を提案します。SL-MCTSは、MCTSアルゴリズムと2枝のニューラルネットワーク(PV-Network)を組み合わせています。MCTSアーキテクチャは、探索と搾取の検索のバランスをとることができます。PV-Networkは、MCTSの展開プロセスを置き換え、MCTS収束速度と検索効率を向上させる、有望な検索方向とノードの値を予測します。この論文は、現在のモデルのパフォーマンスをその最高のパフォーマンスの履歴モデルのパフォーマンスと比較することにより、自己学習プロセス中の現在のモデルの軌跡を評価する効果的な方法を提案しています。さらに、この方法は、SL-MCTが自己学習プロセス中に最適なソリューションを生成することを奨励することができます。ロボットパス計画シナリオでのSL-MCTのパフォーマンスを評価します。実験結果は、SL-MCTのパフォーマンスが、パスの品質と時間消費の観点から、従来のMCTおよびシングルプレイヤーMCTSアルゴリズムよりもはるかに優れていることを示しています。SL-MCTSは、パス計画タスク専用に設計された他の反復ベースの検索アルゴリズムと同等に機能します。

このペーパーでは、シングルプレイヤーシナリオで問題解決能力を継続的に改善する能力を持つ自己学習モンテカルロツリー検索アルゴリズム(SL-MCTS)を提案します。SL-MCTSは、MCTSアルゴリズムと2枝のニューラルネットワーク(PV-Network)を組み合わせています。MCTSアーキテクチャは、探索と搾取の検索のバランスをとることができます。PV-Networkは、MCTSの展開プロセスを置き換え、MCTS収束速度と検索効率を向上させる、有望な検索方向とノードの値を予測します。この論文は、現在のモデルのパフォーマンスをその最高のパフォーマンスの履歴モデルのパフォーマンスと比較することにより、自己学習プロセス中の現在のモデルの軌跡を評価する効果的な方法を提案しています。さらに、この方法は、SL-MCTが自己学習プロセス中に最適なソリューションを生成することを奨励することができます。ロボットパス計画シナリオでのSL-MCTのパフォーマンスを評価します。実験結果は、SL-MCTのパフォーマンスが、パスの品質と時間消費の観点から、従来のMCTおよびシングルプレイヤーMCTSアルゴリズムよりもはるかに優れていることを示しています。SL-MCTSは、パス計画タスク専用に設計された他の反復ベースの検索アルゴリズムと同等に機能します。

This paper proposes a self-learning Monte Carlo tree search algorithm (SL-MCTS), which has the ability to continuously improve its problem-solving ability in single-player scenarios. SL-MCTS combines the MCTS algorithm with a two-branch neural network (PV-Network). The MCTS architecture can balance the search for exploration and exploitation. PV-Network replaces the rollout process of MCTS and predicts the promising search direction and the value of nodes, which increases the MCTS convergence speed and search efficiency. The paper proposes an effective method to assess the trajectory of the current model during the self-learning process by comparing the performance of the current model with that of its best-performing historical model. Additionally, this method can encourage SL-MCTS to generate optimal solutions during the self-learning process. We evaluate the performance of SL-MCTS on the robot path planning scenario. The experimental results show that the performance of SL-MCTS is far superior to the traditional MCTS and single-player MCTS algorithms in terms of path quality and time consumption, especially its time consumption is half less than that of the traditional MCTS algorithms. SL-MCTS also performs comparably to other iterative-based search algorithms designed specifically for path planning tasks.

医師のための臨床サポートサービス

ヒポクラ x マイナビのご紹介

無料会員登録していただくと、さらに便利で効率的な検索が可能になります。

Translated by Google