学習戦略フュージョン

学習戦略フュージョンは，強化学習の枠組で学習戦略群を融合する手法です．一般的に，それぞれのタスクに対して適切な学習戦略を選ぶ必要があります．一方，提案手法は学習戦略を融合することにより，この選択を自動化します．この研究で融合される戦略は，転移学習，階層化，モデルベース強化学習などです．

提案手法は幅広く適用できます．ほふくタスクのような運動学習タスクに適用した場合，動作のパフォーマンスは単一の戦略のみを使う場合と比べて向上します．また，提案手法は既に学習したほふくや旋回などの動作を階層的に組合せて，ナビゲーションタスクに適用するといったことも可能です．実際，学習戦略フュージョンはヒューマノイドロボットの迷路タスクに適用されました．ここではロボットはゴールまでのパスだけでなく，ほふくや旋回といった動作も学習します．

Learning Strategy Fusion for Multiple Environment

We extended the Learning Strategy Fusion to learn policies across multiple types of environments. The robot quickly adapts to a new environment with preserving policies of past environments. The proposed methods are verified with both a dynamics simulator and real robots.

Learning strategy fusion for multiple environments How the learning strategy fusion works in multiple environments
Fig: Conceptual diagram of the learning strategy fusion (left), and how it works in varying environments (right).

Crawling acquisition through 3 different terrains (learned from scratch):

学習戦略フュージョン

学習戦略フュージョン

Learning Strategy Fusion for Multiple Environment

関連論文