学習戦略フュージョン
学習戦略フュージョンは,強化学習の枠組で学習戦略群を融合する手法です.
一般的に,それぞれのタスクに対して適切な学習戦略を選ぶ必要があります.
一方,提案手法は学習戦略を融合することにより,この選択を自動化します.
この研究で融合される戦略は,転移学習,階層化,モデルベース強化学習などです.
提案手法は幅広く適用できます.
ほふくタスクのような運動学習タスクに適用した場合,動作のパフォーマンスは単一の戦略のみを使う場合と比べて向上します.
また,提案手法は既に学習したほふくや旋回などの動作を階層的に組合せて,ナビゲーションタスクに適用するといったことも可能です.
実際,学習戦略フュージョンはヒューマノイドロボットの迷路タスクに適用されました.ここではロボットはゴールまでのパスだけでなく,ほふくや旋回といった動作も学習します.
Learning Strategy Fusion for Multiple Environment
We extended the Learning Strategy Fusion to learn policies across multiple types of environments.
The robot quickly adapts to a new environment with preserving policies of past environments. The proposed methods are verified with both a dynamics simulator and real robots.
Fig: Conceptual diagram of the learning strategy fusion (left), and how it works in varying environments (right).
Crawling acquisition through 3 different terrains (learned from scratch):
関連論文
- Akihiko Yamaguchi, Masahiro Oshita, Jun Takamatsu, and Tsukasa Ogasawara:
Experimental Verification of Learning Strategy Fusion for Varying Environments,
in Proceedings of the 10th ACM/IEEE International Conference on Human-Robot Interaction Extended Abstracts (HRI2015), pp. 171-172, Portland, 2015.
[final-draft]
[ACM]
- 山口 明彦, 大下 将宗, 高松 淳, 小笠原 司:
学習戦略フュージョンを用いた18自由度多脚ロボットによる匍匐動作の獲得,
第31回日本ロボット学会学術講演会, 3I3-03, 2013年9月4-6日.
- Akihiko Yamaguchi, Jun Takamatsu, and Tsukasa Ogasawara:
Learning Strategy Fusion to Acquire Dynamic Motion,
in Proceedings of the 11th IEEE-RAS International Conference on Humanoid Robots (Humanoids2011), pp.247-254, Bled, Slovenia, 2011.
[final-draft]
- Akihiko Yamaguchi, Jun Takamatsu, and Tsukasa Ogasawara:
Utilizing Dynamics and Reward Models in Learning Strategy Fusion,
in Proceedings of the 2011 JSME Conference on Robotics and Mechatronics (ROBOMEC2011), 1A1-O03, Okayama, Japan, May, 2011.
[PDF]
- Akihiko Yamaguchi, Jun Takamatsu, and Tsukasa Ogasawara:
Fusing Learning Strategies to Learn Various Tasks with Single Configuration,
IEICE Technical Report, Vol.110, No.461, NC2010-154, pp.159-164, March 2011. (in English)
[final-draft]
last updated at Sep. 18, 2013.