DCOB

DCOB: 高自由度ロボットの運動学習ための行動空間

強化学習手法は，報酬（目的）関数によって表現された目的のみから，ロボットが自律的に行動を獲得することを可能にします．しかしながら，ヒューマノイドのような高次元の制御入力空間への対処は，未解決問題のひとつです．

この研究のねらいは，ロボットが高速に高パフォーマンスな動作を学習できる，強化学習手法にとって最適な行動空間を開発することです．

私たちは，DCOBという離散行動集合を提案しました．DCOB は "an action Directed to the Center Of a Basis function"（基底関数の中心に向かう行動）を意味します．DCOB は価値関数を近似するために与えられた基底関数の集合から生成されます．DCOB は離散集合ですが，高いパフォーマンスの動作を獲得できます．

DCOB の拡張として，WF-DCOB を提案しました．WF-DCOB は wire-fitting と呼ばれる手法を用いて，DCOB が離散化する前の連続空間で直接学習を行う手法です．このように，WF-DCOB は DCOB よりも高いパフォーマンスを得る能力を持っています．しかし，wire-fitting の学習の不安定さのため，今までのところ，DCOB と同程度のパフォーマンスしか達成できていません．