- 2021-12-24
- 技術ニュース, 機械系
- Soft Actor-Critic, スパイキングニューラルネットワーク, ニューラルネットワーク, 東北大学, 東北大学大学院工学研究科, 深層強化学習, 研究, 脚ロボット, 脚ロボットの歩行パターン, 運動学習
東北大学大学院工学研究科 教授の林部充宏氏らの研究グループは2021年12月23日、スパイキングニューラルネットワークを用いた深層強化学習により、エネルギー効率の良い脚ロボットの歩行パターンを生成したと発表した。スパイキングニューラルネットワークの新たな可能性を示唆しており、さらなる応用が期待される。
脚ロボットは、他の移動ロボットと比較して高い移動性能を有していることから、厳しい環境下での利用が期待されてる。しかし、車輪型など他の移動ロボットと比較して、移動のエネルギー効率が悪いことが課題となっていることから、さまざまな制御手法が提案されている。その1つが、深層強化学習を用いた最適な行動の学習である。
これまで深層強化学習によってエネルギー効率の良い行動を学習する工夫として、報酬項にエネルギーに関するペナルティ項を導入するという手法が用いられてきたが、最適な運動を得るためには報酬項の細かい調整が必要となり、計算コストも課題となっていた。
そこで今回、スパイキングニューラルネットワークと呼ばれるニューラルネットワークに注目。深層強化学習とスパイキングニューラルネットワークを組み合わせ、ペナルティ項の大きさを変えながら学習させ、運動エネルギー効率の高い歩行が学習できるかを検証した。
研究では、6脚型のロボットを使用。通常の深層強化学習と、スパイキングニューラルネットワークを用いた深層強化学習で歩行を学習し、エネルギー効率を比較評価した。その結果、スパイキングニューラルネットワークの使用によって、Cost of Transport(移動コスト)が低減することがわかった。
その後、PCA(主成分分析)を用いて、スパイク形式にエンコードされたロボットの状態がどのように分離されているか比較したところ、スパイキングニューラルネットワークを用いることで、各アルゴリズムについて、よりエネルギーのペナルティ項が大きい厳しい条件で学習ができた。
これらの結果から、スパイキングニューラルネットワークを用いた深層強化学習による歩行は、通常の深層強化学習の方法で得た歩行と比較して、エネルギー効率が良いことがわかった。また、スパイク形式にエンコードされたロボットの状態は、通常時の状態よりも周期的な構造に分離されていることも明らかになった。
この研究から、スパイキングニューラルネットワークと深層強化学習の組み合わせにより、エネルギー効率の良い運動パターンを生成することに成功した。もともと探索能力の高いアルゴリズムとして知られている深層強化学習の手法であるSoft Actor-Criticは、スパイキングニューラルネットワークを組み合わせることでさらにエネルギー効率の良い運動を生成できることが分かった。
これまでスパイキングニューラルネットワークは、ノイズに対する耐性や環境適応性、省電力な計算機実装ができるという利点のみが注目されていたが、運動学習分野での新たな用途への活用が期待される。