★強化学習とは

強化学習とは、システム自身が試行錯誤をしながら、最適なシステム制御を実現する、機械学習手法の一つです。コンピューターは、ある「環境」の中で目的として設定された「報酬(スコア)」を最大化するための行動を、試行錯誤をしながら学習します。

 

★強化学習の歴史

強化学習の原型は、機械の自律的制御を可能にする「最適制御」の研究として、1950年代には既に存在しました。1990年頃には「強化学習の生みの親」とも呼ばれるカナダ・アルバータ大学のリチャード・サットン教授らを中心に、活発に研究されていました。

 

★近年の強化学習

古くから存在した強化学習に、飛躍的な技術進展をもたらしたのが「深層強化学習」です。従来の強化学習にディープラーニングを応用した深層強化学習の登場は、強化学習をベースに駆動するAIが社会に実装される契機となりました。

ディープラーニングは入力されたデータからの自律的な特徴抽出を可能にします。一方で強化学習は、外部からの入力に対応して自律的な制御を行うことを可能にします。この自律的特徴抽出と自律制御の組み合わせが「深層強化学習」です。

 

★弊社での取り組み

弊社では、この強化学習を機械制御による物体把持に活用しています。物体把持というと、少し難しそうに聞こえますが、具体的な活用例としましては、自動車の組み立てを自動的に行う機械の開発などが挙げられます。

他にも、お部屋の片づけロボや、人間が持てない柔らかさの物体を持つことのできるロボットなどを開発しています。

次の動画は、弊社の取り組みのほんの一部ですが、ご紹介します。

 

【ロボットハンドシミュレーション】

強化学習で、実際に物体をつかむシミュレーションを学習しました。

【ロボットハンド】

リモートコントロールでロボットハンドを動かす仕組みを構築しました。

 

この2つ組み合わせることによって、現実で動作する仕組みを構築することができます。