強化学習について説明します!

皆さんは最近「AI」という言葉を耳にする機会が増えてきたのではないでしょうか?

近年は特に開発が進み、掃除ロボットや車の自動運転など身近なところに使われており、私たちの生活を豊かにしてくれています。

このAIを語るうえで重要になってくるのが「強化学習」という言葉ですが、聞きなれない言葉に「私には難しそう...」と敬遠してしまっている方も多いのではないでしょうか?

ここでは、AIの研究分野である「強化学習」について、極力専門用語を使わずわかりやすく解説していきます。

この記事を読んで強化学習について興味を持っていただければ幸いです。

AIに関する詳細な説明は以下のリンクよりご覧ください。

[関連記事]
人工知能(AI)とは何か?詳しく知りたい方はこちらの記事で詳細に解説していますので、是非ご覧ください。
>> 人工知能(AI)とは?仕組みや技術、できることをわかりやすく解説

強化学習とは

強化学習(Reinforce Learning)とは機械学習の手法の一つです。

人工知能のプログラムが大量のデータを読み込んで自身で学習し、識別や予測を行うアルゴリズムを自動で構築する技術全般のことを指します。

これまでは人間が一つ一つプログラムを組んでコンピュータに指示を出していたのですが、自身で学習しプログラムを構築する技術を備えたことで、自分で考えるAIが誕生しました。

その分野には

・強化学習

・教師あり学習

・教師なし学習

の3つがあり、これらを総称して「機械学習」と呼んでいます。詳細な説明は以下の記事をご確認ください。

[関連記事]
機会学習とは何か?詳しく知りたい方はこちらの記事で詳細に解説していますので、是非ご覧ください。
>> 機械学習とは?仕組みや手法、アルゴリズムなど詳しく解説!

強化学習

強化学習は、ある「環境」下での学習の成果に応じて「報酬」が与えられ、将来的にその「報酬」が最ももらえるような行動をするように学習させていきます。

一度行動してみて、その行動の結果からさらに最良の結果となるよう何度も試行錯誤を繰り返させ、膨大なデータから瞬時に最良の行動を選択できるように学習させます。

強化学習で最も有名なのは「カーナビゲーションシステム」です。

明確なゴール(報酬)が設定され、そこに最短で辿り着くために無数のルートを瞬時に判断し、どのルートが最適かを導き出します。

以下の図のようにイメージすると、

  1. Agent(カーナビ)はPolicy(辿るルート)に基づいてAction(ルートを辿る)を実行
  2. その結果によってReward(報酬)を獲得する
  3. Policy・Actionが新しく設定され、次のステップに移行する
  4. Rewardを最大化するようなPolicy・Actionをみつけるまで1-3を繰り返す

https://ai.googleblog.com/2020/04/off-policy-estimation-for-infinite.htmlより引用

教師あり学習

教師あり学習とは、学習データに人間が予め正解を与えた状態で学習させます。

そのため、教師あり学習は人間が与えた正解と一致するかどうかが基準になります。

例えば、大量の郵便物の宛名書きを読み取り、特定の都道府県だけを選別したいときなどは教師あり学習が有効になります。

教師なし学習

教師あり学習に対し、教師なし学習は学習データに正解を与えない状態で学習させるというものです。

AI自身が過去のデータの特徴や傾向から自身で判断して選択したり、行動したりします。

過去の膨大なデータと比較して判断する天気予報や売り上げ予測などに使われています。

このように機械学習の中にもそれぞれ得手不得手があり、うまく使い分けることで最短で最適な答えを導きだしています。

それぞれ、このようなイメージですね。

図 1. 機械学習の 3 つのカテゴリ: 教師なし学習、教師あり学習、強化学習

https://jp.mathworks.com/discovery/reinforcement-learning.htmlより引用

強化学習の歴史

強化学習の原型は、機械の自律的制御を可能にする「最適制御」の研究として、1950年代には既に存在しました。

1990年頃には「強化学習の生みの親」とも呼ばれるカナダ・アルバータ大学のリチャード・サットン教授らを中心に、活発に研究されていました。

強化学習から深層強化学習への進化

前述のとおり1950年代から存在した強化学習ですが、ディープラーニングの登場で大きなターニングポイントを迎えました。

ディープラーニングとは、「深層学習」とも呼ばれ人間が自然に行うタスクをコンピュータに学習させる機械学習のうちの一つです。

人間の神経細胞であるニューロンの仕組みを参考にしたニューラルネットワークがベースになっており、そのニューラルネットワークを多層にすることでより多く深く学習させることが可能になりました。

今までの強化学習にディープラーニングを組み合わせたものを「深層強化学習」といい、これまでとは比較にならない情報量を処理し学習させることが可能になりました。

飛躍的に性能が向上し、複雑なシステムの制御が可能になったことでゲームやロボットなどにAIが取り入れられるようになったのです。

深層学習に関する詳細な説明は以下のリンクよりご覧ください。

[関連記事]
深層学習(ディープラーニング)とは何か?詳しく知りたい方はこちらの記事で詳細に解説していますので、是非ご覧ください。
>> 深層学習(ディープラーニング)とは何か?徹底解説します!

強化学習はどんなことに使われているの?

強化学習については、なんとなくすごいAIだという印象はお持ちになったかと思いますが、では実際にどういったところで使われているのでしょうか?

ゲームAIや自動運転、ロボットの制御などにも使われていますが、最も有名なものはAlphaGoでしょう。

AlphaGoとはGoogle傘下のDeepMindという会社によって開発された囲碁プログラムであり、深層強化学習が使われています。

人間の棋譜のデータを元に自分自身と数千万回もの対戦を繰り返すことで最適な一手を打てるようになり、ついには世界トップ棋士にも完勝するようになりました。

囲碁は打つ手の手段が膨大にあり、戦局が刻一刻と変化します。感覚的なゲームであるという側面も持っているため、コンピュータでは人間を倒すことはできないとさえ言われていたために、AlphaGoの勝利は世界に衝撃を与えました。

ある分野では人間を超えるパフォーマンスを見せるまでに、AIは高性能になっているのです。

弊社の強化学習の開発と今後への取り組み

このように、様々な分野で可能性を秘めている強化学習ですが、弊社ではこの強化学習を機械制御による物体把持に活用しています。

物体把持というと少し難しそうに聞こえますが、アームやロボットハンドによる「掴む・持つ」という動作に注目して日夜研究しています。

具体的には、自動車の組み立てを自動的に行う機械の開発や、お部屋の片づけロボ、人間が持てない柔らかさの物体を持つことができるロボットなどを開発しています。

人間の筋力では持ち上げられない重さや熱さ、大量の物体を強化学習によって自動で行えるようになれば、私たちの生活はより豊かになると信じ、日々研究開発に力を入れています。

AIと強化学習は密接に関係しており、まだまだ可能性がある

ここまで強化学習について解説してきました。

機械学習から発展し、ディープラーニングによって一気に高精度になり、現在は様々な分野に取り入れられています。

自身で学習を繰り返すことでより高精度になるAIは、今後私たちの生活と切っても切り離せなくなるでしょう。

この記事を読んで、強化学習やAIについて興味を持っていただけたり、もっと深く知りたいと思っていただければ幸いです。

※機械学習について詳しく知りたい方はこちらから
>>機械学習とは?詳しく解説

ご愛読いただきありがとうございました!

よろしければ弊社SNSもご覧ください!
Twitter https://twitter.com/CrystalmethodZ9
Facebook https://www.facebook.com/クリスタルメソッド株式会社-100971778872865/