強化学習とは
強化学習(Reinforce Learning)とは機械学習の手法の一つです。
人工知能のプログラムが大量のデータを読み込んで自身で学習し、識別や予測を行うアルゴリズムを自動で構築する技術全般のことを指します。
これまでは人間が一つ一つプログラムを組んでコンピュータに指示を出していたのですが、自身で学習しプログラムを構築する技術を備えたことで、自分で考えるAIが誕生しました。
その分野には
・強化学習
・教師あり学習
・教師なし学習
の3つがあり、これらを総称して「機械学習」と呼んでいます。詳細な説明は以下の記事をご確認ください。
[関連記事]
機会学習とは何か?詳しく知りたい方はこちらの記事で詳細に解説していますので、是非ご覧ください。
>> 機械学習とは?仕組みや手法、アルゴリズムなど詳しく解説!
強化学習
強化学習は、ある「環境」下での学習の成果に応じて「報酬」が与えられ、将来的にその「報酬」が最ももらえるような行動をするように学習させていきます。
一度行動してみて、その行動の結果からさらに最良の結果となるよう何度も試行錯誤を繰り返させ、膨大なデータから瞬時に最良の行動を選択できるように学習させます。
強化学習で最も有名なのは「カーナビゲーションシステム」です。
明確なゴール(報酬)が設定され、そこに最短で辿り着くために無数のルートを瞬時に判断し、どのルートが最適かを導き出します。
以下の図のようにイメージすると、
- Agent(カーナビ)はPolicy(辿るルート)に基づいてAction(ルートを辿る)を実行
- その結果によってReward(報酬)を獲得する
- Policy・Actionが新しく設定され、次のステップに移行する
- Rewardを最大化するようなPolicy・Actionをみつけるまで1-3を繰り返す

https://ai.googleblog.com/2020/04/off-policy-estimation-for-infinite.htmlより引用
教師あり学習
教師あり学習とは、学習データに人間が予め正解を与えた状態で学習させます。
そのため、教師あり学習は人間が与えた正解と一致するかどうかが基準になります。
例えば、大量の郵便物の宛名書きを読み取り、特定の都道府県だけを選別したいときなどは教師あり学習が有効になります。
教師なし学習
教師あり学習に対し、教師なし学習は学習データに正解を与えない状態で学習させるというものです。
AI自身が過去のデータの特徴や傾向から自身で判断して選択したり、行動したりします。
過去の膨大なデータと比較して判断する天気予報や売り上げ予測などに使われています。
このように機械学習の中にもそれぞれ得手不得手があり、うまく使い分けることで最短で最適な答えを導きだしています。
それぞれ、このようなイメージですね。

https://jp.mathworks.com/discovery/reinforcement-learning.htmlより引用