強化学習とは? 教師あり学習との使い方の違いも分かりやすく解説

この記事を読んで分かること

強化学習とは?

強化学習とは、

問題の答えを与えずに機械が試行錯誤することで学習する方法

です。

ある環境にエージェントを置き、エージェントが選択した行動に対して、環境からエージェントにプラスまたはマイナスの報酬を与えて学習していきます。

エージェントがもらう報酬の合計を最大とすることが、学習のゴールとなります。

囲碁を例として強化学習を考えてみましょう。

エージェントは打ち手(自分)で、環境は盤面です。

まず、エージェントは今の環境を把握して、行動を選択(石を置く場所を決めて打つ)します。

次に、先程打った手の良し悪しに応じて報酬をもらいます。

相手が石を置き、環境が変わるので新しい環境でまた行動を選択していくというフローとなります。

こうして囲碁の試合が終わるまで続け、最終的な報酬の合計が多くなるように学習を進めていく手法です。

強化学習は、達成したい目標は決まっているがどうやったら良いかやり方(how)がわからないタイプのタスクの解決に利用できます。

例えば囲碁です。

最終的に相手に勝つことが目的ですが、どういう手を打つと勝てるか説明するのは難しいと思います。

このようなタスクに有効な手法のため、強化学習は囲碁や将棋などゲームAIやロボットの制御などの分野に応用されています。

強化学習では、課題をモデル化することが必要になります。

モデル化する際に前提としている考え方がマルコフ決定過程です。

マルコフ決定過程を使う際に出てくる強化学習特有の用語について整理していきます。

強化学習の基礎的な用語
用語	意味	囲碁の場合
エージェント	行動の決定を行う主体	打ち手
環境	エージェントを取り巻く全ての情報	盤面情報・ルール
状態	今の状態	自分の手番の盤面情報
行動	エージェントが行うこと	自分の手番でどこに石を置くか
状態遷移確率	ある状態が別の状態に移る確率	自分の一手が次の自分の盤面にどう影響するか (正確には分からない)
報酬	行動の結果のフィードバック	勝敗に寄与した価値

強化学習以外にも機械学習の種類は教師あり学習と教師なし学習があります。