強化学習

ゴールを達成する上でどのような行動の決定の仕方(ポリシー)がよいか経験によって獲得する手法。
試行錯誤を繰り返すことで、報酬を最大化するための最適な行動を学習する機械学習の一分野。エージェント(AI)が環境と相互作用し、与えられた報酬に基づき各状態で取るべき行動を学習する。
教師あり学習とは異なり教師データが必要ないため、ロボットの制御や囲碁のようなゲームに有効である。

» DREP用語集