コンテンツにスキップ

SARSA法

出典: フリー百科事典『ウィキペディア(Wikipedia)』

SARSA法State–Action–Reward–State–Action)はマルコフ決定過程でのポリシーを学習するためのアルゴリズムであり、機械学習のサブカテゴリーである強化学習の分野で使われる。RummeryとNiranjanのテクニカルノート[1]の中で、「Modified Connectionist Q-Learning(MCQ-L, 修正コネクショニストQ学習)」という名前で提案された。リチャード・サットンにより提案された、「SARSA」という名前は、脚注で言及されるに留まった。

このネーミングは、行動価値関数Qの更新アルゴリズムが、現在の状況、現在の行動、行動による報酬、次の状態、その状態で選ぶ行動の5つ組で決まることに由来する。一般化すると、である[2]。なお、は報酬の定義によっては、とも書かれるが、リチャード・サットンの『強化学習(第2版)』の表記法に合わせた[3]

アルゴリズム

[編集]

状態 のエージェントが行動 を選び、報酬 を得て、状態が に遷移し、その次の行動が だとする。このとき行動価値関数 を次の式で更新する。 に近づくように学習される。

SARSAでは、エージェントは環境と相互作用し、行われた行動ベースでポリシーを更新する。そのため、オンポリシー型の学習アルゴリズムである。

学習率 は、古い情報を、新しく獲得した情報によってどの程度上書きするかを決定する。0にすれば、エージェントは何も学ばないし、1にすれば、最近の情報だけを近視眼的に考慮するようになる。

割引率 は、将来の報酬の重要度を決定する。0にすれば、エージェントは日和見主義的、近視眼的[4]になる。要するに、現在の報酬だけを考慮するようになる。1に近づければ、長期的視野で高い報酬を求めるようになる。1にしたり、1を超えたりすると、Q値は発散してしまう可能性がある。

関連項目

[編集]

出典

[編集]
  1. ^ Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994)
  2. ^ Reinforcement Learning: An Introduction Richard S. Sutton and Andrew G. Barto (chapter 6.4)
  3. ^ Richard S. Sutton; Andrew G. Barto (2018). Reinforcement Learning, second edition: An Introduction. Bradford Books. ISBN 978-0262039246. http://incompleteideas.net/book/the-book-2nd.html 
  4. ^ https://www.lesswrong.com/posts/GqxuDtZvfgL2bEQ5v/arguments-against-myopic-training (Retrieved 2021-09-29)
pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy