What is the difference between Q-learning and SARSA? Ask Question

Question

私もこの部分を学習していたときに非常に混乱したので、違いが明確になるように R.Sutton と AGBarto の 2 つの疑似コードを組み合わせました。

青いボックスは、2 つのアルゴリズムが実際に異なる部分を強調表示しています。数字は、後で説明するより詳細な違いを強調表示しています。

要約:

|             | SARSA | Q-learning |
|:-----------:|:-----:|:----------:|
| Choosing A' |   π   |      π     |
| Updating Q  |   π   |      μ     |

ここで、π は ε 貪欲ポリシー (例: ε > 0 で探索あり)、μ は貪欲ポリシー (例: ε == 0、探索なし) です。

Q 学習では、次のアクション A' の選択と Q の更新に異なるポリシーが使用されています。つまり、別のポリシー μ に従いながら π を評価しようとしているため、オフポリシーアルゴリズムです。
対照的に、SARSA は常に π を使用するため、オンポリシーアルゴリズムになります。

より詳しい説明:

2 つの間の最も重要な違いは、各アクションの後に Q がどのように更新されるかです。SARSA は、A' がそこから抽出されるので、ε 貪欲ポリシーに正確に従って Q' を使用します。対照的に、Q 学習は次のステップですべての可能なアクションの最大 Q' を使用します。これにより、ε = 0 の貪欲ポリシーに従っているように見えます。つまり、この部分では探索は行われません。
ただし、実際にアクションを実行するときは、Q 学習は依然として ε 貪欲ポリシーから実行されたアクションを使用します。これが、「Choose A ...」が繰り返しループ内にある理由です。
Q 学習のループロジックに従うと、A' は依然として ε 貪欲ポリシーからのものになります。

Answer 1

私もこの部分を学習していたときに非常に混乱したので、違いが明確になるように R.Sutton と AGBarto の 2 つの疑似コードを組み合わせました。

青いボックスは、2 つのアルゴリズムが実際に異なる部分を強調表示しています。数字は、後で説明するより詳細な違いを強調表示しています。

要約:

|             | SARSA | Q-learning |
|:-----------:|:-----:|:----------:|
| Choosing A' |   π   |      π     |
| Updating Q  |   π   |      μ     |

ここで、π は ε 貪欲ポリシー (例: ε > 0 で探索あり)、μ は貪欲ポリシー (例: ε == 0、探索なし) です。

Q 学習では、次のアクション A' の選択と Q の更新に異なるポリシーが使用されています。つまり、別のポリシー μ に従いながら π を評価しようとしているため、オフポリシーアルゴリズムです。
対照的に、SARSA は常に π を使用するため、オンポリシーアルゴリズムになります。

より詳しい説明:

2 つの間の最も重要な違いは、各アクションの後に Q がどのように更新されるかです。SARSA は、A' がそこから抽出されるので、ε 貪欲ポリシーに正確に従って Q' を使用します。対照的に、Q 学習は次のステップですべての可能なアクションの最大 Q' を使用します。これにより、ε = 0 の貪欲ポリシーに従っているように見えます。つまり、この部分では探索は行われません。
ただし、実際にアクションを実行するときは、Q 学習は依然として ε 貪欲ポリシーから実行されたアクションを使用します。これが、「Choose A ...」が繰り返しループ内にある理由です。
Q 学習のループロジックに従うと、A' は依然として ε 貪欲ポリシーからのものになります。

おすすめ記事