価値反復とポリシー反復の違いは何ですか? [closed] 質問する

価値反復とポリシー反復の違いは何ですか? [closed] 質問する

強化学習において、政策の繰り返しそして価値の反復?

私の理解する限りでは、価値反復ではベルマン方程式を使用して最適なポリシーを解きますが、ポリシー反復ではポリシー π をランダムに選択し、そのポリシーの報酬を見つけます。

私の疑問は、PI でランダム ポリシー π を選択する場合、複数のランダム ポリシーを選択した場合でも、それが最適なポリシーであることがどのように保証されるかということです。

ベストアンサー1

並べて見てみましょう。比較する重要な部分は強調表示されています。図はサットンとバルトの著書からのものです。強化学習: 入門

ここに画像の説明を入力してくださいキーポイント:

  1. 政策の反復含まれるもの:政策評価+政策の改善そして、ポリシーが収束するまで、この 2 つが繰り返し実行されます。
  2. 価値の反復含まれるもの:最適値関数を見つける+ 1つポリシー抽出価値関数が最適になると、そこからのポリシーも最適になる(つまり収束する)はずなので、2 つの繰り返しはありません。
  3. 最適値関数を見つけるこれは、ポリシーの改善(maxによる)と切り捨てられたポリシー評価(収束に関係なくすべての状態を1回スキャンした後のv_(s)の再割り当て)の組み合わせと見ることもできます。
  4. アルゴリズムは政策評価そして最適値関数を見つける最大演算(強調表示)を除けば、非常に類似している
  5. 同様に、政策の改善そしてポリシー抽出前者は安定性チェックを伴うことを除いて同一です。

私の経験では、政策の繰り返しより速い価値の反復、ポリシーは価値関数よりも速く収束するためです。これも本に書かれていたと記憶しています。

おそらく、混乱は主に、以前も私を混乱させた、似たような用語から生じたのだと思います。

おすすめ記事