価値反復とポリシー反復の違いは何ですか? [closed] 質問する

Question

並べて見てみましょう。比較する重要な部分は強調表示されています。図はサットンとバルトの著書からのものです。強化学習: 入門。

キーポイント：

政策の反復含まれるもの:政策評価+政策の改善そして、ポリシーが収束するまで、この 2 つが繰り返し実行されます。
価値の反復含まれるもの:最適値関数を見つける+ 1つポリシー抽出価値関数が最適になると、そこからのポリシーも最適になる（つまり収束する）はずなので、2 つの繰り返しはありません。
最適値関数を見つけるこれは、ポリシーの改善（maxによる）と切り捨てられたポリシー評価（収束に関係なくすべての状態を1回スキャンした後のv_(s)の再割り当て）の組み合わせと見ることもできます。
アルゴリズムは政策評価そして最適値関数を見つける最大演算（強調表示）を除けば、非常に類似している
同様に、政策の改善そしてポリシー抽出前者は安定性チェックを伴うことを除いて同一です。

私の経験では、政策の繰り返しより速い価値の反復、ポリシーは価値関数よりも速く収束するためです。これも本に書かれていたと記憶しています。

おそらく、混乱は主に、以前も私を混乱させた、似たような用語から生じたのだと思います。

Answer 1

並べて見てみましょう。比較する重要な部分は強調表示されています。図はサットンとバルトの著書からのものです。強化学習: 入門。

キーポイント：

政策の反復含まれるもの:政策評価+政策の改善そして、ポリシーが収束するまで、この 2 つが繰り返し実行されます。
価値の反復含まれるもの:最適値関数を見つける+ 1つポリシー抽出価値関数が最適になると、そこからのポリシーも最適になる（つまり収束する）はずなので、2 つの繰り返しはありません。
最適値関数を見つけるこれは、ポリシーの改善（maxによる）と切り捨てられたポリシー評価（収束に関係なくすべての状態を1回スキャンした後のv_(s)の再割り当て）の組み合わせと見ることもできます。
アルゴリズムは政策評価そして最適値関数を見つける最大演算（強調表示）を除けば、非常に類似している
同様に、政策の改善そしてポリシー抽出前者は安定性チェックを伴うことを除いて同一です。

私の経験では、政策の繰り返しより速い価値の反復、ポリシーは価値関数よりも速く収束するためです。これも本に書かれていたと記憶しています。

おそらく、混乱は主に、以前も私を混乱させた、似たような用語から生じたのだと思います。

おすすめ記事