Adamオプティマイザーの学習率減衰を行うべきかどうか質問する

Adamオプティマイザーの学習率減衰を行うべきかどうか質問する

Adam オプティマイザーを使用して画像ローカリゼーションのネットワークをトレーニングしているのですが、指数関数的減衰を使用するように勧められました。Adam オプティマイザー自体が学習率を減衰させるため、それを試したくありません。しかし、その人は主張し、以前それをやったことがあると言っています。では、それを実行すべきでしょうか。また、あなたの提案の背後には何か理論があるのでしょうか。

ベストアンサー1

場合によります。ADAM は、個別の学習率でパラメータを更新します。つまり、ネットワーク内のすべてのパラメータには、特定の学習率が関連付けられています。

しかし各パラメータの単一の学習率は、lambda (初期学習率) を上限として計算されます。つまり、すべての単一の学習率は 0 (更新なし) から lambda (最大更新) まで変化します。

学習率はトレーニング ステップ中に自動的に適応しますが、すべての更新ステップがラムダを超えないようにしたい場合は、指数関数的減衰などを使用してラムダを下げることができます。これは、以前に関連付けられたラムダ パラメータを使用して計算された損失の減少が停止したときに、トレーニングの最新のステップ中に損失を減らすのに役立ちます。

おすすめ記事