NaN loss when training regression network Ask Question

Question

ニューラルネットワークによる回帰は、出力が無制限であるため、動作させるのが難しく、特に爆発勾配問題（おそらくこれがナンの原因です）。

歴史的に、爆発的な勾配に対する重要な解決策の 1 つは学習率を下げることでしたが、Adam のようなパラメータごとの適応学習率アルゴリズムの登場により、良好なパフォーマンスを得るために学習率を設定する必要がなくなりました。ニューラルネットワークの熱狂的なファンで、学習スケジュールを調整する方法を知っているのでなければ、SGD をモメンタムとともに使用する理由はほとんどありません。

以下に、試すことができる可能性のある事項をいくつか示します。

出力を正規化する分位正規化またはZスコアリング厳密に言うと、データセット全体ではなく、トレーニングデータに対してこの変換を計算します。たとえば、分位正規化では、例がトレーニングセットの 60 パーセンタイルにある場合、値は 0.6 になります。(分位正規化された値を 0.5 下げて、0 パーセンタイルが -0.5、100 パーセンタイルが +0.5 になるようにすることもできます)。
ドロップアウト率を上げるか、重みに L1 および L2 ペナルティを追加して、正則化を追加します。L1 正則化は特徴選択に類似しており、特徴の数を 5 に減らすとパフォーマンスが向上するとおっしゃっているので、L1 でも同様の結果が得られる可能性があります。
それでも問題が解決しない場合は、ネットワークのサイズを縮小します。これはパフォーマンスに悪影響を与える可能性があるため、常に最善のアイデアとは限りませんが、入力機能 (35) に対して第 1 層のニューロンの数が多い (1024) ため、役立つ可能性があります。
バッチサイズを 32 から 128 に増やします。128 は標準的な値であり、最適化の安定性が向上する可能性があります。

Answer 1

ニューラルネットワークによる回帰は、出力が無制限であるため、動作させるのが難しく、特に爆発勾配問題（おそらくこれがナンの原因です）。

歴史的に、爆発的な勾配に対する重要な解決策の 1 つは学習率を下げることでしたが、Adam のようなパラメータごとの適応学習率アルゴリズムの登場により、良好なパフォーマンスを得るために学習率を設定する必要がなくなりました。ニューラルネットワークの熱狂的なファンで、学習スケジュールを調整する方法を知っているのでなければ、SGD をモメンタムとともに使用する理由はほとんどありません。

以下に、試すことができる可能性のある事項をいくつか示します。

出力を正規化する分位正規化またはZスコアリング厳密に言うと、データセット全体ではなく、トレーニングデータに対してこの変換を計算します。たとえば、分位正規化では、例がトレーニングセットの 60 パーセンタイルにある場合、値は 0.6 になります。(分位正規化された値を 0.5 下げて、0 パーセンタイルが -0.5、100 パーセンタイルが +0.5 になるようにすることもできます)。
ドロップアウト率を上げるか、重みに L1 および L2 ペナルティを追加して、正則化を追加します。L1 正則化は特徴選択に類似しており、特徴の数を 5 に減らすとパフォーマンスが向上するとおっしゃっているので、L1 でも同様の結果が得られる可能性があります。
それでも問題が解決しない場合は、ネットワークのサイズを縮小します。これはパフォーマンスに悪影響を与える可能性があるため、常に最善のアイデアとは限りませんが、入力機能 (35) に対して第 1 層のニューロンの数が多い (1024) ため、役立つ可能性があります。
バッチサイズを 32 から 128 に増やします。128 は標準的な値であり、最適化の安定性が向上する可能性があります。

NaN loss when training regression network Ask Question

ベストアンサー1

おすすめ記事