極端に小さい値または NaN 値がニューラルネットワークのトレーニング中に出現する質問する

Question

バックプロパゲーションにおける「消失」勾配と「爆発」勾配についてご存知ですか? 私は Haskell にあまり詳しくないので、バックプロパゲーションが正確に何をしているのかは簡単にはわかりませんが、活性化関数としてロジスティック曲線を使用しているように見えます。

この関数のプロットを見ると、この関数の勾配は端でほぼ 0 であることがわかります (入力値が非常に大きくなったり非常に小さくなったりすると、曲線の傾斜はほぼ平坦になります)。そのため、バックプロパゲーション中にこれを乗算または除算すると、非常に大きな数値または非常に小さな数値になります。複数のレイヤーを通過するときにこれを繰り返し実行すると、アクティベーションが 0 または無限大に近づきます。バックプロパゲーションはトレーニング中にこれを実行することで重みを更新するため、ネットワークには多くの 0 または無限大が存在します。

解決策: 消失勾配問題を解決するために検索できる方法は多数ありますが、簡単に試せる方法の 1 つは、使用している活性化関数の種類を非飽和のものに変更することです。ReLU は、この特定の問題を軽減するため (ただし、他の問題を引き起こす可能性があります)、人気のある選択肢です。

Answer 1

バックプロパゲーションにおける「消失」勾配と「爆発」勾配についてご存知ですか? 私は Haskell にあまり詳しくないので、バックプロパゲーションが正確に何をしているのかは簡単にはわかりませんが、活性化関数としてロジスティック曲線を使用しているように見えます。

この関数のプロットを見ると、この関数の勾配は端でほぼ 0 であることがわかります (入力値が非常に大きくなったり非常に小さくなったりすると、曲線の傾斜はほぼ平坦になります)。そのため、バックプロパゲーション中にこれを乗算または除算すると、非常に大きな数値または非常に小さな数値になります。複数のレイヤーを通過するときにこれを繰り返し実行すると、アクティベーションが 0 または無限大に近づきます。バックプロパゲーションはトレーニング中にこれを実行することで重みを更新するため、ネットワークには多くの 0 または無限大が存在します。

解決策: 消失勾配問題を解決するために検索できる方法は多数ありますが、簡単に試せる方法の 1 つは、使用している活性化関数の種類を非飽和のものに変更することです。ReLU は、この特定の問題を軽減するため (ただし、他の問題を引き起こす可能性があります)、人気のある選択肢です。

極端に小さい値または NaN 値がニューラルネットワークのトレーニング中に出現する質問する

ベストアンサー1

おすすめ記事