lstm は基準を満たしていないため、cuDNN カーネルを使用しません。GPU で実行する場合は、フォールバックとして汎用 GPU カーネルを使用します。質問する

Question

CUDNN には、LSTM および GRU レイヤーを特に高速化する機能があります。これらの GRU/LSTM レイヤーは、特定の基準を満たしている場合にのみ高速化できます。あなたの場合、問題は LeakyReLU アクティベーションを使用していることです。CUDNN LSTM アクセラレーションは、アクティベーションが tanh の場合にのみ機能します。

ドキュメントから引用（https://www.tensorflow.org/api_docs/python/tf/keras/layers/LSTM）

The requirements to use the cuDNN implementation are:

activation == tanh
recurrent_activation == sigmoid
recurrent_dropout == 0
unroll is False
use_bias is True
Inputs, if use masking, are strictly right-padded.
Eager execution is enabled in the outermost context.

LSTM は GPU 上で実行されますが、スキャンおよび matmul 操作を使用して構築されるため、速度が大幅に低下します。私の経験では、CUDNN LSTM/GRU アクセラレーションは非常にうまく機能するため、このレイヤーははるかに単純であるにもかかわらず、これらのレイヤーは両方とも SimpleRNN レイヤー (CUDNN によってアクセラレーションされない) よりも高速に実行されます。

Answer 1

CUDNN には、LSTM および GRU レイヤーを特に高速化する機能があります。これらの GRU/LSTM レイヤーは、特定の基準を満たしている場合にのみ高速化できます。あなたの場合、問題は LeakyReLU アクティベーションを使用していることです。CUDNN LSTM アクセラレーションは、アクティベーションが tanh の場合にのみ機能します。

ドキュメントから引用（https://www.tensorflow.org/api_docs/python/tf/keras/layers/LSTM）

The requirements to use the cuDNN implementation are:

activation == tanh
recurrent_activation == sigmoid
recurrent_dropout == 0
unroll is False
use_bias is True
Inputs, if use masking, are strictly right-padded.
Eager execution is enabled in the outermost context.

LSTM は GPU 上で実行されますが、スキャンおよび matmul 操作を使用して構築されるため、速度が大幅に低下します。私の経験では、CUDNN LSTM/GRU アクセラレーションは非常にうまく機能するため、このレイヤーははるかに単純であるにもかかわらず、これらのレイヤーは両方とも SimpleRNN レイヤー (CUDNN によってアクセラレーションされない) よりも高速に実行されます。

lstm は基準を満たしていないため、cuDNN カーネルを使用しません。GPU で実行する場合は、フォールバックとして汎用 GPU カーネルを使用します。質問する

ベストアンサー1

おすすめ記事