OpenGLの低レベルパフォーマンスに関する質問質問する

Question

ポイント 1 は明らかで、フィルレートを節約します。オブジェクトの裏側のプリミティブが最初に処理される場合、これらの面は省略されます。ただし、最新の GPU はオーバードローをかなりうまく許容します。私はかつて (GeForce8800 GTX)、パフォーマンスが大幅に低下する前に、最大 20% のオーバードローを測定しました。ただし、この余裕は、オクルージョンカリング、ブレンドされたジオメトリのレンダリングなどのために取っておく方がよいでしょう。

ポイント 2 は、まったく意味がありません。行列は GPU で計算されたことはありません。まあ、SGI Onyx を除けばですが。行列は常に、CPU で計算され、その後 GPU のグローバルレジスタにプッシュされる、ある種のレンダリンググローバルパラメータであり、現在はユニフォームと呼ばれています。そのため、行列を結合してもほとんどメリットはありません。シェーダーでは、アルゴリズムの柔軟性が低下する代わりに、ベクトル行列の乗算が 1 つ (つまり 4 つの MAD 命令) 追加されるだけです。

ポイント 3 はキャッシュ効率に関するものです。一緒に属するデータはキャッシュラインに収まる必要があります。

ポイント 4 は、状態の変更によってキャッシュが破壊されるのを防ぐことです。ただし、どの GL 呼び出しを意味するかによって大きく異なります。ユニフォームの変更は安価です。テクスチャの切り替えは高価です。その理由は、ユニフォームはキャッシュされたメモリの一部ではなく、レジスタにあるからです。シェーダーの切り替えは高価です。シェーダーによって実行時の動作が異なるため、パイプラインの実行予測が破壊され、メモリ (およびキャッシュアクセスパターン) が変更されるなどします。

しかし、これらはすべてマイクロ最適化です (大きな影響を持つものもあります)。ただし、早期 Z パスの実装、早期 Z でのオクルージョンクエリを使用したジオメトリバッチ全体の迅速な判別など、影響の大きい最適化を検討することをお勧めします。基本的に Point-4 のようなマイクロ最適化を多数まとめたもので構成される、影響の大きい最適化の 1 つは、レンダリングバッチをコストの高い GL 状態で並べ替えることです。つまり、すべてを共通のシェーダーでグループ化し、それらのグループ内でテクスチャなどで並べ替えます。この状態のグループ化は、表示されているレンダリングパスにのみ影響します。早期 Z では、Z バッファーの結果のみをテストするため、ジオメトリ変換のみがあり、フラグメントシェーダーは Z 値のみを渡します。

Answer 1

ポイント 1 は明らかで、フィルレートを節約します。オブジェクトの裏側のプリミティブが最初に処理される場合、これらの面は省略されます。ただし、最新の GPU はオーバードローをかなりうまく許容します。私はかつて (GeForce8800 GTX)、パフォーマンスが大幅に低下する前に、最大 20% のオーバードローを測定しました。ただし、この余裕は、オクルージョンカリング、ブレンドされたジオメトリのレンダリングなどのために取っておく方がよいでしょう。

ポイント 2 は、まったく意味がありません。行列は GPU で計算されたことはありません。まあ、SGI Onyx を除けばですが。行列は常に、CPU で計算され、その後 GPU のグローバルレジスタにプッシュされる、ある種のレンダリンググローバルパラメータであり、現在はユニフォームと呼ばれています。そのため、行列を結合してもほとんどメリットはありません。シェーダーでは、アルゴリズムの柔軟性が低下する代わりに、ベクトル行列の乗算が 1 つ (つまり 4 つの MAD 命令) 追加されるだけです。

ポイント 3 はキャッシュ効率に関するものです。一緒に属するデータはキャッシュラインに収まる必要があります。

ポイント 4 は、状態の変更によってキャッシュが破壊されるのを防ぐことです。ただし、どの GL 呼び出しを意味するかによって大きく異なります。ユニフォームの変更は安価です。テクスチャの切り替えは高価です。その理由は、ユニフォームはキャッシュされたメモリの一部ではなく、レジスタにあるからです。シェーダーの切り替えは高価です。シェーダーによって実行時の動作が異なるため、パイプラインの実行予測が破壊され、メモリ (およびキャッシュアクセスパターン) が変更されるなどします。

しかし、これらはすべてマイクロ最適化です (大きな影響を持つものもあります)。ただし、早期 Z パスの実装、早期 Z でのオクルージョンクエリを使用したジオメトリバッチ全体の迅速な判別など、影響の大きい最適化を検討することをお勧めします。基本的に Point-4 のようなマイクロ最適化を多数まとめたもので構成される、影響の大きい最適化の 1 つは、レンダリングバッチをコストの高い GL 状態で並べ替えることです。つまり、すべてを共通のシェーダーでグループ化し、それらのグループ内でテクスチャなどで並べ替えます。この状態のグループ化は、表示されているレンダリングパスにのみ影響します。早期 Z では、Z バッファーの結果のみをテストするため、ジオメトリ変換のみがあり、フラグメントシェーダーは Z 値のみを渡します。

OpenGLの低レベルパフォーマンスに関する質問質問する

ベストアンサー1

おすすめ記事