Files.list() 並列ストリームのパフォーマンスが Collection.parallelStream() を使用する場合よりもはるかに遅いのはなぜですか? 質問する

Question

問題は、Stream API の現在の実装と、IteratorSpliteratorサイズが不明なソースのの現在の実装が、そのようなソースを並列タスクに不適切に分割することです。 1024 個を超えるファイルがあったのは幸運でしたが、そうでなければ並列化のメリットはまったく得られません。現在の Stream API 実装では、estimateSize()から返される値が考慮されますSpliterator。IteratorSpliteratorサイズが不明なはLong.MAX_VALUE分割前にを返し、そのサフィックスも常にを返しますLong.MAX_VALUE。その分割戦略は次のとおりです。

MAX_BATCH現在のバッチサイズを定義します。現在の式では、1024 要素から開始し、サイズ (33554432 要素) に達するまで算術的に増加します (2048、3072、4096、5120 など) 。
バッチサイズに達するか、入力がなくなるまで、入力要素 (この場合はパス) を配列に消費します。
ArraySpliterator作成された配列をプレフィックスとして反復処理し、配列自体をサフィックスとして返します。

7000 個のファイルがあるとします。Stream API は推定サイズを要求し、IteratorSpliteratorを返しますLong.MAX_VALUE。Stream API はに分割を要求し、配列のIteratorSpliterator基になるから 1024 個の要素を収集して（推定サイズは 1024）と（推定サイズは依然として）に分割します。は1024 よりはるかに大きいため、Stream API は小さい部分の分割を試みることなく、大きい部分の分割を続行することを決定します。したがって、全体的な分割ツリーは次のようになります。DirectoryStreamArraySpliteratorLong.MAX_VALUELong.MAX_VALUE

                     IteratorSpliterator (est. MAX_VALUE elements)
                           |                    |
ArraySpliterator (est. 1024 elements)   IteratorSpliterator (est. MAX_VALUE elements)
                                           |        |
                           /---------------/        |
                           |                        |
ArraySpliterator (est. 2048 elements)   IteratorSpliterator (est. MAX_VALUE elements)
                                           |        |
                           /---------------/        |
                           |                        |
ArraySpliterator (est. 3072 elements)   IteratorSpliterator (est. MAX_VALUE elements)
                                           |        |
                           /---------------/        |
                           |                        |
ArraySpliterator (est. 856 elements)    IteratorSpliterator (est. MAX_VALUE elements)
                                                    |
                                        (split returns null: refuses to split anymore)

その後、実行する並列タスクが 5 つあります。実際には、1024、2048、3072、856、0 の要素が含まれています。最後のチャンクには要素が 0 個ありますが、それでも推定Long.MAX_VALUE要素数があると報告されるため、Stream API もそれを送信することに注意してくださいForkJoinPool。問題は、Stream API が、推定サイズがはるかに小さいため、最初の 4 つのタスクをさらに分割しても無駄であると判断することです。そのため、入力が非常に不均等に分割され、最大 4 つの CPU コアが使用されます (実際にはもっと多くのコアがある場合でも)。要素ごとの処理にどの要素に対してもほぼ同じ時間がかかる場合、プロセス全体は最大の部分 (3072 要素) が完了するまで待機することになります。したがって、最大で 7000/3072 = 2.28 倍の高速化が期待できます。したがって、順次処理に 41 秒かかる場合、並列ストリームには約 41/2.28 = 18 秒かかります (実際の数値に近い値です)。

回避策はまったく問題ありません。を使用すると、Files.list().parallel()すべての入力Path要素がメモリ（ArraySpliteratorオブジェクト内）に保存されることに注意してください。したがって、手動でにダンプしても、メモリを無駄にすることはありません。（現在はによって作成されます）Listのような配列ベースのリスト実装は、問題なく均等に分割できるため、さらに高速化されます。ArrayListCollectors.toList()

なぜこのようなケースは最適化されないのでしょうか? もちろん不可能な問題ではありません (実装はかなり難しいかもしれませんが)。 JDK 開発者にとって優先度の高い問題ではないようです。このトピックについてはメーリングリストでいくつかの議論がありました。 Paul Sandoz のメッセージを読むことができます。ここここで彼は私の最適化の取り組みについてコメントしています。

Answer 1

問題は、Stream API の現在の実装と、IteratorSpliteratorサイズが不明なソースのの現在の実装が、そのようなソースを並列タスクに不適切に分割することです。 1024 個を超えるファイルがあったのは幸運でしたが、そうでなければ並列化のメリットはまったく得られません。現在の Stream API 実装では、estimateSize()から返される値が考慮されますSpliterator。IteratorSpliteratorサイズが不明なはLong.MAX_VALUE分割前にを返し、そのサフィックスも常にを返しますLong.MAX_VALUE。その分割戦略は次のとおりです。

MAX_BATCH現在のバッチサイズを定義します。現在の式では、1024 要素から開始し、サイズ (33554432 要素) に達するまで算術的に増加します (2048、3072、4096、5120 など) 。
バッチサイズに達するか、入力がなくなるまで、入力要素 (この場合はパス) を配列に消費します。
ArraySpliterator作成された配列をプレフィックスとして反復処理し、配列自体をサフィックスとして返します。

7000 個のファイルがあるとします。Stream API は推定サイズを要求し、IteratorSpliteratorを返しますLong.MAX_VALUE。Stream API はに分割を要求し、配列のIteratorSpliterator基になるから 1024 個の要素を収集して（推定サイズは 1024）と（推定サイズは依然として）に分割します。は1024 よりはるかに大きいため、Stream API は小さい部分の分割を試みることなく、大きい部分の分割を続行することを決定します。したがって、全体的な分割ツリーは次のようになります。DirectoryStreamArraySpliteratorLong.MAX_VALUELong.MAX_VALUE

                     IteratorSpliterator (est. MAX_VALUE elements)
                           |                    |
ArraySpliterator (est. 1024 elements)   IteratorSpliterator (est. MAX_VALUE elements)
                                           |        |
                           /---------------/        |
                           |                        |
ArraySpliterator (est. 2048 elements)   IteratorSpliterator (est. MAX_VALUE elements)
                                           |        |
                           /---------------/        |
                           |                        |
ArraySpliterator (est. 3072 elements)   IteratorSpliterator (est. MAX_VALUE elements)
                                           |        |
                           /---------------/        |
                           |                        |
ArraySpliterator (est. 856 elements)    IteratorSpliterator (est. MAX_VALUE elements)
                                                    |
                                        (split returns null: refuses to split anymore)

その後、実行する並列タスクが 5 つあります。実際には、1024、2048、3072、856、0 の要素が含まれています。最後のチャンクには要素が 0 個ありますが、それでも推定Long.MAX_VALUE要素数があると報告されるため、Stream API もそれを送信することに注意してくださいForkJoinPool。問題は、Stream API が、推定サイズがはるかに小さいため、最初の 4 つのタスクをさらに分割しても無駄であると判断することです。そのため、入力が非常に不均等に分割され、最大 4 つの CPU コアが使用されます (実際にはもっと多くのコアがある場合でも)。要素ごとの処理にどの要素に対してもほぼ同じ時間がかかる場合、プロセス全体は最大の部分 (3072 要素) が完了するまで待機することになります。したがって、最大で 7000/3072 = 2.28 倍の高速化が期待できます。したがって、順次処理に 41 秒かかる場合、並列ストリームには約 41/2.28 = 18 秒かかります (実際の数値に近い値です)。

回避策はまったく問題ありません。を使用すると、Files.list().parallel()すべての入力Path要素がメモリ（ArraySpliteratorオブジェクト内）に保存されることに注意してください。したがって、手動でにダンプしても、メモリを無駄にすることはありません。（現在はによって作成されます）Listのような配列ベースのリスト実装は、問題なく均等に分割できるため、さらに高速化されます。ArrayListCollectors.toList()

なぜこのようなケースは最適化されないのでしょうか? もちろん不可能な問題ではありません (実装はかなり難しいかもしれませんが)。 JDK 開発者にとって優先度の高い問題ではないようです。このトピックについてはメーリングリストでいくつかの議論がありました。 Paul Sandoz のメッセージを読むことができます。ここここで彼は私の最適化の取り組みについてコメントしています。

Files.list() 並列ストリームのパフォーマンスが Collection.parallelStream() を使用する場合よりもはるかに遅いのはなぜですか? 質問する

ベストアンサー1

おすすめ記事