トイレに行くのはなぜこんなに遅いのでしょうか？

Question

そのため、ソースコードを見てみると、2バイト文字を処理するのに遅いようです。既定では、読み取ったすべての文字に対してmbrtowc()ワイド文字に変換しようとする関数を呼び出してから、そのワイド文字をテストして単語区切り文字、行区切り記号などであることを確認する必要があります。

実際、LANGデフォルトのロケール変数（UTF-8はマルチバイト文字セット）を変更して ""（単純なシングルバイト文字セット）en_US.UTF-8に設定すると、シングルバイト最適化が有効になり、速度が大幅に向上します。速度は前回の約4分の1しかかかりません。Cwc

また、各文字が単語（-w）、行長（-L）、または文字（-m）として計算されているかどうかを簡単に確認してください。バイトおよび/または行計算のみを実行する場合は、ワイド文字処理をスキップして非常に高速に実行できますmd5sum。つまり。

私は実行しましたが、マルチバイト文字（、、など）を処理する関数はgprof実行時間の約30％しかかかりませんでした。バッファーの手順を実行し、バッファーのすべての部分で完了した文字をバッファーの先頭に戻し、次に処理できるようにします。mymbsinit()mymbrtowc()myiswprint()

これで何を探すべきかを知っているので、UTF-8でいくつかのユーティリティが遅いことを言及するいくつかの記事を見つけました。

https://stackoverflow.com/questions/13913014/grepping-a-huge-file-80gb-any-way-to-speed-it-up http://dtrace.org/blogs/brendan/2011/12/08/2000x-performance-win/

Answer 1

そのため、ソースコードを見てみると、2バイト文字を処理するのに遅いようです。既定では、読み取ったすべての文字に対してmbrtowc()ワイド文字に変換しようとする関数を呼び出してから、そのワイド文字をテストして単語区切り文字、行区切り記号などであることを確認する必要があります。