"wc -l" を使用すると、ファイルの処理に時間がかかります。より速い選択肢はありますか？

Question

テキストファイルは、インデックスやメタデータを持たないバイトストリームであり、各行の後に改行文字が続く行です。ファイル全体を読む以外に、行数を数える他の方法はありません。wc -lこれは、改行バイトを読み取るバッチスキャン以外に他の操作を実行する必要がないため、効率的に実行できます。一方、awk見てみる他のツールもたくさんあります。コンテンツフィールド分割の実行と同じ行では、実行のために提供したコードを解釈して実行する必要があります。wc -lこれより速いスクリプト言語はありません。

一方、メタデータの欠落が通常問題である場合は、他のファイル形式（SQLiteデータベースなど）を使用することがオプションかもしれません。もちろん、これにより、一般的なテキスト処理ツールを使用してデータを操作することはできませんが、ランダムアクセスが容易になります。または、すべての行を保持するようにデータパスを変更できる場合一定の長さ、ランダムアクセスと行の計算は簡単です（ただし、途中で行を挿入または削除しません）。

Answer 1

テキストファイルは、インデックスやメタデータを持たないバイトストリームであり、各行の後に改行文字が続く行です。ファイル全体を読む以外に、行数を数える他の方法はありません。wc -lこれは、改行バイトを読み取るバッチスキャン以外に他の操作を実行する必要がないため、効率的に実行できます。一方、awk見てみる他のツールもたくさんあります。コンテンツフィールド分割の実行と同じ行では、実行のために提供したコードを解釈して実行する必要があります。wc -lこれより速いスクリプト言語はありません。

一方、メタデータの欠落が通常問題である場合は、他のファイル形式（SQLiteデータベースなど）を使用することがオプションかもしれません。もちろん、これにより、一般的なテキスト処理ツールを使用してデータを操作することはできませんが、ランダムアクセスが容易になります。または、すべての行を保持するようにデータパスを変更できる場合一定の長さ、ランダムアクセスと行の計算は簡単です（ただし、途中で行を挿入または削除しません）。

"wc -l" を使用すると、ファイルの処理に時間がかかります。より速い選択肢はありますか？

ベストアンサー1

おすすめ記事