大容量CSVファイルのインデックスを再生成します。

2024-06-22 • tag-icon

files sed awk csv

次の答えを見つけました。この便利なスレッドしかし、私の問題は十分に異なるので、良い答えを考えることはできません（少なくともsed）。

次の行を含む大容量CSVファイル（200 GB以上）があります。

<alphanumerical_identifier>,<number>

ここでは<alphanumerical_identifier>ファイル全体で一意です。別のファイルを作成したいです。最初の列をインデックスに置き換える、すなわち。

<index>,<number>

だから私たちは次のようになります：

1, <number>
2, <number>
3, <number>

awkファイル全体をメモリにロードせずに増分インデックスを作成できますか？

インデックスは単調に増加するため、インデックスを削除する方が良いかもしれません。解決策は違いますか？今すぐ：

<number>
<number>
<number>

端末の近くでテストしませんが、しばしば見落とされるコマンドnlはどうですか？それは次のとおりです。

cut -f 2 -d , original.csv | nl -w 1 -p -s , > numbered.csv

おすすめ記事