誰が私の種族を殺しましたか？または、csv列の固有値を効率的に計算する方法

Question

重要な要約：一時ファイルのメモリ不足キラーまたはディスク容量不足キラーsort。推奨事項：さまざまなツールを使用してください。

sort.cこれでGNU coreutils 'に移動しました。これは-S 1G、単にsortプロセスが1 GBのメモリブロックを割り当てようとし、これが不可能な場合、ますます小さいサイズにフォールバックすることを意味します。

バッファが使い果たされたら、ソートされた行を保存するための一時ファイルを作成し、メモリ内の次の入力ブロックをソートします。

すべての入力が消費された後、sort2つの一時ファイルが1つの一時ファイルにマージ/ソートされ（mergesortスタイル）、すべての一時ファイルはマージのために完全にソートされた出力が生成されるまでマージされ続けますstdout。

これは、利用可能なメモリよりも大きな入力を並べ替えることができるという意味なので、賢いです。

/tmp/あるいは、これらの一時ファイル自体がRAM（通常はRAM専用ファイルシステム）に保存されていないシステムでは、tmpfsこれは賢明です。したがって、これらの一時ファイルの作成は、保存しようとしているRAMを占有し、RAMが不足します。ファイルには1億6000万行があり、Googleで検索した結果、11GBの非圧縮データが表示されます。

sort使用する一時ディレクトリを変更して、この問題を解決するのに「ヘルプ」を与えることができます。すでにこれを実行して、一時-T.ファイルを現在のディレクトリに配置しました。スペースが足りませんか？それとも現在のディレクトリはtmpfs似ていますか？

適切な量のデータを含むCSVファイルがあります（1億6000万行それ最新のPCはデータ容量が大きいです。大量のデータを処理するように設計されたシステムに入れるのではなく、16MBのRAMがかなり十分に見えた1990年代のツールを使ってsort作業しようとしています（例：gitの履歴を読んだだけ）。

CSVはただデータ型エラー大量のデータ操作の場合、あなたの例はこれを完全に示しています。非効率的なツールは、目標を達成するために非効率的なデータ構造（行を含むテキストファイル）を非効率的な方法で処理します。

各値が2番目の列にどのくらいの頻度で表示されるかを知りたいだけです。以前のソートは、ツール（uniq -c）が不都合であり、以前に行をソートする必要があるためです（実際には妥当な理由はありません。値とその頻度のマップを保持して増やすことができることは実装されていません）。

そのため、CSVベースのデータストリームを使用しないでください。シンプル

sqlite3 place.sqlite

そして、そのシェルで（CSVにSQLiteが列を決定するために使用できるヘッダー行があると仮定して）（もちろん、列$second_column_name名に置き換えます）

.import 022_place_canvas_history.csv canvas_history --csv
SELECT $second_column_name, count($second_column_name)
  FROM canvas_history
  GROUP BY $second_column_name;

おそらくそれほど速く、追加のボーナスは実際のデータベースファイルを取得できることですplace.sqlite。より柔軟に行うことができます。たとえば、座標を抽出して時間を数値タイムスタンプに変換するテーブルを作成し、分析をより迅速かつ柔軟に実行できます。

1グローバル変数とそれを一貫して使用しない場合。彼らはけがをしました。 C作家にとっては時期が異なります。確かに悪いCではありません。ただ…あなたに精通している最新のコードベースではありません。このコードベースを書いて維持してくれたJim MeyeringとPaul Eggertに感謝します！

² 次のことを試すことができます。たとえば、5577行など、大きすぎないファイルを並べ替え、開いているls.cファイルの数を記録します。

strace -o /tmp/no-size.strace -e openat sort ls.c
strace -o /tmp/s1kB-size.strace -e openat sort -S 1 ls.c
strace -o /tmp/s100kB-size.strace -e openat sort -S 100 ls.c
wc -l /tmp/*-size.strace

Answer 1