無効な3GB .jsonファイルから特定のコンテンツを含む.txtファイルを生成する

Question

このgrepコマンドを使用して、目的のパターンを一致させ、重複sort項目をフィルタリングできます。入力ファイルが次input.jsonのような場合、出力は次のようになりますusernames.txt。

grep -P -o '(?<="username":")[^"]*' input.json | sort -u > usernames.txt

それを破壊する:

パイピングでsortユーザー名をアルファベット順に並べ替えます。オプションは、-u「一意の項目のみ」、つまり重複項目がないことを意味します。

注：これらはすべて、一致するパターンがファイルの他の場所に表示されない（または可能性が低い）、JSON自体の破損によって一致が失敗しないと仮定します（その場合もあります）。ファイルがどのように破損しているのかわからない。）

編集する： 行が長すぎるという苦情が頻繁にあり、何らかのgrep理由sed -e 's/,/,\n/'で実際には機能しないため、このsplitコマンドはファイルをより管理しやすい塊に分割するために使用されます。

Answer 1

このgrepコマンドを使用して、目的のパターンを一致させ、重複sort項目をフィルタリングできます。入力ファイルが次input.jsonのような場合、出力は次のようになりますusernames.txt。

grep -P -o '(?<="username":")[^"]*' input.json | sort -u > usernames.txt

それを破壊する:

パイピングでsortユーザー名をアルファベット順に並べ替えます。オプションは、-u「一意の項目のみ」、つまり重複項目がないことを意味します。

注：これらはすべて、一致するパターンがファイルの他の場所に表示されない（または可能性が低い）、JSON自体の破損によって一致が失敗しないと仮定します（その場合もあります）。ファイルがどのように破損しているのかわからない。）

編集する： 行が長すぎるという苦情が頻繁にあり、何らかのgrep理由sed -e 's/,/,\n/'で実際には機能しないため、このsplitコマンドはファイルをより管理しやすい塊に分割するために使用されます。

おすすめ記事