txtファイルからテキストを抽出する

txtファイルからテキストを抽出する

約2000万の文を含むファイルがあります。このファイルから200万の文をどのように抽出できますか? 「split -l 2000000 sub2016」などの分割コマンドを使用することを検討しましたが、これにより一連のテキストが生成されるため、1つだけが必要です。それでは、これをどのように指定する必要がありますか?ありがとうございます!

ベストアンサー1

最初の200万行が必要な場合:

head -n 2000000 sub2016

ファイルから200万行のランダムチャンクを取得するには:

tail -n +$((RANDOM * RANDOM % 18000000)) sub2016 | head -n 2000000

これにより、0から32767の2つの乱数を選択して乗算し、範囲を1,800万(2,000万 - 200万)に絞り、その行をスキップして200万行を出力します。

おすすめ記事