300GB txtファイルの最初の列を取得する方法は？

Question

awk私には、32767以上のフィールドが発生する巨大な線のように聞こえます。しかし、次にこれを再現することはできませんawk。

> echo | awk 'BEGIN {for(i=1;i<100000;i++) printf "%d ",i}; { print ""; }' >file
> awk '{ print $50000; }' too_long_line_for_awk.txt
50000

> awk --version
GNU Awk 4.1.0, API: 1.0

長期的に使用できるより強力なツールがあります。最初のフィールドの最大長を決定する必要があります。 100と仮定すると、次のことを試すことができます。

cut -b -100 file | awk ...

また、（しかし、これはあなたの質問とは関係ありません）あなたの設定はawk | grep | awk意味がありません。次のようにできます。

awk '$1 ~ "/ns/" {sub("^.*/ns/","/ns/",$1); if( !seen[$1]++ ) print $1}' \
  file_name >test1.txt

デバッグ提案

Rameshが指摘したように、問題を引き起こす線を見つけるのは興味深いかもしれません。問題行の番号は、次のコマンドで印刷された（またはファイルに書き込まれた）番号の1つでなければなりません。

awk '{ print NR;}' | tail -n 1 >crashline.txt

「衝突」の前にバッファを空にした場合は、awk次の数字（+1）でなければなりません。

Answer 1