同様の行を並べ替える awk スクリプト

Question

実際のデータ型やその他の質問に基づくランダムなヒント...

データフィールドはどのように区別されますか？（最初の3つのスペースは中央にタブがあるように見え、最後の列はスペースで区切られているように見えます。）フィールド区切り文字がデフォルトで定義されている場合、4-N列の列は情報が失われます。したがって、コードロジックに重大な欠陥があります。

お持ちの場合いいえawkTAB区切り文字を使用しますが、すべてのスペースにはGNUの機能を使用してアクセスできますFIELDWIDTHS（取得しようとしているように「空白」データがありません）。

最初の3つの区切り文字にタブがあり、残りの区切り文字にスペースがある場合は、FS="\t"フィールド1-3を直接処理し、最後のデータにスペース全体を保持できるように明示的に定義する必要があります（フィールド4が処理されるときに全体として処理できます）。））「空のデータ」を簡単に見つけることができます。

データのサブセットを動的に生成し、そのサブセットを処理して個々のサブセットを結合すると、処理が容易になる可能性があります。ファイルのデータを分離するには、次の点によって異なります。年度そして楽器書くことができます:

awk '{ print > "set_" $1 "_" $3" }' input

set_2015_LENたとえば、名前が付けられたり、そのset_2014_IBMエントリを含むファイルが作成されます。

「一致する数値列のセット」を識別する最終操作は、前述のトピックによって異なります。たとえば、最後の8番目のデータ列を固定長エンティティとして扱うことができる場合は、sort適切に定義されたキー仕様を持つユーティリティを使用するだけで十分です（sortオプションを参照-k）。

（BTW：複合インデックステストの場合は$1,$2,$3 in arr1作成する必要があります($1,$2,$3) in arr1。）

Answer 1