数字とテキストaixを使用して3つの異なる列に基づいてソート

Question

タイムスタンプと期間の間のテキストに常にスペースで区切られた3つの単語があると仮定すると（例を参照）、次のことができます。

<your-file LC_ALL=C sort -nb -k6.2,6 -k8,8 -k10,10

デフォルトの区切り文字はsortスペースではなくスペースとスペースの間の遷移であるため、ないソートキーには先行スペースが-b含まれます。を使用してそれらを削除するには、-b6番目のフィールドの2番目の文字から始まるように指定された最初のキーがすぐにそこにあることを確認します(。

すべてのキーはn数値として解釈されます。を使用すると、LC_ALL=C10進数の基数文字が.ユーザーのロケールから独立している必要があります。

秒と分の部分が60を超えないとします。たとえば、後者が長くても、(0 hrs 1 mins 10.1 Secs)後でランク付けされます。(0 hrs 0 mins 120.592 Secs)

パイプラインでtailトップ10を獲得してください。

ソートキーが固定オフセットを持つフィールドまたはフィールドの一部でない場合、一般的なアプローチは別のツールを使用してキーを抽出し、行の先頭にコピーしてソートして削除することです。中装飾 - 並べ替え - 装飾キャンセルファッション:

d='\([[:digit:]]\{1,\}\)'
<your-file sed -n "s/^.*($d hrs $d mins $d\.$d Secs)\$/\1:\2:\3.\4:&/p" |
  LC_ALL=C sort -nt: -k1,1 -k2,2 -k3,3 |
  cut -d: -f4-

または、組み込みの演算子でperl最高のe抽出およびrエクスポートツールを使用してください。sortRandal L. Schwartzは、「装飾 - 整列 - 装飾解除」というイディオムの名前にちなんで命名されました。通常、次を使用します。

<your-file perl -ne '
   push @records, [$_, $3 + 60 * ($2 + 60 * $1)]
     if /\((\d+) hrs (\d+) mins (\d+\.\d+) Secs\)$/;
   END {print $_->[0] for sort {$a->[1] <=> $b->[1]} @records}'

または使用@terdonのアプローチ同じ期間の行を重複排除すると、最初にソートプロセス中にいくつかの比較が節約されますが、ハッシュテーブルを操作するコストが発生し、最終的に効率の点で非生産的になり、最終的にソート安定性が失われる可能性があります。

Answer 1