Linuxコマンド「sort」を使用して日付列に基づいてソートするシェルスクリプト

Question

$ sort -k 3,3r session.log | awk '!seen[$2]++ { print }'
9 u1 2018-08-12 pass
6 u4 2018-07-11 pass
2 u2 2018-06-15 pass
3 u3 2018-05-18 pass

（{ print }完全に削除できます。何が起こるかを示すために含めただけです。デフォルトの動作は、条件がtrueの場合は入力レコード全体を印刷することです。）

これにより、保存したファイルが日付順に降順（最も最近のエントリから）にソートされます。プログラムawkはソートされたデータを読み取り、ユーザーごとに見つかった最初の項目を印刷します。変数seenは、ユーザー名をキーとして使用する連想配列/ハッシュです。ユーザー値が 0 の場合、そのユーザーはまだ確認されていないことを意味するため、ファイル内の対応する行が印刷されます。

あなたのコードと私のコメント：

# get list of unique usernames from log:
( awk {print} session.log | cut -f2 -d' ' | sort | uniq ) > store.txt

# shorter equivalent:
# cut -d ' ' -f2 <session.log | sort -u >store.txt

# loop over the usernames:
for line in $(cat "store.txt")
do
    # get entries related to this user:
    grep "$line" session.log > "$line.txt"

    # echo the last entry:
    echo $(sort -k3 "$line.txt" | awk 'END{print}')

    # shorter equivalent of both of the above commands:
    # awk -v user="$line" '$2 == user { print }' session.log | sort -k3,3 | tail -n 1
done
rm -f store.txt

したがって、シェルルーピングに基づく代替は次のとおりです。

cut -d ' ' -f2 <session.log | sort -u |
while read username; do
    awk -v user="$username" '$2 == user { print }' session.log | sort -k 3,3 | tail -n 1
done

繰り返しますが、上記のスクリプト{ print }ではこの内容を省略できますawk。

これはまだユーザーごとにセッションログのサブセットを一度にソートしますが、これは少し無駄です。

日付の降順でログを事前にソートします。

sort -k3,3r -o sorted.log session.log

cut -d ' ' -f2 <session.log | sort -u |
while read username; do
    awk -v user="$username" '$2 == user { print; exit }' sorted.log
done

rm sorted.log

これを行うには、各ユーザーの上部からログを一度スキャンする必要があります。自然な改善は、awkあなたが見たものと見たことのないものを追跡できるようにすることです。これにより、上部に私の答えが表示されます。

Answer 1

$ sort -k 3,3r session.log | awk '!seen[$2]++ { print }'
9 u1 2018-08-12 pass
6 u4 2018-07-11 pass
2 u2 2018-06-15 pass
3 u3 2018-05-18 pass