ログファイルを複数回処理する場合は、最後に処理された行から始めます。

Question

アプリケーションがログファイルを永久に開いたままにしない限り、ログを解析する前にログを回転させるのは良い考えのようです。その場合、回転は機能しません。ただし、ロギングフレームワークを作成しているので、これを処理できます。

簡単なスクリプトが必要な場合は、次のものを使用できます（ほとんどすべてのスクリプト言語で実行可能）。

#! /bin/bash

process_line() {
    # do the work here
    echo "== $1 =="
}

logfile=$1
statefile=${logfile}.state

if [ -f ${statefile} ] ; then
    processed=$(cat $statefile)
else
    processed=0
fi

curline=0
IFS='
'

while read line ; do
    if [ $curline -ge $processed ] ; then
        echo processing $line
        process_line "$line"
    fi
    curline=$(($curline+1))
done < ${logfile}

echo $curline > $statefile

デフォルトでは、入力が処理された時点を別のファイル（$statefile）に保存し、その時点から1行ずつ入力を処理します（すでに処理された入力はスキップ）。

明らかに、これはより多くのエラー処理を必要とし、入力が大きい場合は最適ではありません。（dd bs=1 skip=$already_read count=$(($size-$already_read))1行ずつ操作を実行するのではなく、バイトオフセットとルックアップを保存したり、他のプロセスでパイピング出力を使用したりすることでこれを行うことができますが、perlこの最適化が必要な場合はそれを使用します。）

実際にスクリプトが中断されると、その行は2回処理されます。最後に一度だけ実行するのではなく、各行の終わりにステータスファイルを更新して「再生」回数を制限できます。

ログを処理して循環する場合は、これらのステータスファイルに注意する必要があります。また、回転する必要があり、スクリプトは回転後に一度実行され、出力の最後の数行を処理します。

このように処理するのが容易ではない部分は、部分線です。スクリプトの実行中にアプリケーションが作成した場合、スクリプトは最後の行の一部を見ることもできます。違いがわからないため、処理済みとして記録します。（この問題を解決するには、ほぼすべてのアプローチが必要です。）

これは、ログファイル形式でEOLマーカーを使用し、行を処理する前に確認することで回避できます。しかし、それはきれいではありません。

bashスクリプト自体で処理する代わりに、次のように使用できます（一般に置き換えます）。process_lineecho

$ ./logger /var/log/app12.log | ./analyzer --logtype=app12

./analyzerデータを入力としてインポートします。

Answer 1