sedの正規表現検索を使用したファイル内のアイテムのソート

sedの正規表現検索を使用したファイル内のアイテムのソート

次の形式のテキストファイルがあります。

dir1/sub-dir1/.../filename1 author date
dir1/sub-dir1/.../filename2 author date
.
.
.
dir2/sub-di2/.../filename1 author date
dir2/sub-dir2/.../filename2 author date

追加の詳細:

  • リストされた各ファイル名は正確に1〜2回発生します。つまり、filename_n正確に1~2回存在します。一度存在する場合、パスに応じてv1またはv2の1つのソフトウェアバージョンにのみ存在します。 2回存在する場合、ファイルはv1とv2の両方です。
  • パスによって、ファイルが v1 か v2 かが決まります。
  • テキストファイルはタブで区切られます。
  • サブディレクトリの数はファイルごとに(したがって...コードブロック内で)異なります。
  • (作成者と日付はこれから取得されませんls。このファイルの変更を記録した最後のgitコミットを要求することによって別々に生成されます。)

sedとregexを使ってファイルを次のように変換してみました。

dir1/sub-dir1/.../filename1 author date dir2/sub-di2/.../filename1 author date
dir1/sub-dir1/.../filename2 author date dir2/sub-dir2/.../filename2 author date
.
.
.

一致するものがない場合は、filename-n2回ではなく1回だけ表示する必要があります。

sedと正規表現を使用して変換を実行する方法を探しています。同じファイル(使用-i)に書き込むか、別のファイルに書き込むことができます。

ベストアンサー1

以下を使用してこれを行うことは完全に可能ですsedsed

sortファイル名は3番目のサブディレクトリにあり、4番目のフィールド(-k 4)と\(一体なぜ!!)をフィールド区切り文字として使用するように指示されます。

sort -t'\' -k 4 /tmp/p|sed 'N;/\(\\[^\]*        \).*\1/s/\n/    /;P;D'

このsedコマンドは通常のN;P;Dループを使用して、常に一度に2行を処理し、\ファイル名(TAB間)が重複していることを確認します。

スクリプトには2つのテキストタブがありますsed。 GNUを使用すると、次のように書くsedことができます\t

sort -t'\' -k 4 /tmp/p|sed 'N;/\(\\[^\]*\t\).*\1/s/\n/\t/;P;D'

さらに、タブまたはバックスラッシュを含むパスはスクリプトを破損する可能性があります。

おすすめ記事