おおよその内容を含むテキストファイルがあります。 1,200万行、各行は4つのフィールド(1、2、3、4列)で構成されています。
ほとんどの行には列2に固有のSTRINGがあります。私はこの行を修正したくありません。
テキストファイルには、列2に同じSTRINGを含む2つの連続した行があることがよくあります。これはテキストファイル全体で約10,000回発生します。例を以下に示します。
column1 column2 column3 column4
WT 1 ILS G
WT 2 DSG E
WT 3 WYT S
. . . .
WT 106 AAA X
WT 106 BBB Y
. . . .
WT 2704 CCC X
WT 2704 DDD Y
. . . .
私が達成したいもの:
column1 column2 column3 column4
WT 1 ILS G
WT 2 DSG E
WT 3 WYT S
. . . .
WT 106 BBB Y
WT 106 AAA X
. . . .
WT 2704 DDD Y
WT 2704 CCC X
. . . .
私にはどんなリソースがありますか?
10,000個の文字列を含むテキストファイルがあります。この文字列は2回(例では106と2704)で、2行を置き換える必要があります。また、同じ列2の行では、XとYが常に同じであることもわかっています。
私は今まで何をしましたか?
私は共通の文字列(例えば106で指定)を持つ2行を識別し、sedを使用して置き換える方法を知っています。動的にする方法(識別するために10000個の文字列を含むテキストファイルを使用)がわからないため、10000個のコマンドを個別に実行する必要はありません。
あなたの時間と助けに感謝します。最高、
ローラン
ベストアンサー1
awkの無差別代入方法:常に行を保存し、フィールド1で一致する後続の行を昇格します。
100万行(1つのスワップを使用)でテストしましたが、5.5秒で実行されたため、ランタイムは1分余りになります。参照ファイルは必要ありません。
テスト行を含むHereDocを含むスクリプト。
#! /bin/bash
awkPairs () {
local Awk='
FNR == 1 { k = $2; x = $0; next; }
$2 != k { print x; k = $2; x = $0; next; }
{ print $0; }
END { print x; }
'
awk -f <( printf '%s' "${Awk}" ) -
}
[ x ] && time awkPairs <<'[][]'
WT 1 One x1
WT 2 Two x2
WT 3 Three_1 x3
WT 3 Three_2 y3
WT 4 Four x4
WT 5 Five_1 x5
WT 5 Five_2 y5
[][]
(短期)テストの実行。
$ ./awkPairs
WT 1 One x1
WT 2 Two x2
WT 3 Three_2 y3
WT 3 Three_1 x3
WT 4 Four x4
WT 5 Five_2 y5
WT 5 Five_1 x5
real 0m0.009s
user 0m0.004s
sys 0m0.006s
すべてのテスト資料スクリプトを削除しました。単一の引数(入力ファイル名)またはリダイレクトまたはパイプされた標準入力を使用して呼び出すことができます。出力は常にstdoutに移動します。
#! /bin/bash
awkPairs () {
local Awk='
FNR == 1 { k = $2; x = $0; next; }
$2 != k { print x; k = $2; x = $0; next; }
{ print $0; }
END { print x; }
'
awk -f <( printf '%s' "${Awk}" ) "${1:--}"
}
awkPairs "${1}"
したがって、次のいずれかの方法で呼び出すことができます。
./awkPairs myData.txt
./awkPairs < myData.txt
cat myData.txt | ./awkPairs