必須：AWKの非連想配列

Question

以下は、質問に答えるために書いたgawk 4.1.3のテストコードです。 PFILEの生データは数値であり、DFILEに連続する項目間の差を格納してデータを圧縮しようとしています。

BEGIN{ RLS=bufstr=""; SEP =":" ; PFILE="somenumbers.txt" ; DFILE= "diffile.txt"
if (ATEST=="") ATEST=1
accumulate=lastdatum=0 ; BIGN=5500000 ; DATALENMAX=7 ;TUNELEN=2048
for(i=1; i < BIGN ; i++) {
     getline nextdatum < PFILE
     d = nextdatum -lastdatum
#     RLS = RLS d SEP
     ibuf( d SEP )
     print d > DFILE
     lastdatum=nextdatum  }
# RLS = RLS "0"
ibuf("0")
if (length(bufstr) > 0) { RLS = RLS bufstr ; bufstr="" }
print (RLSlen=length(RLS))
close(PFILE) ; close(DFILE)
timestmp["start"] = systime()
if (ATEST==1){
  split(RLS,data,SEP)
  timestmp["endsplit"] = systime()
  for(i=1; i in data; i++){     accumulate += 1*data[i]     }
  }
if (ATEST==2){
  for(j=1; j<RLSlen ; j+=datalen) {
     datalen=match(substr(RLS,j, DATALENMAX),SEP)
     accumulate  += 1*substr(RLS,j,datalen-1)     }
  }
if (ATEST==3) {
  while((getline diff < DFILE)>0){  accumulate  += 1*diff }
  close(DFILE)
  }
print accumulate 
timestmp["end"] = systime()
for(t in timestmp) print t, (1*timestmp[t] - 1*timestmp["start"])
}

function ibuf(str) {   bufstr=bufstr str
   if (length(bufstr) > TUNELEN) { RLS = RLS bufstr ; bufstr="" }
}

ibuf（）関数とTUNELENパラメータはあまり重要ではありません。割り当てのために割り当てられたメモリ値が跳ねるのを見るのは疲れただけです。

RLS = RLS d SEP

それで、この部分を緩衝することにしました。

2番目と3番目の部分（ATEST = 2と3）は、最初の部分より少し速く実行されると予想されます。しかし、そのようなことは起こりませんでした。配列の使用は常に少し速いようです。非常にセクション2よりも約2倍速く、セクション3よりも少し高速です。ただし、配列バージョンは値だけでなくインデックスも格納する必要があるため、約10倍以上のメモリを使用します。

最初はDATAMAXLEN値なしでパート2をテストしましたが、繰り返しのsubstr（）呼び出しは非常に遅くなりました。セクション2の方法は、入力データに使用されるメモリを節約しますが、より速い速度を提供しません。

要約すると、消費するメモリがある場合は連想配列を使用してください。ディスクが良好な場合は、ファイルから読んでください。保存する必要がある場合は、ロープの上に上がりますが、注意して小さな部分だけを見てください。私のシステムにはメモリ制約があり、アプリケーションファイルからデータを読み取ることができます。誰かがインデックスを使用したり、文字列にアクセスするためにメモリを節約する他の方法など、パート2を変更する方法を見ている場合は、これについて知りたいです。

ゲルハルト「マイレージが頻繁に変わります」パスのみ、2015.09.30

Answer 1