他のファイルのパターンと一致するファイルの複数行にある複数の部分文字列を置き換える方法は？

Question

スクリプトの問題は、sed一致する各 IP アドレスに対して別々のコマンドを実行するため、ファイルが大きいとスクリプトの速度が非常に遅くなることです。

また、ネストされたループがあるため、O(N*M)アルゴリズムに時間の複雑さがあります。

より良いアプローチは、代替実行を使用することです。awkこの方法では、一度にすべての置換を実行できます。

$ awk 'NR==FNR{h[$2]=$1;next}{for (i=2;i<=NF;i++) if ($i in h) $i = h[$i]}1' ip_hostname.txt path_ips.txt 
/path1/foo/bar host1 host2 host3
/path2/foo/bar host3 host7
/path3/foo/bar host4 host8 host29 host75
...
/path100/foo/bar host60

またはより読みやすい形式で

awk '
    NR == FNR {
      h[$2] = $1
      next
    }
    {
      for (i=2; i<= NF; i++)
        if ($i in h)
          $i = h[$i]
    }
    1
' ip_hostname.txt path_ips.txt

これはファイルサイズO((N+M)lon(N))とファイルサイズが複雑でなければなりません。正常に動作するにはメモリに入ることができるはずですが、最新のコンピュータではサイズが数 GB でなければ問題ありません。Nip_hostname.txtMpath_ips.txtip_hostname.txt

Answer 1

スクリプトの問題は、sed一致する各 IP アドレスに対して別々のコマンドを実行するため、ファイルが大きいとスクリプトの速度が非常に遅くなることです。

また、ネストされたループがあるため、O(N*M)アルゴリズムに時間の複雑さがあります。

より良いアプローチは、代替実行を使用することです。awkこの方法では、一度にすべての置換を実行できます。

$ awk 'NR==FNR{h[$2]=$1;next}{for (i=2;i<=NF;i++) if ($i in h) $i = h[$i]}1' ip_hostname.txt path_ips.txt 
/path1/foo/bar host1 host2 host3
/path2/foo/bar host3 host7
/path3/foo/bar host4 host8 host29 host75
...
/path100/foo/bar host60

またはより読みやすい形式で

awk '
    NR == FNR {
      h[$2] = $1
      next
    }
    {
      for (i=2; i<= NF; i++)
        if ($i in h)
          $i = h[$i]
    }
    1
' ip_hostname.txt path_ips.txt

これはファイルサイズO((N+M)lon(N))とファイルサイズが複雑でなければなりません。正常に動作するにはメモリに入ることができるはずですが、最新のコンピュータではサイズが数 GB でなければ問題ありません。Nip_hostname.txtMpath_ips.txtip_hostname.txt

他のファイルのパターンと一致するファイルの複数行にある複数の部分文字列を置き換える方法は？

ベストアンサー1

おすすめ記事