glibc regex(7)/GNU sed/grep/egrep 正規表現でエスケープ回数を計算する最良の方法は何ですか？

Question

ポイントがシェル言語ソルバーのようにシェルコードをマークアップすることであれば、正規表現は役に立ちません。

zshシェルはzパラメータ拡張フラグを使用してトルクナイザーを公開します（またはZコメントを処理したり改行を変更したりするオプションを使用できます）。これをQパラメータ拡張と組み合わせて引用符を削除できます。

たとえば、

tokens() printf ' - « %s »\n' ${(Z[Cn])1}
tokens_dequoted() printf ' - « %s »\n' "${(@Q)${(Z[Cn])1}}"

最初の引数のすべてのシェルトークンを報告し、2番目の引数から引用符の1つのレイヤーを削除します。

$ tokens '  foo "a b"; "" "$(echo "x y")" <<'"'qwe '\''qwe' #qwe"
 - « foo »
 - « "a b" »
 - « ; »
 - « "" »
 - « "$(echo "x y")" »
 - « << »
 - « 'qwe '\''qwe' »
$ tokens_dequoted '  foo "a b"; "" "$(echo "x y")" <<'"'qwe '\''qwe' #qwe"
 - « foo »
 - « a b »
 - « ; »
 - «  »
 - « $(echo "x y") »
 - « << »
 - « qwe 'qwe »

同じことを行うには、完全なシェルパーサーを実装する必要があることがわかります。

範囲を狭くすると、正規表現を使用して次のような結果を得ることができます。、引用符の種類（代わりに）のみを考慮し、スペースのみを区切り文字'...'と見なし"..."、二重引用符内の拡張は無視します。 bash 4.4+では、とにかくコードでNULバイトを処理できないzshとは異なり、GNUを使用すると次のことができます。\$'...'grep

tokens() {
  local tokens
  readarray -td '' tokens < <(printf %s "$1" |
    grep -Ezo '(\\.|[^[:space:]\\"'\'']|'\''[^'\'']*'\''|"(\\.|[^\\"])*")+'
  )
  printf ' - « %s »\n' "${tokens[@]}"
}

それから：

$ tokens ' foo "a b"\c\\\" c\ d '" 'qwe'\''qwe'\"'\"qwe"
 - « foo »
 - « "a b"\c\\\" »
 - « c\ d »
 - « 'qwe'\''qwe'"'"qwe »

参照レイヤーを削除するには、次の方法を使用しますperl（またはzsh上記のようにすぐに実行できます）。

Answer 1