周辺文字を印刷せずに「sed」に一致する正規表現を抽出する

Question

正規表現にグループが含まれている場合は、文字列を一致させる方法がいくつかあります。グループを含む正規表現はあいまいです。たとえば、正規表現と^.*$[0-9][0-9]*$$文字列を考えてみましょうa12。 2つの可能性があります。

対決と対決aは。.*2[0-9]*1[0-9]
a1と一致し、.*一致する空の文字列です[0-9]*。2[0-9]

他のすべての正規表現ツールと同様に、Sedは最速の一致ルールを適用します。まず、最初の可変長部分を可能な限り長い文字列と一致させようとします。文字列の残りの部分を正規表現の残りの部分と一致させる方法を見つけることは大丈夫です。それ以外の場合、sed は最初の可変長部分の次に最長の一致を試み、再試行します。

ここでは、最も長い文字列が最初に一致a1する.*ので、グループは2。いくつかの正規表現エンジンを.*使用すると、グループをより早く開始したい場合は欲が少なくなりますが、sedにはそのような機能はありません。だからあなたは必要です明確さ追加のアンカーポイントがあります。行間が.*数字で終わらないことを指定して、グループの最初の数字が可能な最初の一致になることを指定します。

数値セットが行の先頭にない場合:
```
sed -n 's/^.*[^0-9]$[0-9][0-9]*$.*/\1/p'
```
数値グループが行の先頭にあり、sedがオプションの\?部分演算子をサポートしている場合：
```
sed -n 's/^$.*[^0-9]$\?$[0-9][0-9]*$.*/\1/p'
```
数値グループが行の先頭にある場合は、標準正規表現構造に従います。
```
sed -n -e 's/^.*[^0-9]$[0-9][0-9]*$.*/\1/p' -e t -e 's/^$[0-9][0-9]*$.*/\1/p'
```

ただし、同じ最速 - 長い一致ルールは、[0-9]*次の数字ではなく最初の数字の後の数字と一致します.*。

1行に複数の数値シーケンスがある場合、プログラムは常に最後の数値シーケンスを抽出します。これは、最初に最長の一致規則が最初に適用されるためです.*。最初の数値シーケンスを抽出するには、前の数値シーケンスを指定する必要があります。数値ではなくシーケンスです。

sed -n 's/^[^0-9]*\([0-9][0-9]*\).*$/\1/p'

より一般的には、正規表現の最初の項目を抽出するには、その正規表現の否定を計算する必要があります。理論的には常に可能ですが、否定の大きさは否定されるべき正規表現の大きさに応じて指数関数的に大きくなるため、これはしばしば非実用的です。

他の例を考えてみましょう。

sed -n 's/.*\(CONFIG_[a-zA-Z0-9_]*\).*/\1/p'

この例は実際には同じ問題を示していますが、一般的な入力ではこれを見ることはできません。これを入力すると、上記のコマンドが代わりにhello CONFIG_FOO_CONFIG_BAR印刷されます。CONFIG_BARCONFIG_FOO_CONFIG_BAR

sedを使用して最初の一致を印刷する方法がありますが、少しトリッキーです。

sed -n -e 's/\(CONFIG_[a-zA-Z0-9_]*\).*/\n\1/' -e T -e 's/^.*\n//' -e p

（sedが代替テキスト\nで改行文字表現をサポートしていると仮定しますs。）これは、sedが正規表現に最初に一致するものを見つけ、そのビットの前CONFIG_…に何も一致しようとしないために機能します。行内に改行文字がないため、これを一時表示として使用できます。このコマンドは、前のコマンドが一致しない場合はT放棄することを意味します。s

sedで何をする方法がわからない場合は、awkに切り替えてください。次のコマンドは、正規表現の最速一致と最長一致を印刷します。

awk 'match($0, /[0-9]+/) {print substr($0, RSTART, RLENGTH)}'

単純にするには、Perlを使用してください。

perl -l -ne '/[0-9]+/ && print $&'       # first match
perl -l -ne '/^.*([0-9]+)/ && print $1'  # last match

Answer 1