分音符を無視し、正規表現でASCII文字のみを一致させます。

Question

使用：

REGEXP='^[abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0-9-]+$'

好きなキャラクターを選んでください。一致するコンテンツはC / POSIXロケール[a-z]でのみ保証されます。[abcdefghijkmnopqrstuvwxyz]

（バックスラッシュを含めたくないと仮定しますが、これは\エスケープに対する悪い試みです-。）

^[a-zA-Z0-9-]+$別のオプションは、拡張正規表現（または）を評価するツールを使用する前にロケールをCに変更することです^[[:alnum:]-]+$。たとえば、次のようになります。

LC_ALL=C grep -Ee "$REGEXP"

REGEXP='[A-Z]'この場合は機能しますが、正規表現に一致するデータがBIG5-HKSCSやGB18030などの文字セット（および同じ文字を使用するロケール）にある場合は機能しません。エンコーディングはA-Z。

[A-Z]一致例Á（U + 00C1、BIG5-HKSCSで0x88 0x57にエンコードされています（0x57度W））：

$ LC_ALL=zh_HK.big5hkscs REGEXP='[A-Z]' bash -c 'printf "\uc1\n" |
    LC_ALL=C grep -qe "$REGEXP" && echo match'
match

Answer 1

使用：

REGEXP='^[abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0-9-]+$'

好きなキャラクターを選んでください。一致するコンテンツはC / POSIXロケール[a-z]でのみ保証されます。[abcdefghijkmnopqrstuvwxyz]

（バックスラッシュを含めたくないと仮定しますが、これは\エスケープに対する悪い試みです-。）

^[a-zA-Z0-9-]+$別のオプションは、拡張正規表現（または）を評価するツールを使用する前にロケールをCに変更することです^[[:alnum:]-]+$。たとえば、次のようになります。

LC_ALL=C grep -Ee "$REGEXP"

REGEXP='[A-Z]'この場合は機能しますが、正規表現に一致するデータがBIG5-HKSCSやGB18030などの文字セット（および同じ文字を使用するロケール）にある場合は機能しません。エンコーディングはA-Z。

[A-Z]一致例Á（U + 00C1、BIG5-HKSCSで0x88 0x57にエンコードされています（0x57度W））：

$ LC_ALL=zh_HK.big5hkscs REGEXP='[A-Z]' bash -c 'printf "\uc1\n" |
    LC_ALL=C grep -qe "$REGEXP" && echo match'
match

おすすめ記事