sed が文字範囲と一致します。

Question

POSIXによると、角括弧式の範囲は、C / POSIXロケールに基づくコードポイントに対してのみ指定されています。他のロケールでは指定されておらず、通常は見つかった照合順序はある程度に基づいています。一部のロケールにはツールがあり、[g-j]時には一部のチェコロケールにも同じものがあることがわかります。iıǵIch

zsh[x-y]ロケールに関係なく、コードポイントに基づいて範囲が決定されるまれな範囲の1つです。シングルバイト文字セットの場合、これはバイト値に基づいており、マルチバイト文字セットの場合は、Unicodeコードポイントまたはシステムが表示するために使用するすべての項目に基づいています。ワイド文字内部的にはと共同です mbstowc()。 API（通常はUnicode）。

だからではzsh、

[[ $char = [$'\u452'-$'\u490'] ]]
[[ $char = [^ђ-Ґ] ]]
y=${x//[^ђ-Ґ]/}

ロケールの文字セットがマルチバイトであり、これらの2文字を含む場合は、そのUnicode範囲の文字を一致させることができます。これらの文字の一部を含む単一バイト文字セット（たとえば、ほとんどの文字がU + 0401 ... U + 045FにあるISO8859-5）がありますが、これらの文字が使用されるロケールでは範囲がバイト値[ђ-Ґ]（Unicodeコードポイントではなく、文字セットの対応するコードポイント）に基づいています。

Cロケールでは、範囲はコードポイントに基づいていますが、Cロケールの文字セットには次のものが含まれていることだけが保証されています。ポータブル文字セットこれはPOSIXまたはCコードを書くために必要ないくつかの文字です（これはキリル文字では見つかりません）。また保証されますシングルバイトしたがって、Unicodeで指定されたすべての文字を含めることはできません。実際に最も一般的に使用されるのはASCIIです。

実際には、C（または少なくとも1バイトの文字セットを持つロケール）に設定しない限り、LC_COLLATECに設定することはできません。LC_CTYPEただし、多くのシステムにはC.UTF-8ここで使用できるロケールがあります。

UTF-8は、すべてのUnicode文字とすべての文字セットのすべての文字を表すことができる文字セットの1つです。だからあなたはこれを行うことができます：

< file iconv -t utf-8 |
  LC_ALL=C.UTF-8 sh -c 'sed "$(printf "s/[^\321\222-\322\220]//g")"' |
  iconv -f utf-8

1つ目は、iconvユーザーのロケール文字セットをそれぞれU + 0452およびU + 0490のUTF-8\321\222および\322\220UTF-8エンコーディングに変換し、2つ目はiconvロケールの文字セットに戻します。

現在のロケールがすでにUTF-8を文字セットとして使用していて、fileその文字セットで作成されている場合は、次のように単純化できます。

<file LC_ALL=C.UTF-8 sed 's/[^ђ-Ґ]//g'

または：

<file LC_ALL=C.UTF-8 sed "$(printf "s/[^\321\222-\322\220]//g")"

GNUsedが提供する環境では、$POSIXLY_CORRECTエンコードされたバイト値に基づいて文字を指定できます。

<file LC_ALL=C.UTF-8 sed 's/[^\321\222-\322\220]//g'

以前のバージョンでは、次のものが必要な場合があります。

<file LC_ALL=C.UTF-8 sed 's/[^\o321\o222-\o322\o220]//g'

または16進変形：

<file LC_ALL=C.UTF-8 sed 's/[^\xd1\x92-\xd2\x90]//g'

マルチバイト文字セット（Unicodeのワイド文字表現ベースのシステムを含む）を使用するロケールの場合、別のオプションは次のようにawkGNUを使用することです。

awk 'BEGIN{for (i = 0x452; i<=0x490; i++) range = range sprintf("%c", i)}
     {gsub("[^" range "]", ""); print}'

（最初はPOSIXでGNU awkのように動作するにはawkの実装が必要だと思いましたが、POSIXでは次のように動作するにはawkの実装が必要なsprintf("%c", i)のでそうではありません。iコーディングロケールの文字（コードポイントではない）です。これは、マルチバイト文字で移植可能に使用できないことを意味します。

とにかくU + 0400 .. U + 052Fの範囲は、キリル文字の唯一のUnicode文字ではありません。スクリプト、キリル文字を文字として使用する言語は言うまでもありません。文字のリストはUnicodeのバージョンによって変わります。

Debian に似たシステムでは、以下を使用してリストを取得できます。

unicode --max 0 cyrillic

（Ubuntu 16.04では435個、Debian sidでは444個が与えられました（おそらく別のバージョンのUnicodeを使用したでしょう）。

で、、...perlを参照してUnicodeブロックを一致させ、そのバージョンが使用しているUnicodeバージョンに現在割り当てられているキリル文字の文字を一致させます（例を参照）。\p{Block: Cyrillic}\p{Block: Cyrillic_Ext_A,B,C}\p{Block: Cyrillic_Supplement}\p{Cyrillic}perlperl -MUnicode::UCD -le 'print Unicode::UCD::UnicodeVersion'

だから：

perl -Mopen=locale 's/\P{Cyrillic}//g'

Answer 1