一部のUnicode文字を含む「uniq」または「sort -u」行はどこに行きましたか？

Question

ショートバージョン：コマンドラインユーティリティでは、照合順序は実際には機能しません。

より長いバージョン：2つの文字列を比較する基本関数は次のとおりです。strcoll。説明はあまり役に立ちませんが、概念的にこれを行う方法は、2つの文字列を標準形式に変換してから2つの標準形式を比較することです。機能strxfrmこの正式な形式が構成されます。

いくつかの文字列の標準形式を見てみましょう（Debian squeezeでGNU libcを使用）。

$ export LC_ALL=en_US.UTF-8
$ perl -C255 -MPOSIX -le 'print "$_ ", unpack("h*", strxfrm($_)) foreach @ARGV' b a A à 〼 〇
b d010801020
a c010801020
A c010801090
à 101010102c6b
〼 101010102c6b102c6b102c6b
〇 101010102c6b102c6b102c6b

ご覧のように〼と〼は同じ標準形を持っています。私の考えでは、その文字がen_US.UTF-8そのロケールの組み合わせテーブルに記載されていないためです。ただし、日本語ロケールでは表示されます。

$ export LC_ALL=ja_JP.UTF-8
$ perl -C255 -MPOSIX -le 'print "$_ ", unpack("h*", strxfrm($_)) foreach @ARGV' 〼 〇 
〼 303030
〇 3c9b

ロケールデータ（Debian squeezeの）ソースコードは/usr/share/i18n/locales/en_USincludeにあります。このファイルには、またはエントリが/usr/share/i18n/locales/iso14651_t1_commonなく、私が見つけることができる範囲には含まれていません。U3007U303C

私は慣れていないソートルール設定ルールしかし、私が理解したところによると、関連表現は次のようになります。

UNDEFINEDシンボルは、明示的に指定されていないか省略記号で指定されていないすべてのエンコードされた文字セット値を含むと解釈されます。（...）未定義のシンボルが指定されておらず、現在エンコードされている文字セットにこのセクションに指定されていない文字が含まれている場合、ユーティリティは警告メッセージを発行し、その文字を文字ソート順序の末尾に配置する必要があります。

Glibcは指定されていない文字を無視するようです。 POSIX仕様の理解に欠陥があるのか、Glibcロケール定義に欠けている部分があるのか、Glibcロケールコンパイラにバグがあるのかはわかりません。

Answer 1