Unicodeでは、いくつかの文字の組み合わせに複数の表現があります。
たとえば、文字ㅏそれは次のように表現できます。
- コードポイントU + 00E4(
c3 a4
UTF-8エンコーディングの2バイト)である「ä」または - 「ä」は2つのコードポイントU + 0061 U + 0308(
61 cc 88
UTF-8の3バイト)です。
Unicode標準によると、両方の表現は同じですが、「正規化された形式」は異なります。UAX #15: Unicode 正規化形式。
Unixツールボックスにはさまざまなテキスト変換ツールがあります。sed、ティー、賞、私はPerlを考えた。コマンドラインでNF変換をすばやく簡単に行う方法は?