8進数302 240は一緒に切り捨て防止スペースに対応するようです。

Question

U + 00A0 Unicode文字のUTF-8エンコーディング。

$ unicode U+00A0
U+00A0 NO-BREAK SPACE
UTF-8: c2 a0 UTF-16BE: 00a0 Decimal: &#160; Octal: \0240
 
Category: Zs (Separator, Space)
Bidi: CS (Common Number Separator)
Decomposition: <noBreak> 0020

$ locale charmap
UTF-8
$ printf '\ua0' | od -to1
0000000 302 240
0000002

UTF-8は、1文字あたりのバイト数が可変のUnicodeエンコーディングです。文字セットとしてのUnicodeはiso8859-1（latin1とも呼ばれます）の親セットであり、それ自体はASCIIの親セットです。

iso8859-1では改行しない空白文字（iso8859-1のコードポイント0xa0、Unicodeのコードポイントと同様）は0xa0バイトで表示され、UTF-8ではコードポイント0〜127のみが表示されます。 1バイト（これにより、UTF-8はASCIIの親セットになります。つまり、ASCIIファイルもUTF-8ファイルです。）

128以上のコードポイントは、エンコードするために1文字あたりより多くのバイトを使用します。バラよりウィキペディアUTF-8 エンコードアルゴリズムの詳細情報です。

Answer 1

U + 00A0 Unicode文字のUTF-8エンコーディング。

$ unicode U+00A0
U+00A0 NO-BREAK SPACE
UTF-8: c2 a0 UTF-16BE: 00a0 Decimal: &#160; Octal: \0240
 
Category: Zs (Separator, Space)
Bidi: CS (Common Number Separator)
Decomposition: <noBreak> 0020

$ locale charmap
UTF-8
$ printf '\ua0' | od -to1
0000000 302 240
0000002

UTF-8は、1文字あたりのバイト数が可変のUnicodeエンコーディングです。文字セットとしてのUnicodeはiso8859-1（latin1とも呼ばれます）の親セットであり、それ自体はASCIIの親セットです。

iso8859-1では改行しない空白文字（iso8859-1のコードポイント0xa0、Unicodeのコードポイントと同様）は0xa0バイトで表示され、UTF-8ではコードポイント0〜127のみが表示されます。 1バイト（これにより、UTF-8はASCIIの親セットになります。つまり、ASCIIファイルもUTF-8ファイルです。）

128以上のコードポイントは、エンコードするために1文字あたりより多くのバイトを使用します。バラよりウィキペディアUTF-8 エンコードアルゴリズムの詳細情報です。

8進数302 240は一緒に切り捨て防止スペースに対応するようです。

ベストアンサー1

おすすめ記事