「â<80><98>」とは何ですか？これを防ぐ方法は？

Question

ディストリビューションはUTF-8文字エンコーディングを使用します。これは、ほとんどの最新のディストリビューションでは正常です。
あなたが見るのは、UTF-8でエンコードされた文字が別のエンコーディングに現れる効果です。

多くのGNUユーティリティは、オープン引用符と閉じた引用符を表すために異なる引用符を使用しようとします。これは一部のフォントにはよく見えますが、他のフォントには良くありません。

生成された出力を見てみましょうfind。

$ find /x 2>&1 | hexdump -C
00000000  66 69 6e 64 3a 20 e2 80  98 2f 78 e2 80 99 3a 20  |find: .../x...: |

前後に/xシーケンスe2 80 98の合計がありますe2 80 99。

コンソールはUTF-8で構成され、UTF-8シーケンスを正しく表示します。プログラムはcatこの順序を認識したり気にしないため、問題になりません。

一方、viファイルをlatin1として解釈します。これは、少なくとも現代のディストリビューションではまれです。 latin1では、最初のバイトはwhilee2として解釈され、latin1では無効であり、次のように表示されます。その結果は次のとおりです。â809899<80>â<80><98>â<80><99>

この状況を避ける方法は？viファイルをUTF-8としてマークするか、出力でUTF-8シーケンスを使用しないようにファイルを設定できます。

$ LC_CTYPE=C find /x 2>&1 | hexdump -C
00000000  66 69 6e 64 3a 20 27 2f  78 27 3a 20   |find: '/x': |

UTF-8シーケンスを生成する代わりに、一重引用符が開いている引用符と閉じる引用符としてfind使用されます。'

UTF8を無効にすると、プログラムが入力を処理する方法が変わる可能性がありますが、あなたの例ではこれは重要ではありません。

Answer 1