壊れたファイルで二重文字を見つけてUnicode単一文字に置き換えるには？

Question

テキストがutf-8（Unix標準なので大丈夫）でエンコードされているように見えますが、何かがISO 8859-1 / MicrosoftのWindows Latin-1に読み込まれ、対応する解釈が出力されます。これを裏返す必要があります。

例えば

echo "passer de trÃ¨s bonnes fÃªtes de fin d'annÃ©e" | iconv --to-code="ISO 8859-1"

これにより、壊れたエンコーディングが有効なUTF-8に変換されます。システムがutf-8で構成されている場合は、正しく読み取られます。

説明：これにより、echo è | od -t x116echo ê | od -t x1進コードがc3 a8 0a合計であることがわかり、ここを見るc3 aa 0aことができます。http://www.ascii-code.com/（これはASCIIではなくISO 8859-1コードです。）私たちは、このコードがÃ¨後ろÃªに見えない文字が来るのを見ることができます。今、私たちは何が間違っているのか知っています。 UTF-8を読みますが、ISO 8859-1として解釈することです。したがって、これを裏返す必要があります。読んでいる形式が何であれ、それをISO 8859-1（ここにあるものとは逆）に変換する必要があります。結果は有効なutf-8です。

Answer 1

テキストがutf-8（Unix標準なので大丈夫）でエンコードされているように見えますが、何かがISO 8859-1 / MicrosoftのWindows Latin-1に読み込まれ、対応する解釈が出力されます。これを裏返す必要があります。

例えば

echo "passer de trÃ¨s bonnes fÃªtes de fin d'annÃ©e" | iconv --to-code="ISO 8859-1"

これにより、壊れたエンコーディングが有効なUTF-8に変換されます。システムがutf-8で構成されている場合は、正しく読み取られます。

説明：これにより、echo è | od -t x116echo ê | od -t x1進コードがc3 a8 0a合計であることがわかり、ここを見るc3 aa 0aことができます。http://www.ascii-code.com/（これはASCIIではなくISO 8859-1コードです。）私たちは、このコードがÃ¨後ろÃªに見えない文字が来るのを見ることができます。今、私たちは何が間違っているのか知っています。 UTF-8を読みますが、ISO 8859-1として解釈することです。したがって、これを裏返す必要があります。読んでいる形式が何であれ、それをISO 8859-1（ここにあるものとは逆）に変換する必要があります。結果は有効なutf-8です。

壊れたファイルで二重文字を見つけてUnicode単一文字に置き換えるには？

ベストアンサー1

おすすめ記事