西部エンコード（ISO-8859-1）でエンコードされたテキストファイルを読み取るのに問題があります。

Question

ポーランド語の標準8ビットエンコーディングは次のとおりです。latin2（別名ISO 8859-2）。 3はł、¿を表します。 żなどを表すテキストは、latin2テキストを表すバイト列をあたかもlatin1を表すかのように解釈した結果です。 ISO 8859-1としても知られているLatin1は、ほとんどの西ヨーロッパ言語の標準エンコーディングです。

テキストがlatin2でエンコードされている場合は、latin1からUTF-8ではなくlatin2からUTF-8に変換する必要があります。

iconv -f latin2 -t utf8

（-t utf8UTF-8ロケールを呼び出すので、これはオプションです。）

テキストを読みながら表示すると、これはある時点で8ビットからUnicodeに正しく変換されなかったことを意味します。これを修正するには、生のバイトに戻してからエンコードに変換します。

iconv -f utf8 -t latin1 | iconv -f latin2 -t utf8

Answer 1

ポーランド語の標準8ビットエンコーディングは次のとおりです。latin2（別名ISO 8859-2）。 3はł、¿を表します。 żなどを表すテキストは、latin2テキストを表すバイト列をあたかもlatin1を表すかのように解釈した結果です。 ISO 8859-1としても知られているLatin1は、ほとんどの西ヨーロッパ言語の標準エンコーディングです。

テキストがlatin2でエンコードされている場合は、latin1からUTF-8ではなくlatin2からUTF-8に変換する必要があります。

iconv -f latin2 -t utf8

（-t utf8UTF-8ロケールを呼び出すので、これはオプションです。）

テキストを読みながら表示すると、これはある時点で8ビットからUnicodeに正しく変換されなかったことを意味します。これを修正するには、生のバイトに戻してからエンコードに変換します。

iconv -f utf8 -t latin1 | iconv -f latin2 -t utf8

西部エンコード（ISO-8859-1）でエンコードされたテキストファイルを読み取るのに問題があります。

ベストアンサー1

おすすめ記事