奇妙な文字を識別する方法は？

Question

ファイルには、16進数のEBと0Aという2バイトが含まれています。ファイルは文字ごとに1バイトの文字セットを使用できます。ISO-8859-1; この文字セットでは、EB は ë です。

$ printf "\353\n" | iconv -f ISO-8859-1
ë

他の候補はδコードページ437, Ù inコードページ850...

od -xこの場合、エンディアンによって出力が混乱します。より良いオプションは、-t x1シングルバイトを使用することです。

$ printf "\353\n" | od -t x1
0000000 eb 0a
0000002

od -xod -t x2一度に2バイトを読み取り、リトルエンディアンシステムからバイトを逆順に出力するようにマッピングされます。

このように有効なUTF-8ではない（またはUTF-8ファイルとして解釈するときに意味のない）ファイルを見つけた場合、そのエンコード（および文字セット）を自動的に決定するための明確な方法はありません。コンテキストが役に立ちます。過去数十年にわたって西部のPCで生成されたファイルは、ISO-8859-1、-15（ヨーロッパのバリエーション）、またはWindows-1252でエンコードされている可能性があります。それより古い場合はCPです。 -437とCP-850が可能な候補だ。東ヨーロッパ、ロシア、アジアのファイルは、私が理解できない他の文字セットを使用します。その後、EBCDIC...はiconv -lすべての既知の文字セットを一覧表示し、iconvそこでいくつかの試行錯誤を実行できます。

（かつてCP-437とATASCIIを大部分覚えました。その時がそうでした。）

Answer 1