混合エンコードテキストファイルを再エンコードする方法

混合エンコードテキストファイルを再エンコードする方法

一部のUTF-8文字(将来のバージョンで変更される可能性があります)を除いて、ASCIIログファイルがあります。

現在、gedit / lessなどでこのファイルを表示/検索/編集可能にする方法を理解する必要があります。

enca -L none file返品7bit ASCII characters Surrounded by/intermixed with non-text data

enconv -L none -X ASCII file「成功」ですが、enconv -L none -X UTF-8 file実際には何も変わりません。

このファイルをどのように回復できますか?

アップデート(一部の回答後):

実際、以下に示すように(すべてが同意します:)、ASCII + UTF-8はUTF-8です。私が持っているもの

0003bbc0  28 4c 6f 61 64 65 72 29  20 50 61 74 69 65 6e 74  |(Loader) Patient|
0003bbd0  20 00 5a 00 5a 00 5a 00  38 00 31 00 30 00 34 00  | .Z.Z.Z.8.1.0.4.|
0003bbe0  20 6e 6f 74 20 66 6f 75  6e 64 20 69 6e 20 64 61  | not found in da|
0003bbf0  74 61 62 61 73 65 0d 0a  32 36 20 53 65 70 20 32  |tabase..26 Sep 2|

私はこれがcp1252型エンコーディングになると思います。実際、私はそれが何であるかわかりません。 cp1252はASCIIの1バイトです。そうですか?

ところで、実際にLinux barfsは、入力ファイル(IDソース)が誤ってエンコードされていることを見つけるのに役立ちました。

ベストアンサー1

「一部のUTF-8文字を除くASCII」ファイルはUTF-8ファイルです。

UTF-8ロケールを使用する限り、表示/検索/編集が可能です。

ASCIIにはUTF-8特殊文字と同等の表現がないため、ASCIIに変換できません。

Isolatinに切り替えたいと思うかもしれません

iconv -f UTF-8 -t ISO-8859-1

おすすめ記事