混合エンコードテキストファイルを再エンコードする方法

2024-06-28 • tag-icon

一部のUTF-8文字（将来のバージョンで変更される可能性があります）を除いて、ASCIIログファイルがあります。

現在、gedit / lessなどでこのファイルを表示/検索/編集可能にする方法を理解する必要があります。

enca -L none file返品7bit ASCII characters Surrounded by/intermixed with non-text data。

enconv -L none -X ASCII file「成功」ですが、enconv -L none -X UTF-8 file実際には何も変わりません。

このファイルをどのように回復できますか？

アップデート（一部の回答後）：

実際、以下に示すように（すべてが同意します：）、ASCII + UTF-8はUTF-8です。私が持っているもの

0003bbc0  28 4c 6f 61 64 65 72 29  20 50 61 74 69 65 6e 74  |(Loader) Patient|
0003bbd0  20 00 5a 00 5a 00 5a 00  38 00 31 00 30 00 34 00  | .Z.Z.Z.8.1.0.4.|
0003bbe0  20 6e 6f 74 20 66 6f 75  6e 64 20 69 6e 20 64 61  | not found in da|
0003bbf0  74 61 62 61 73 65 0d 0a  32 36 20 53 65 70 20 32  |tabase..26 Sep 2|

~~私はこれがcp1252型エンコーディングに~~なると思います。実際、私はそれが何であるかわかりません。 cp1252はASCIIの1バイトです。そうですか？

ところで、実際にLinux barfsは、入力ファイル（IDソース）が誤ってエンコードされていることを見つけるのに役立ちました。

ベストアンサー1

「一部のUTF-8文字を除くASCII」ファイルはUTF-8ファイルです。

UTF-8ロケールを使用する限り、表示/検索/編集が可能です。

ASCIIにはUTF-8特殊文字と同等の表現がないため、ASCIIに変換できません。

Isolatinに切り替えたいと思うかもしれません

iconv -f UTF-8 -t ISO-8859-1

アップデート（一部の回答後）：

ベストアンサー1

おすすめ記事