常にバックアップファイルに付属のテキストファイルがたくさんあります。
ファイル.TXT
ファイル.BAK
ファイル*.TXT
には次のヘッダーが含まれています。
.V3 PL=62 MB=1 MT=1 DR=TMTYM FL=0 FT=0 #
I getを使用してä
ö
ü
コマンドラインに印刷すると、ドイツ語などの特殊文字は認識されません。cat
��
ファイルには、次の形式の脚注が含まれています。
.FN 4
&&FN&
このファイルを作成するためにどのプログラムが使用されるかを知っている人はいますか? (MS-DOS時代の推測)そして、読みやすい形式であるtext/markdown/tex/LibreOfficeに変換するツールは何ですか?
file -i file.TXT
印刷:OTT3.TXT: application/octet-stream; charset=binary
od -tc < OTT3.TXT | head
印刷:
0000000 . V 3 P L = 6 2 M B
0000020 = 1 M T = 1
0000040 D R = T M T Y M
0000060 F L = 7 0 F T = 0
0000100 # \r \n . F [ \r \n 377 \r \n .
0000120 F N 1 \r \n # A L N \r \n # A U
0000140 B \r \n 006 001 R F \a 0 9 \r \n \b & &
0000160 F N & \b D a s d e r H a u p
0000200 t m a n n d e n S c h a u p
0000220 l a t z d e r H a n d l u n
chardetect file.TXT
印刷:
OTT3.TXT: Windows-1254 with confidence 0.6400783871057183
変換に使用しようとすると、次のような結果がpandoc
得られます。
UTF-8 decoding error in OTT3.TXT at byte offset 76 (ff).
The input must be a UTF-8 encoded text.
ベストアンサー1
あなたが提供したファイルは、おそらくDOS v3用のWordStarを使用して作成された可能性があります。
ファイルは.V3で始まります。
ヘッダー行はおそらく(復号化可能な項目のみ)を意味します。
- PL = 65:ページの長さは65行です。
- MB=1: 下余白は 1 行です。
- MT=1: 上余白は 1 行です。
DOS 改行を段落区切り記号として使用
CP850(DOS)でエンコードされたドイツ語の発音区別記号
一般的な改行には8d0aの組み合わせを使用してください。
アクティブハイフンには1fを使用してください。
デフォルトのファイル拡張子がないため、ユーザーが直接選択します(「.txt」が頻繁に使用されます)。
バックアップコピーはデフォルトで拡張子「.bak」として保存されます。
1a を使用してファイルの終わりを表示します。
少し残った使用されるその他の制御文字ただし、ここに記載されていない内容はすべて合理的です。
リンクしたファイルに対して次のことを試すことができます。
cat OTTONEN.TXT | tr -d '\001\006\007\032\215' | tr '\037' '-' | dos2unix | iconv -f cp850 | sed -e '/^\(.V3\|#A[LU]\|.LS\|RD[0-9]\)/d' > OTTONEN2.txt
次に、生成されたファイルをテキストとして印刷します(事前フォーマットされた改行とハイフンを含む)。