私のテキストが回復できないほど破損していますか？

Question

部分的な答え、プロセスの説明：

16進ダンプで「korektnűŮrodnű？」でこれを見ることができます。部分では、バイト「c5 b1 c5 ae」は「korektnűŮ」の終わり、バイト「c5 b1 3f」は「rodnű?」の終わりです。これは?実際に一つです?。

もしあなたなら？「rodnű」で「é」になるべきですか？「dá?litelnű?」 -> 「delitel」のように、「é」が「c5 b1 3f」で終わっていることがわかります。チェコ語を理解しているので、これが正しいかどうかわかりません。

今、私たちは何が起こったのかを推測することができます。「c5 b1」は、2バイト文字エンコーディングのように見えます。推測する何らかの理由でテキストが2回変換されることです。最初のステップでは「é」を2バイト（すべてのエンコードで）にエンコードし、2番目のステップでは最初のバイトを「c5 b1」にエンコードし、2番目の2バイトは印刷できません。そしてそれは最終的に?。

これは不幸なことです。なぜなら、これが真であれば、印刷できないバイトに関する情報を失うことになるからです。ただし、「c5 b1 3f」で終わる文字が多すぎない場合は、テキストを再構成するのに十分な情報がある可能性があります。

しかし、その前のステップは、十分なデータを収集する方法を知ることです。テキストがどの2つのエンコーディングによって区切られるかを推測するには、他のアクセント文字に十分な「文字éをc5 b1 3fに変換する」例が必要です。

あるいは、推測できない場合は、破損プロセスを再構築しなくても、破損したバイトシーケンスを正しい文字に置き換えるのに十分なペアをすでに検出できます。

ただし、これを行うには、チェコ語のユーザーとして完全なテキストがあり、正しい文字を推測できるため必要です。

Answer 1

部分的な答え、プロセスの説明：