ファイルサイズを最小限に抑えながら、OCRを使用して雑誌や書籍をデジタル化する標準的なワークフローは何ですか?

ファイルサイズを最小限に抑えながら、OCRを使用して雑誌や書籍をデジタル化する標準的なワークフローは何ですか?

テキスト、白黒画像、シャープな枠線のみを含む本をスキャンするために私が使用したワークフローは次のとおりです。

  • カメラまたはスキャナーを使用してソースをデジタル化します。
  • 使用scantailor
  • 最後に使用したdjvubindocrの背景を持つ小さな(1〜7 MB)djvuファイルを作成します。

これは素晴らしい作品です。ただし、雑誌や書籍の画像、構造要素、背景、またはページの端と重なる画像に色がたくさん含まれている場合は、スキャンテーラー(ブレンドモード)を使用するのが非常に困難になり、各ページを手動で処理する必要があります。

それでは、これらのリソースをデジタル化し、Linuxから小さなファイルをインポートするための良いワークフローは何ですか?DJVUまたはPDFocrの背景を持つファイルですか?

ベストアンサー1

おすすめ記事