何千枚ものスキャンページがあります。各ページは個別にJPGとして保存されます。テキストは明確ですが、フォントが多様で、ページに画像と画像が含まれています。
各JPGファイルに表示されるすべての単語のリストを作成する必要があります。単語発生リストを一覧表示する画像スキャン用のコマンドラインツールはありますか?完璧なスキャンである必要はなく、単なる見積もりです。
ベストアンサー1
立方体おそらくここで最も一般的な解決策でしょう。ほとんどのパッケージストアで利用可能です。
sudo apt install tesseract-ocr
そして一緒に使えます
tesseract input.png out.txt