LinuxのコマンドラインでOCRを使用する方法は?

LinuxのコマンドラインでOCRを使用する方法は?

何千枚ものスキャンページがあります。各ページは個別にJPGとして保存されます。テキストは明確ですが、フォントが多様で、ページに画像と画像が含まれています。

各JPGファイルに表示されるすべての単語のリストを作成する必要があります。単語発生リストを一覧表示する画像スキャン用のコマンドラインツールはありますか?完璧なスキャンである必要はなく、単なる見積もりです。

ベストアンサー1

立方体おそらくここで最も一般的な解決策でしょう。ほとんどのパッケージストアで利用可能です。

sudo apt install tesseract-ocr

そして一緒に使えます

tesseract input.png out.txt

おすすめ記事