ずっと探しています。光学文字認識技術オープンソースシステムに遅れています。私も見たことがあるオクロフォースプロジェクト幼児期から。私は私が聞いたLinux用のOCRエンジンの中で最高のOCRエンジンを試しました。ハイパーキューブ、ビジネス文書が非常に不足していることがわかりました。より有望な他のOCR実装はありますか?手書きを解釈するというより有望な目標はどうですか?この分野で*nixシステムで何が可能ですか?
ベストアンサー1
ハイパーキューブ
2020年現在、最高のオープンソースOCRソフトウェアはハイパーキューブ4その新しいLSTMニューラルネットワークOCRモデル。 OCRのパフォーマンスは、バージョン3で使用されていた以前のOCRモデルよりはるかに優れています。
はい(output.pdf
スキャンしたドイツ語文書からテキストレイヤーを含むPDFファイルを作成する):
$ echo page-*.png > input.list
$ tesseract --oem 1 -l deu input.list output pdf
(--oem 1
LSTMエンジンを有効にする)
認識されたテキストを標準出力として印刷します。
$ tesseract --oem 1 -l deu page page-0001.png stdout
インストールされた言語のリスト:
$ tesseract --list-langs
ダウンロード可能な形式でさまざまな言語/スクリプトサポートを提供トレーニングデータセットたとえば、Frakturのデータセットもあります。
新しいLSTMモデルにより、Tesseractはオクロフォース発明プロジェクト。
高品質の入力画像でも、Tesseractバージョン3のパフォーマンスは比較的低いです。つまり、ほこりピクセル(テキストコンテキストの外側)で単一の文字を誤って検出することがよく、よく知られている単語に単一の文字を簡単に導入します。
楔形文字
楔形文字OCRのパフォーマンスはあまり悪くありませんが、積極的に維持されておらず(最終リリース:2011、バージョン1.1)、簡単にクラッシュし、いくつかの異なる問題があります。
- セグメンテーションエラーそして様々なパッケージそして解放する
- レイアウトアルゴリズムは単に破損しています。つまり、文書列内で段落がランダムに混在することがよくあります。
- 不明なオプションが原因でエラーは発生しません。
次のようにレイアウトアルゴリズムを無効にできます。
$ cuneiform --singlecolumn -l ger -f text -o foo.txt image-0001
(-l
元の文書の言語を指定してください)
オクラッド
オクラッド呼び出しの例:
$ ocrad -F utf8 image-0001
テキストはデフォルトで標準出力として印刷されます。
ビジネス文書では、cuneiform/tesseract/gocrにはない下線付きの単語がありません。
Ocrad マニュアルには次の情報が含まれています。使用されるアルゴリズム、例えば:
5)文字を検出し、行ごとにグループ化します。
6)文字を識別します(非常に一時的な、1文字あたり1つのアルゴリズム)。
7)いくつかのあいまいさを修正します(l.OOOを1.000に変換するなど)。
GOCR
GOCR呼び出しの例:
$ gocr image-0001
テキストはデフォルトで標準出力として印刷されます。
GOCR文書には、OCRで使用されるモデル/方法の詳細は含まれていません。
ハードウェア
精神以下の一部の自動文書フィード(ADF)スキャナーのサポートに優れています。ビジョンそして富士通それら。
Saneには、スクリプト化されscanimage
たスキャンパイプラインを構築するために使用できるコマンドラインプログラムが含まれています(例:myadf2pdf.py
スクリプト)。