数字だけを認識するために使用したいのですtesseract
が、問題は数字と文字が混在していて、SetVariable("tessedit_char_whitelist", "0123456789")
すべての記号に使用すると、Tesseract が間違った数字を返すことです。
tesseract
類似度の低いシンボルを省略するようにしきい値を設定できますか?
注: tesseract
O と 0 が混同されないように、数字のみを認識するように設定しました。
ベストアンサー1
数字だけを認識することは実際にはテッセラクトに関するよくある質問ページを参照してください。詳細についてはそのページを参照してください。ただし、バージョン 3 パッケージをお持ちの場合は、構成ファイルは既に設定されています。コマンドラインで次のように指定するだけです。
tesseract image.tif outputbase nobatch digits
しきい値については、どちらを指しているのかわかりません。入力が珍しいフォントである場合は、入力のサンプルを使用して再トレーニングするとよいかもしれません。別の方法としては、Tesseract のプルーニングしきい値を変更することです。どちらのオプションも FAQ に記載されています。