ファイルマネージャのコンテキストメニューのtesseractスクリプトの作成

Question

私の考えでは、これがバグのためかもしれないと思います。正八砲体。したがって、代替ソリューションは次のようになります。

for filename in "${@}"; do
name="${filename%.*}"
ext="${filename##*.}"
output="${name}-alpha.${ext}"
convert "$filename" -alpha off "$output"
mv "$output" "$filename"
dpi="$(identify -units "PixelsPerInch" -format "%x\n" "$filename" | xargs printf "%.*f\n" "0")"
ocrmypdf -l eng --image-dpi "$dpi" "$filename" "${name}.pdf"
pdftotext -q "${name}.pdf"
ocr_txt="$(cat "${name}.txt" | sed -e "s///g" -e "s/\t/ /g" -e "s/  / /g" -e "/^\s*$/d")"
kdialog --title "Image OCR Text" --msgbox "$ocr_txt"
rm "${name}.pdf" "${name}.txt"

完璧

これにより、ocrmypdfに必要な透明度（アルファ）チャンネルが削除されます。より良い結果を得るには、画像dpi解像度を渡し、ocrmypdfを使用して画像をOCRテキストレイヤーを含むPDFに変換し、最後にダイアログボックステキストに表示します。。

Answer 1

私の考えでは、これがバグのためかもしれないと思います。正八砲体。したがって、代替ソリューションは次のようになります。

for filename in "${@}"; do
name="${filename%.*}"
ext="${filename##*.}"
output="${name}-alpha.${ext}"
convert "$filename" -alpha off "$output"
mv "$output" "$filename"
dpi="$(identify -units "PixelsPerInch" -format "%x\n" "$filename" | xargs printf "%.*f\n" "0")"
ocrmypdf -l eng --image-dpi "$dpi" "$filename" "${name}.pdf"
pdftotext -q "${name}.pdf"
ocr_txt="$(cat "${name}.txt" | sed -e "s///g" -e "s/\t/ /g" -e "s/  / /g" -e "/^\s*$/d")"
kdialog --title "Image OCR Text" --msgbox "$ocr_txt"
rm "${name}.pdf" "${name}.txt"

完璧

これにより、ocrmypdfに必要な透明度（アルファ）チャンネルが削除されます。より良い結果を得るには、画像dpi解像度を渡し、ocrmypdfを使用して画像をOCRテキストレイヤーを含むPDFに変換し、最後にダイアログボックステキストに表示します。。

ファイルマネージャのコンテキストメニューのtesseractスクリプトの作成

ベストアンサー1

おすすめ記事