textutilはPDFをtxtに変換し、誤った出力を生成します。

textutilはPDFをtxtに変換し、誤った出力を生成します。

.pdfを使用してPDFファイルをテキストファイルに変換しようとしていますtextutil。変換可能または変換できない特別な種類のPDFがあるかどうかわかりません。変換したいファイルは検索可能な形式ですが、これが最小要件であると思います。ファイルを変換すると、テキストファイルの出力が出力された後に歪みます。これは私のコードです。

textutil -convert txt example.pdf

私が間違っている部分を判断するのに役立つ場合に備えて、最初の行の内容は次のとおりです。

%PDF-1.3
%ƒÂÚÂÎßÛ†–ƒ∆
4 0 obj
<< /Length 5 0 R /Filter /FlateDecode >>
stream
xÌõYè‹∏«flı)8>2”„å,R%Ÿªõ¯fixs9ôM‚<YÅ`„Ô‰W,J¢‘íF3”@^2Z›<ädˇ:(ˇl>òüçuπ´Í¶ñ¶nõº.⁄⁄         
4>~˘œ?Ã_ÕøÕ”W_≠˘Ù’·fl◊OL.ò´øÂKI5ÖÀª∫*≥O_ÃÀk”‘aH|\1OØØù
±Ê˙'sqv0◊ˇ2oÆ√Vñ©˘÷Êmy2jæ»;P+Ú¢(*s˝ikó3>z¸ãõæ8;èè˙΄·ê—z~=|  
¯D˝rËî)WÈå<˝¡ÒˇnÆfl/3¿’UnõÆ4~∫Á;Ú”µ≠J˙4‰JWùîgz8€]êªA@g¸≠kRŸ¯‹÷ùàëeÁÔπUŸÓ÷Ü´≤Œ

私はこれが私の専門分野ではないいくつかのコーディング機能に関連していると思うので、助けてくれてありがとう。

ベストアンサー1

引用するTEXTUTIL(1) マニュアルページ そうだPDFこのユーティリティで管理されていない形式間: fmt is one of: txt, html, rtf, rtfd, doc, docx, wordml, odt, or webarchive

Linux/Unix にスクリプト可能な製品をインストールします。XPPDF/pdftotext いくつかのコメントで提案したように、有効な解決策かもしれません。

OS Xユーザーの場合、基本OS Xオートメーションを使用してPDFからテキストを抽出できます。(..バラよりこの回答またはこのチュートリアルの最後の4 ')次のことで、自動化されたワークフローを「スクリプト」できると思います。CLI自動コマンド

おすすめ記事