OSX、Homebrewはpdftotext
動作しますが、段落の区切りを尊重しません。-pagebrk
、、、-eol mac
を試してみましたが、-eol unix
段落分割の問題が常に続くようです。これが典型的な問題ですか?
ベストアンサー1
PDFは、テキストが必ずしも合理的な順序になっていない奇妙なものです。
pdftotext-layout
オプションを試してください。
PDFに応じて、完全に読みやすいマルチ列テキストファイルを提供できますが、特に80列を超えるワイドスクリーンモニタの場合は、単一列テキストがより便利です。
-
複数のテキスト列を単一の列に変換する最も簡単な方法は、vimを使用してテキストを編集し、列間にTABを挿入し、perlスクリプトを作成して列を各ページの1列にマージすることです(ページはフォームフィードとして区切り、^L
)。これは時間がかかり、退屈する可能性があります。
これを行うためにPerlスクリプトを作成しようとする最初の試みは、列間の空白文字の数で列を識別しようとしましたが、残念ながらこれは1〜2個の空白文字から5個以上に増えました。同じ事実があります)。余分なスペースがあるため、単語間の通常のスペースと列の間のスペースを自動的に区別する方法はありません。pdftotext
出力のテーブルをまったく処理できません。
TAB文字を手動で編集して挿入し、列を分割する方がはるかに簡単です。 vi / vimを使用すると、これらの繰り返し編集が非常に簡単になります。 TABを挿入するのに便利なカーソル位置を見つけて、キーを押してカーソルをCtrl-V
ページまたはセクションの下に移動します。編集中にキーを押すと、選択したrTAB
vim列がタブに置き換えられます。
最後に、あなたのコメントでは、出力テキストにUnicode文字「右側の一重引用符」(U + 2019)が表示されていると述べました。これは完全に正常な現象です。多くの(ほとんど?)PDFにはASCII文字に限定されないため、Unicode文字(スマート引用符、ダッシュ、楕円など)が含まれています。