Pdftotextは段落分割を行いません。

Question

PDFは、テキストが必ずしも合理的な順序になっていない奇妙なものです。

pdftotext-layoutオプションを試してください。

PDFに応じて、完全に読みやすいマルチ列テキストファイルを提供できますが、特に80列を超えるワイドスクリーンモニタの場合は、単一列テキストがより便利です。

-

複数のテキスト列を単一の列に変換する最も簡単な方法は、vimを使用してテキストを編集し、列間にTABを挿入し、perlスクリプトを作成して列を各ページの1列にマージすることです（ページはフォームフィードとして区切り、^L）。これは時間がかかり、退屈する可能性があります。

これを行うためにPerlスクリプトを作成しようとする最初の試みは、列間の空白文字の数で列を識別しようとしましたが、残念ながらこれは1〜2個の空白文字から5個以上に増えました。同じ事実があります）。余分なスペースがあるため、単語間の通常のスペースと列の間のスペースを自動的に区別する方法はありません。pdftotext出力のテーブルをまったく処理できません。

TAB文字を手動で編集して挿入し、列を分割する方がはるかに簡単です。 vi / vimを使用すると、これらの繰り返し編集が非常に簡単になります。 TABを挿入するのに便利なカーソル位置を見つけて、キーを押してカーソルをCtrl-Vページまたはセクションの下に移動します。編集中にキーを押すと、選択したrTABvim列がタブに置き換えられます。

最後に、あなたのコメントでは、出力テキストにUnicode文字「右側の一重引用符」（U + 2019）が表示されていると述べました。これは完全に正常な現象です。多くの（ほとんど？）PDFにはASCII文字に限定されないため、Unicode文字（スマート引用符、ダッシュ、楕円など）が含まれています。

Answer 1

PDFは、テキストが必ずしも合理的な順序になっていない奇妙なものです。