ユーティリティを使用してpdftotext
PDFファイルをテキストに変換します。
pdftotext *.pdf *.txt
操作はしますが、線が正しく機能せず、機能しないときに新しい線を作成します。これを行うことができる他のユーティリティはありますか?そうでなければ、sed
新しい行を殺すのが役に立ちますか?
ベストアンサー1
あなたが望むものに依存します。たとえば、
目次が忠実に表示されるようにレイアウトを維持したい場合は、この-layout
フラグを使用できます。ネイティブストリームが必要な場合はこの-raw
フラグがありますが、必要なだけ効率的には機能しません。まず、テキストファイルに変換することをお勧めします。たとえば、見てみましょうtest.pdf
。次に、
$ pdftotext test.pdf test.txt
これにより、pdftotextユーティリティの出力を含むtest.txtというファイルが生成されます。次に、新しく生成されたテキストファイルにPerlコードを書きます。
$ perl -0pe "s/([^\n])\n([^\n])/\1 \2/g;" test.txt > final.txt
これでわかります。ファイルfinal.txt
には必要な内容が必要です。 Perlコードをそのままコピーし、必要に応じてファイル名を変更できます。お役に立てば幸いです。