改行なしでPDFファイルをテキストに変換する方法

改行なしでPDFファイルをテキストに変換する方法

ユーティリティを使用してpdftotextPDFファイルをテキストに変換します。

pdftotext *.pdf *.txt

操作はしますが、線が正しく機能せず、機能しないときに新しい線を作成します。これを行うことができる他のユーティリティはありますか?そうでなければ、sed新しい行を殺すのが役に立ちますか?

ベストアンサー1

あなたが望むものに依存します。たとえば、
目次が忠実に表示されるようにレイアウトを維持したい場合は、この-layoutフラグを使用できます。ネイティブストリームが必要な場合はこの-rawフラグがありますが、必要なだけ効率的には機能しません。まず、テキストファイルに変換することをお勧めします。たとえば、見てみましょうtest.pdf。次に、

$ pdftotext test.pdf test.txt

これにより、pdftotextユーティリティの出力を含むtest.txtというファイルが生成されます。次に、新しく生成されたテキストファイルにPerlコードを書きます。

$ perl -0pe "s/([^\n])\n([^\n])/\1 \2/g;" test.txt > final.txt

これでわかります。ファイルfinal.txtには必要な内容が必要です。 Perlコードをそのままコピーし、必要に応じてファイル名を変更できます。お役に立てば幸いです。

おすすめ記事