リンクされたHTMLファイルをPDFファイルに変換しますか?

リンクされたHTMLファイルをPDFファイルに変換しますか?

変換したいオンラインブック(htmlファイル(リンクされたhtmlファイルを含む)をpdfファイルに変換できます。

2段階のアプローチを試しました。http://kmkeen.com/mirror/2009-02-05-14-00-00.html

  1. まず、次のようにhtmlファイルをダウンロードしてください。

    wget -nd -mk http://www.unknownroad.com/rtfm/gdbtut/
    

    しかし、関係のないファイルをたくさんダウンロードしました。したがって、関係のないファイルを削除する必要があります。

  2. その後、ダウンロードしたHTMLブックをPDFファイルに変換しようとします。

    htmldoc --webpage -f gdb.pdf html/index.html html/*.html
    

    ところで、PDFファイルのページ順序が正しくありません。

オンラインブック(リンクされたHTMLファイル)をダウンロードしてPDFファイルに変換する良い方法が何であるかを知りたいです。

私のオペレーティングシステムはUbuntu 12.04です。

ベストアンサー1

リンクされた説明に記載されているように:

デフォルトのグローバル拡張はページをアルファベット順にソートします。

インデックスページは、名前がアルファベット順になっていない9つの異なる文書にリンクされています。と言うと、htmldoc ... *.htmlツールはその順序でページを表示し、アルファベット順に文書にページを配置します。htmldoc処理する順序でコマンドラインにファイルを一覧表示する必要があります。

この特別なケースでは、次のようにインデックスにリンクされているファイル名の順序付きリストを生成できます。

awk '/http:|\.\./ {next}; /<a href.*\.html/ { gsub(/.*href="/, "") ; gsub(".html.*", ".html") ; print }' index.html | uniq

だから

htmldoc --webpage -f gdb.pdf index.html $(awk '/http:|\.\./ {next}; /<a href.*\.html/ { gsub(/.*href="/, "") ; gsub(".html.*", ".html") ; print }' index.html | uniq)

お好みの効果を得ることができます。

おすすめ記事