wgetコマンドの後に得られたすべてのhtmlファイルをテキストファイルに変換するには？

Question

wgetおそらく正しいツールではないでしょう。 Lynxはファイルをダウンロードして同時にプレーンテキストに変換できますが、出力をファイルにリダイレクトしてこれを行います。オプションがないため、-output出力名を指定する必要があるため、スクリプトで使用するのはやや厄介です。

ただし、.htmlディレクトリがファイルでいっぱいであると仮定すると、ディレクトリをfind繰り返して、次のようにファイルを変換できます。

#!/bin/sh
find . -type f -name '*.htm*' | while IFS= read path
do
    lynx -dump "$path" >"${path%%.htm*}.txt"
done

".txt"ファイルを同じツリーに配置するか、

#!/bin/sh
find . -type f -name '*.htm*' | while IFS= read path
do
    target=${path/foobar/test}
    lynx -dump "$path" >"${target%%.htm*}.txt"
done

「test」フォルダにあります（「foobar」を「test」にマッピング）。「/」置換は bash に固有のもので、POSIX にはありません (ただし、sedPOSIX を使用することを選択した場合はうまく機能します)。

追加資料：

Answer 1

wgetおそらく正しいツールではないでしょう。 Lynxはファイルをダウンロードして同時にプレーンテキストに変換できますが、出力をファイルにリダイレクトしてこれを行います。オプションがないため、-output出力名を指定する必要があるため、スクリプトで使用するのはやや厄介です。

ただし、.htmlディレクトリがファイルでいっぱいであると仮定すると、ディレクトリをfind繰り返して、次のようにファイルを変換できます。

#!/bin/sh
find . -type f -name '*.htm*' | while IFS= read path
do
    lynx -dump "$path" >"${path%%.htm*}.txt"
done

".txt"ファイルを同じツリーに配置するか、

#!/bin/sh
find . -type f -name '*.htm*' | while IFS= read path
do
    target=${path/foobar/test}
    lynx -dump "$path" >"${target%%.htm*}.txt"
done

「test」フォルダにあります（「foobar」を「test」にマッピング）。「/」置換は bash に固有のもので、POSIX にはありません (ただし、sedPOSIX を使用することを選択した場合はうまく機能します)。

追加資料：

おすすめ記事