HTMLなしでwgetを使用してページテキストを取得するには?

HTMLなしでwgetを使用してページテキストを取得するには?

Webページでwgetを試みると、htmlページが表示されます。関連付けられたHTMLなしでファイル内のテキストのみを検索できますか? (cプログラムを含む一部のHTMLページはhtmlタグを介してダウンロードされたため、これは私に必要でした。.cファイルを作成するには、ブラウザでそのページを開き、手動でテキストをコピーする必要がありました。)

ベストアンサー1

wget文書のみが検索されます。文書がHTML形式の場合、必要なのは文書を解析した結果です。

たとえば、lynx -dump -nolist周囲にサルコがある場合に使用できます。

lynx-dump解析プロセスの結果を出力する機能を備えた軽量でシンプルなWebブラウザです。-nolistページにハイパーリンクがある場合は、最後に表示されるリンクのリストを避けてください。

@Thorが述べたように、elinksオプションもあるので、この目的にも使用できます-dump-no-referencesリンクされたリストは省略する必要があります)。 -sigh-frames(MTFBWY)を使用して特定のサイトを通過するときに特に便利です。

また、ページが実際にHTMLマークアップを含むCコードではない限り、結果を確認してCコード以外に何もないことを確認する必要があることに注意してください。

おすすめ記事