WebページのコンテンツをWebページとまったく同じテキストファイルにダウンロードする方法は?

WebページのコンテンツをWebページとまったく同じテキストファイルにダウンロードする方法は?

Webページからいくつかの情報を抽出しようとしています。名前(ロシア北部中央シベリア)があり、Webページからその名前を含む行全体を抽出するとします。この問題を解決するために、lynxコマンド()を使用してhttps://geofon.gfz-potsdam.de/eqinfo/list.phpWebページ()をテキストファイルとしてダウンロードlynx --dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txtし、「North Central Syria、Russia」という名前の行をgrepしようとしました。次の行はWebページの情報を示しており、すべての情報は連続しています。

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A       Northcentral Siberia, Russia

ただし、Webページをテキストファイルとしてダウンロードすると、上記の行は次のように2行に分割されます。

2018-05-27 04:27:17 4.8 60.07°N 128.42°E    10  A   Northcentral 
Siberia, Russia

この場合、フルネーム(ロシア北部シベリア)とgrepを使用して行を抽出しようとすると失敗します。この問題にどのように対処する必要がありますか?

ベストアンサー1

-dumpその理由は、そのオプションを使用すると、lynx「画面」の幅が80列で、Webページの表形式などによって改行が発生すると仮定するためです。

パラメータを追加すると-width正しく機能します。

lynx -width=200 -dump "https://geofon.gfz-potsdam.de/eqinfo/list.php" > text.txt

おすすめ記事