BashでHTMLを解析する（grepが不十分な場合）

Question

フィルタファイルを使用します。tidy、各最上位タグを別々の行に配置し、このタイプのスクリプト（Perlなど）に適したものを使用してタグを処理します。 sed変更が非常に簡単な場合に最も便利です。

たとえば、このページの一部（フィルタリング後）は次のようになります（tidy -wrap 4096改行を減らすために使用されます）。

<body class="question-page new-topbar">
<noscript>
<div id="noscript-padding"></div>
</noscript>
<div id="notify-container"></div>
<div id="overlay-header"></div>
<div id="custom-header"></div>
<div class="topbar">
<div class="topbar-wrapper">
<div class="js-topbar-dialog-corral">
<div class="topbar-dialog siteSwitcher-dialog dno">
<div class="header">
<h3><a href="//unix.stackexchange.com">current community</a></h3>
</div>
<div class="modal-content current-site-container">
<ul class="current-site">

タグ"a"などはインラインですが、ページ構造が使いやすくなります。

このページには「ダウンロード」を使用しましたlynx -source。ただし、利用可能なツールはいくつかあり、wgetこのcurl目的でより一般的に使用されます。

Answer 1

フィルタファイルを使用します。tidy、各最上位タグを別々の行に配置し、このタイプのスクリプト（Perlなど）に適したものを使用してタグを処理します。 sed変更が非常に簡単な場合に最も便利です。

たとえば、このページの一部（フィルタリング後）は次のようになります（tidy -wrap 4096改行を減らすために使用されます）。

<body class="question-page new-topbar">
<noscript>
<div id="noscript-padding"></div>
</noscript>
<div id="notify-container"></div>
<div id="overlay-header"></div>
<div id="custom-header"></div>
<div class="topbar">
<div class="topbar-wrapper">
<div class="js-topbar-dialog-corral">
<div class="topbar-dialog siteSwitcher-dialog dno">
<div class="header">
<h3><a href="//unix.stackexchange.com">current community</a></h3>
</div>
<div class="modal-content current-site-container">
<ul class="current-site">

タグ"a"などはインラインですが、ページ構造が使いやすくなります。

このページには「ダウンロード」を使用しましたlynx -source。ただし、利用可能なツールはいくつかあり、wgetこのcurl目的でより一般的に使用されます。

BashでHTMLを解析する（grepが不十分な場合）

ベストアンサー1

おすすめ記事