シェルで何百ものHTMLソースコードファイルを解析する方法は?

シェルで何百ものHTMLソースコードファイルを解析する方法は?

何百ものHTMLソースコードファイルがあります。各ファイルから特定の要素のコンテンツを抽出する必要があるため、<div>各ファイルを繰り返すスクリプトを作成します。要素構造は次のとおりです。

<div id='the_div_id'>
  <div id='some_other_div'>
  <h3>Some content</h3>
  </div>
</div>

the_div_idLinuxコマンドラインを使用してファイルからdivとすべての子要素とコンテンツを抽出する方法を提案できる人はいますか?

ベストアンサー1

これhtml-xml-utilsこのパッケージは、ほとんどの主要なLinuxディストリビューションで利用可能であり、HTMLおよびXMLドキュメントの操作に役立つ多くのツールが含まれています。あなたの場合に特に便利なのは、hxselect標準入力から読み取ってCSSセレクタに基づいて要素を抽出することです。使用例は次のとおりです。

hxselect '#the_div_id' <file

お客様が提供した内容によっては、誤った入力形式に関する苦情が発生することがあります。この苦情は標準エラーに対して提供されるため、必要に応じて簡単に抑制できます。代わりに、PerlのHTML :: PARSERパッケージを使用することです。しかし、私はこれを私よりもPerlの技術があまり錆びていない人に任せます。

おすすめ記事