grepのさまざまな出力を取得する方法は？

Question

コメントで述べたように、grep（構造化されていないテキスト文書から行を抽出するユーティリティ）は、通常、HTMLや構造化文書を解析するために使用したいツールではありません。理想的には、構造化クエリをドキュメントに適用し、データを抽出、変更、または処理できるツールを使用することをお勧めします。 XML文書の場合、これらのコマンドラインツールの1つは、xmlstarletそれを使用して適用できることです。XPathクエリXML文書として。

divHTML文書が正しいXHTMLであると仮定すると、class値が属性であるノードの内容を抽出し、power-bar-text両方のスペースを削除できます。

xmlstarlet select --template \
    --match '//div[@class="power-bar-text"]' \
    --value-of 'normalize-space()' -nl file.xml

これは最初にdiv関心のあるノードを一致させ、次にこれらの一致normalize-space()するノードに適用された関数の結果を抽出します。最後に、-nl各出力を改行文字で区切ります。

または短いオプションを使用してください。

xmlstarlet sel -t \
    -m '//div[@class="power-bar-text"]' \
    -v 'normalize-space()' -n file.xml

表示した文書の一部を考慮すると、次のように出力されることがあります。

これは、カンマで区切られた1行に渡すことによって実行できます。

paste -d , -s -

...このように：

$ xmlstarlet sel -t -m '//div[@class="power-bar-text"]' -v 'normalize-space()' -n file.xml | paste -d , -s -
9,8,11.25,10,6,5,2 (1s),3,2.50

コマンドの各出力行にある最初のスペースの前にのみ操作を実行するには、いくつかの追加処理を追加しますxmlstarlet。

$ xmlstarlet sel -t -m '//div[@class="power-bar-text"]' -v 'normalize-space()' -n file.xml | sed 's/ .*//' | paste -d , -s -
9,8,11.25,10,6,5,2,3,2.50

ファイルがXHTMLでない場合は、次を使用して利用可能なファイルに変換できます。

xmlstarlet format --recover --html file.html >file.xml

Answer 1