awk コマンドは、一致するパターンから次の行を取得し、2 つのパターン間の文字列を切り捨てます。

Question

lynx -dumpHTMLをプレーンテキストに変換し、フィールド区切りawk文字を改行文字（\n）に設定し、レコード区切り文字を複数の改行文字（\n\n+）に設定して出力形式を再指定します。

sub()スクリプトの関数呼び出しは、awk目的の出力を印刷する前に不要なスペースを削除します。

$ lynx -dump ramp.html | 
    awk -v RS='\n\n' -F'\n' '/^[[:space:]]+/ {
        sub(/^ +/,"",$1);
        sub(/ +/," ",$2);
        print $1":"$2
    }'
Commodity Orgin: uerb45e001.material.com
Commodity Code & Dimension: 151151.15 Dim 90
Commodity Serial #: 2009081020
Client Name: Jack

XMLやHTMLを解析することは決して良いアイデアではないので、私はこれが本当に好きではありません。正規表現の使用。それ動作しません。動作しているように見えるようにハッキングできるとしても、非常に脆弱です。〜するHTMLやXMLが正規表現が探しているものから十分に変更されると中断されます。実際のXMLまたはHTMLパーサーは次のとおりです。ただタスクを正しく実行すること。

ただし、以下はUNIXシリーズシステムで利用可能なsedいくつかのツールです。fmt

$ sed -e '/<d[td]\|^[[:blank:]]*$/!d
          s/<[^>]*>//g;
          s/^ *//;
          /^\(Commodity\|Client\)/ s/$/:/' ramp.html | 
      fmt |
      sed -e '/^[[:blank:]]*$/d'
Commodity Orgin: uerb45e001.material.com
Commodity Code & Dimension: 151151.15 Dim 90
Commodity Serial #: 2009081020
Client Name: Jack

最初のsedスクリプトはすべての行を削除します。とは別に<DT>または、タグを含む空白行と行が<DD>ある場合は、入力からすべてのHTMLタグが削除され、先行スペースが削除され、:フィールド名行の末尾にが追加されます。次に、出力をsedパイプで接続してfmt行形式を再指定し、sed空白行を削除します。

これはハッキングであり、あなたが提供したサンプル入力を正確に処理することだけが保証されます。大きな違いがあると、スクリプトが破損する可能性があります。これは、正規表現を使用して最も単純なHTMLまたはXMLを除くすべての項目を解析するときに発生する現象です。

Answer 1

lynx -dumpHTMLをプレーンテキストに変換し、フィールド区切りawk文字を改行文字（\n）に設定し、レコード区切り文字を複数の改行文字（\n\n+）に設定して出力形式を再指定します。