パターンに基づいて文字を抽出しますが、2つの範囲の開始パターンと共通の終了パターンの間でのみ文字を抽出します。

Question

ここに解決策がありますawk。この機能を実装するにはGNU awkが必要ですgensub()。

awk '$0=="EMC" {s=0} s{print FNR, gensub(/[^(]*\((.)\)[^(]*/, "\\1", "g")} /^\/(Span|H1) <<\/MCID$/ {s=1}' test.pdf

s/Spanこれは、ORで始まり、/H1次にORで終わる行で定義された開始パターンが見つかった場合、フラグを1に設定します<</MCID。EMC以下を含む行が見つかると、このフラグはリセットされます。

この範囲（つまり、s1の場合）内でこの関数を使用して、「a以外の文字の数に関係なく、その後にa以外の文字が続きます」パターンをgensub()次に含まれる文字に置き換えます。。次に、現在の行番号と抽出されたテキストを印刷します。(( )(( )

ノートこれは、以下があることを意味します。いいえ開始線と終了線の間にはこのパターンの線はありません。

Answer 1

ここに解決策がありますawk。この機能を実装するにはGNU awkが必要ですgensub()。

awk '$0=="EMC" {s=0} s{print FNR, gensub(/[^(]*\((.)\)[^(]*/, "\\1", "g")} /^\/(Span|H1) <<\/MCID$/ {s=1}' test.pdf

s/Spanこれは、ORで始まり、/H1次にORで終わる行で定義された開始パターンが見つかった場合、フラグを1に設定します<</MCID。EMC以下を含む行が見つかると、このフラグはリセットされます。

この範囲（つまり、s1の場合）内でこの関数を使用して、「a以外の文字の数に関係なく、その後にa以外の文字が続きます」パターンをgensub()次に含まれる文字に置き換えます。。次に、現在の行番号と抽出されたテキストを印刷します。(( )(( )

ノートこれは、以下があることを意味します。いいえ開始線と終了線の間にはこのパターンの線はありません。

おすすめ記事