grep、sed、awkを使用してhtmlをフィルタリングしようとしています。

Question

すでに述べたように正規表現は HTML の解析には適していません。。他に似ている回答分析これを行うには、次のようなRubyステートメントを作成できます。必要であることを参考にしてくださいノコチェgem（）としてインストールできますsudo gem install nokogiri。

ruby -rnokogiri -e 'Nokogiri::HTML(readlines.join).css("tr").each { |tr| tr.xpath(".//td").take(3).each { |td| puts td.content } }' sample.html

指定されたファイル（この場合はサンプル.html）を読み取り、すべてのtr要素をインポートしてから、各td要素の最初の3つの要素の内容を印刷します。

あなたの例では、次のように出力されます。

1988年
ネルソンマンデラネルソンマンデラ
南アフリカ
1988年
アナトリ・マルチェンコ アナトリ・マルチェンコ（事後）
ソ連

問題は、名前が2回含まれる行です。たとえば（読みやすくフォーマットされています）

<td>
  <span style="display:none;">Mandela, Nelson</span>
  <span class="vcard"><span class="fn">
      <a href="/wiki/Nelson_Mandela" title="Nelson Mandela">Nelson Mandela</a>
    </span>
  </span>
</td>

ここで名前はspanwithで最初に表示され、もう1つはstyle="display:none;"再び表示されますspan。要素内にない名前だけを抽出する方法がわかりませんstyle="display:none;。（私は見つけたhttps://stackoverflow.com/q/6096327/789593そしてhttps://stackoverflow.com/q/11602077/789593しかし、彼らは正しいスキルを説明しません。たぶん誰かが解決策を提案するかもしれません。http://nokogiri.org/Nokogiri/XML/Node.html？ )

Answer 1

すでに述べたように正規表現は HTML の解析には適していません。。他に似ている回答分析これを行うには、次のようなRubyステートメントを作成できます。必要であることを参考にしてくださいノコチェgem（）としてインストールできますsudo gem install nokogiri。

ruby -rnokogiri -e 'Nokogiri::HTML(readlines.join).css("tr").each { |tr| tr.xpath(".//td").take(3).each { |td| puts td.content } }' sample.html

指定されたファイル（この場合はサンプル.html）を読み取り、すべてのtr要素をインポートしてから、各td要素の最初の3つの要素の内容を印刷します。

あなたの例では、次のように出力されます。

1988年
ネルソンマンデラネルソンマンデラ
南アフリカ
1988年
アナトリ・マルチェンコ アナトリ・マルチェンコ（事後）
ソ連

問題は、名前が2回含まれる行です。たとえば（読みやすくフォーマットされています）

<td>
  <span style="display:none;">Mandela, Nelson</span>
  <span class="vcard"><span class="fn">
      <a href="/wiki/Nelson_Mandela" title="Nelson Mandela">Nelson Mandela</a>
    </span>
  </span>
</td>

ここで名前はspanwithで最初に表示され、もう1つはstyle="display:none;"再び表示されますspan。要素内にない名前だけを抽出する方法がわかりませんstyle="display:none;。（私は見つけたhttps://stackoverflow.com/q/6096327/789593そしてhttps://stackoverflow.com/q/11602077/789593しかし、彼らは正しいスキルを説明しません。たぶん誰かが解決策を提案するかもしれません。http://nokogiri.org/Nokogiri/XML/Node.html？ )

grep、sed、awkを使用してhtmlをフィルタリングしようとしています。

ベストアンサー1

おすすめ記事