次の形式のHTMLリンクのリストを含む単純なテキストファイルがあります。
<a href="https://xxxxxxxx" target="_blank" rel="">This_is_a_test001</a><br />
キーワードのリストを含む2番目のテキストファイル。 2番目のファイルのキーワードと一致しない最初のファイルから完全な行を抽出したいと思います。どのツールやスクリプト言語を使用してもよいです。
ベストアンサー1
grep -vFf keywords.txt file.txt
file.txt
行を含まない行が一覧表示されますkeywords.txt
。
awk -F '[<>]' '!x{k[$0]; next}; ! ($3 in k)' keywords.txt x=1 file.txt
またはfile.txt
、2番目と3番目の発生の間に見つからない部分がある行を一覧表示します。<
>
keywords.txt