多くのURLシリーズの長いリストから、同じドメインを持つシリーズの最後のURLを除くすべてのエントリを削除します。

Question

これを行うことができます：

cat input.txt | \
gawk -e '{match($0, /(https?:\/\/(?:www.)?[a-zA-Z0-9-]+?[a-z0-9.]+)/, url)} \
!a[url[1]]++{ \
    b[++count]=url[1] \
} \
{ \
    c[url[1]]=$0 \
} \
END{ \
    for(i=1;i<=count;i++){ \
        print c[b[i]] \
    } \
}' > output.txt

正規表現はおそらく簡単になり、ドメイン名のより多くのバリエーションを捉えることができますが、私の場合はうまくいきます。このawkコマンドは以下で修正されました。これ答え。（興味深いことに、誰かが私の質問から「bash」タグを削除しましたが、私に本当に役に立った答えには「bash」タグが付いていました...

これについてさらに考えると、一致するドメインを最後に別の「フィールド」として追加するために質問を使用し、一意のソートを使用して最後のドメインを選択し、最後にドメイン「フィールド」を削除するか、むしろ次を使用することもできますあると思います。 Askは、ソート後に一意の元のURLである最初の「フィールド」のみを印刷します。

Answer 1

これを行うことができます：

cat input.txt | \
gawk -e '{match($0, /(https?:\/\/(?:www.)?[a-zA-Z0-9-]+?[a-z0-9.]+)/, url)} \
!a[url[1]]++{ \
    b[++count]=url[1] \
} \
{ \
    c[url[1]]=$0 \
} \
END{ \
    for(i=1;i<=count;i++){ \
        print c[b[i]] \
    } \
}' > output.txt

正規表現はおそらく簡単になり、ドメイン名のより多くのバリエーションを捉えることができますが、私の場合はうまくいきます。このawkコマンドは以下で修正されました。これ答え。（興味深いことに、誰かが私の質問から「bash」タグを削除しましたが、私に本当に役に立った答えには「bash」タグが付いていました...

これについてさらに考えると、一致するドメインを最後に別の「フィールド」として追加するために質問を使用し、一意のソートを使用して最後のドメインを選択し、最後にドメイン「フィールド」を削除するか、むしろ次を使用することもできますあると思います。 Askは、ソート後に一意の元のURLである最初の「フィールド」のみを印刷します。

多くのURLシリーズの長いリストから、同じドメインを持つシリーズの最後のURLを除くすべてのエントリを削除します。

ベストアンサー1

おすすめ記事