スペースと改行文字を無視し、同じファイルを一緒にクラスタリングします。

Question

以下を使用して、各XMLファイルの「完全修飾」バージョンを作成できます。

xmllint --nospace --format orginal.xml > normalized.xml

これにより、XMLに「重要ではない」スペース、一貫したインデントなどが削除されます。後でcksum同じものを見つけるために使用することができます正規化文書。

私はスクリプトを提案したいと思います：

for ORIGXML in *.xml
do
    xmllint --noblank --format "$ORIGXML" > "normalized.$ORIGXML"
    cksum "normalized.$ORIGXML" | sed 's/^normalized\.//' >> files.list
done
sort -k1.1 files.list > sorted.files

MD5チェックサムが必要かどうかはわかりません。あなたはあなたに反対する邪悪な相手との暗号化ではなく重複を探しています。

「ほぼ同じ」XMLファイルを探している場合は、次のものを使用できます。標準化された圧縮距離ファイルが互いにどれだけ離れているか確認してください。より簡単には、XMLファイルをgzipソートbzip2してから、圧縮ファイルのサイズに基づいてソートすることができます。圧縮されたファイルサイズが近いほど、XMLファイルはより似ています。

Answer 1

以下を使用して、各XMLファイルの「完全修飾」バージョンを作成できます。

xmllint --nospace --format orginal.xml > normalized.xml

これにより、XMLに「重要ではない」スペース、一貫したインデントなどが削除されます。後でcksum同じものを見つけるために使用することができます正規化文書。

私はスクリプトを提案したいと思います：

for ORIGXML in *.xml
do
    xmllint --noblank --format "$ORIGXML" > "normalized.$ORIGXML"
    cksum "normalized.$ORIGXML" | sed 's/^normalized\.//' >> files.list
done
sort -k1.1 files.list > sorted.files

MD5チェックサムが必要かどうかはわかりません。あなたはあなたに反対する邪悪な相手との暗号化ではなく重複を探しています。

「ほぼ同じ」XMLファイルを探している場合は、次のものを使用できます。標準化された圧縮距離ファイルが互いにどれだけ離れているか確認してください。より簡単には、XMLファイルをgzipソートbzip2してから、圧縮ファイルのサイズに基づいてソートすることができます。圧縮されたファイルサイズが近いほど、XMLファイルはより似ています。

スペースと改行文字を無視し、同じファイルを一緒にクラスタリングします。

ベストアンサー1

おすすめ記事