HTMLファイル内の何千もの要素の並べ替え順序を変更する正しいツール[閉じる]

HTMLファイル内の何千もの要素の並べ替え順序を変更する正しいツール[閉じる]

<div class='date'></div><ul>...</ul>次の数千のコードブロックを含むHTMLファイルがあります。

<!DOCTYPE html>
<html>

    <head>
    </head>

    <body>

        <div class="date">Wed May 23 2018</div>
        <ul>
            <li>
                Do laundry
                <ul>
                    <li>
                        Get coins
                    </li>
                </ul>
            </li>
            <li>
                Wash the dishes
            </li>
        </ul>

        <div class='date'>Thu May 24 2018</div>
        <ul>
            <li>
                Solve the world's hunger problem
                <ul>
                    <li>
                        Don't tell anyone
                    </li>
                </ul>
            </li>
            <li>
                Get something to wear
            </li>
        </ul>

        <div class='date'>Fri May 25 2018</div>
        <ul>
            <li>
                Modify the website according to GDPR
            </li>
            <li>
                Watch YouTube
            </li>
        </ul>

    </body>

</html>

各要素<div>とその<ul>要素は特定の日付によって異なります。ブロックは<div class='date'></div><ul>...</ul>昇順にソートされます。つまり、最新の日付一番下ファイル。最新の日付になるように降順に並べ替える予定です。トップファイルの内容は次のとおりです。

<!DOCTYPE html>
<html>

    <head>
    </head>

    <body>

        <div class='date'>Fri May 25 2018</div>
        <ul>
            <li>
                Modify the website according to GDPR
            </li>
            <li>
                Watch YouTube
            </li>
        </ul>

        <div class='date'>Thu May 24 2018</div>
        <ul>
            <li>
                Solve the world's hunger problem
                <ul>
                    <li>
                        Don't tell anyone
                    </li>
                </ul>
            </li>
            <li>
                Get something to wear
            </li>
        </ul>

        <div class="date">Wed May 23 2018</div>
        <ul>
            <li>
                Do laundry
                <ul>
                    <li>
                        Get coins
                    </li>
                </ul>
            </li>
            <li>
                Wash the dishes
            </li>
        </ul>

    </body>

</html> 

正しいツールが何であるかよくわかりません。シェルスクリプトですか?うんawk? Pythonですか?より速くて便利なものがありますか?

ベストアンサー1

拡大するPython解決策:

sort_html_by_date.pyスクリプト:

from bs4 import BeautifulSoup
from datetime import datetime

with open('input.html') as html_doc:    # replace with your actual html file name
    soup = BeautifulSoup(html_doc, 'lxml')
    divs = {}
    for div in soup.find_all('div', 'date'):
        divs[datetime.strptime(div.string, '%a %B %d %Y')] = \
            str(div) + '\n' + div.find_next_sibling('ul').prettify()

    soup.body.clear()
    for el in sorted(divs, reverse=True):
        soup.body.append(divs[el])

    print(soup.prettify(formatter=None))

使用法:

python sort_html_by_date.py

出力:

 <!DOCTYPE html>
<html>
 <head>
 </head>
 <body>
  <div class="date">Fri May 25 2018</div>
<ul>
 <li>
  Modify the website according to GDPR
 </li>
 <li>
  Watch YouTube
 </li>
</ul>
  <div class="date">Thu May 24 2018</div>
<ul>
 <li>
  Solve the world's hunger problem
  <ul>
   <li>
    Don't tell anyone
   </li>
  </ul>
 </li>
 <li>
  Get something to wear
 </li>
</ul>
  <div class="date">Wed May 23 2018</div>
<ul>
 <li>
  Do laundry
  <ul>
   <li>
    Get coins
   </li>
  </ul>
 </li>
 <li>
  Wash the dishes
 </li>
</ul>
 </body>
</html>

使用されるモジュール:

美しいスープ-https://www.crummy.com/software/BeautifulSoup/bs4/doc/
予定時間 -https://docs.python.org/3.3/library/datetime.html#module-datetime

おすすめ記事