生成されたページソースのクロール

Question

Curlは「メイン」ページのみを処理します。ページにJavaScriptによってロードされたコンテンツがある場合curl。

「完全な」ページを取得するために私が見つけた最良の方法は、次のものを使用することです。セレンそして、いくつかのスクリプトで駆動します（私はPythonを使ってこれを行います）。保証がないため、完全性は相対的です。一度JavaScriptの読み込みが完了しました。

たとえば、Python virtualenvで次のように実行します。

pip install selenium
python dl.py  http://unix.stackexchange.com/q/210268/33055 /var/tmp/page.html 5

そしてdl.py：

import sys
import time
from selenium import webdriver

url, file_name, seconds = sys.argv[1:4]
browser = webdriver.Firefox()
try:
    browser.get(url)
    time.sleep(int(seconds))
    with open(file_name, 'w') as fp:
        fp.write(browser.find_element_by_xpath('html').get_attribute(
            "outerHTML").encode('utf-8'))
finally:
    browser.close()

Answer 1

Curlは「メイン」ページのみを処理します。ページにJavaScriptによってロードされたコンテンツがある場合curl。

「完全な」ページを取得するために私が見つけた最良の方法は、次のものを使用することです。セレンそして、いくつかのスクリプトで駆動します（私はPythonを使ってこれを行います）。保証がないため、完全性は相対的です。一度JavaScriptの読み込みが完了しました。

たとえば、Python virtualenvで次のように実行します。

pip install selenium
python dl.py  http://unix.stackexchange.com/q/210268/33055 /var/tmp/page.html 5

そしてdl.py：

import sys
import time
from selenium import webdriver

url, file_name, seconds = sys.argv[1:4]
browser = webdriver.Firefox()
try:
    browser.get(url)
    time.sleep(int(seconds))
    with open(file_name, 'w') as fp:
        fp.write(browser.find_element_by_xpath('html').get_attribute(
            "outerHTML").encode('utf-8'))
finally:
    browser.close()

生成されたページソースのクロール

ベストアンサー1

おすすめ記事