フレーム付きウェブサイトを繰り返しダウンロード

2024-07-05 • tag-icon

フレーム内のリンクとそのフレーム内の追加リンクを使用するWebサイトの特定のページを繰り返しダウンロードすることはできません。オンライン中国語の語源辞書である中文网からのものです。

一般的なページのHTMLは次のとおりです。

<FRAMESET BORDER=1 FRAMEBORDER=1 ROWS=40,*>
    <FRAME ALIGN=LEFT SRC=http://zhongwen.com/main.htm SCROLLING=no MARGINHEIGHT=0 FRAMEBORDER=no NAME=mainFrame>
    <FRAMESET BORDER=1 FRAMEBORDER=1 COLS=250,*>
      <FRAME frameborder=no NORESIZE SRC=http://zhongwen.com/s/bushou.htm NAME=f1>
      <FRAME NORESIZE SRC=http://zhongwen.com/d/198/x126.htm NAME=f2>  
    </FRAMESET>
</FRAMESET>

フレーム内では、メインリンクは次のようになります。http://zhongwen.com/d/198/x126.htm、HTMLが含まれています。

<head>
<FRAMESET border=1 framespacing=0 frameborder=1 COLS="245,*">
<FRAME SRC="**../../d/198/d126.htm**" NAME="f3">
<!--
<FRAME MARGINHEIGHT=0 SRC="../../t/115.htm#23" NAME="f4">
-->
<FRAME SRC="../../d/198/t126.htm" NAME="f4"></FRAMESET>
</head>
</MAP></MAP>

いくつかの追加リンクがあり、そのうちの1つは次のとおりです。http://zhongwen.com/d/198/x126.htm、HTMLを含む：

<head><base target="f2"></head>
<BODY bgcolor="FFFFFF">
<A NAME="23"></A>
<IMG border=0 src="http://zhongwen.com/d/198/d126.gif" USEMAP="#a">
...

wgetとhttrackを試してみましたが、どちらも初期ページのみをダウンロードしました。以前に質問したこの質問に対する回答は役に立ちませんでしたが、マニュアルページにはオプションはありません。

httrack -Y --near -%P -*p3 -r9999 -B http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F

wget --restrict-file-names=nocontrol --ignore-length --html-extension --tries=3 --timeout=30 --no-http-keep-alive --cookies=off --page-requisites --convert-links -m -H --follow-tags=FRAME,IMG http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F

他の試みを提案できる人はいますか？それとも私が何か間違っているのですか？

ありがとう

ベストアンサー1

試しwget2てみました。ロボット.txtそして他のもの：

Disallow: /s/
Disallow: /d/

ドメイン所有者の規則を尊重し、次の場合にのみこの確認をオフにする必要があります。非常にとても良い理由です。ルートがブロックされていない場合wget（ロボット）はルートを検索します。

ベストアンサー1

おすすめ記事