フレーム内のリンクとそのフレーム内の追加リンクを使用するWebサイトの特定のページを繰り返しダウンロードすることはできません。オンライン中国語の語源辞書である中文网からのものです。
一般的なページのHTMLは次のとおりです。
<FRAMESET BORDER=1 FRAMEBORDER=1 ROWS=40,*>
<FRAME ALIGN=LEFT SRC=http://zhongwen.com/main.htm SCROLLING=no MARGINHEIGHT=0 FRAMEBORDER=no NAME=mainFrame>
<FRAMESET BORDER=1 FRAMEBORDER=1 COLS=250,*>
<FRAME frameborder=no NORESIZE SRC=http://zhongwen.com/s/bushou.htm NAME=f1>
<FRAME NORESIZE SRC=http://zhongwen.com/d/198/x126.htm NAME=f2>
</FRAMESET>
</FRAMESET>
フレーム内では、メインリンクは次のようになります。http://zhongwen.com/d/198/x126.htm、HTMLが含まれています。
<head>
<FRAMESET border=1 framespacing=0 frameborder=1 COLS="245,*">
<FRAME SRC="**../../d/198/d126.htm**" NAME="f3">
<!--
<FRAME MARGINHEIGHT=0 SRC="../../t/115.htm#23" NAME="f4">
-->
<FRAME SRC="../../d/198/t126.htm" NAME="f4"></FRAMESET>
</head>
</MAP></MAP>
いくつかの追加リンクがあり、そのうちの1つは次のとおりです。http://zhongwen.com/d/198/x126.htm、HTMLを含む:
<head><base target="f2"></head>
<BODY bgcolor="FFFFFF">
<A NAME="23"></A>
<IMG border=0 src="http://zhongwen.com/d/198/d126.gif" USEMAP="#a">
...
wgetとhttrackを試してみましたが、どちらも初期ページのみをダウンロードしました。以前に質問したこの質問に対する回答は役に立ちませんでしたが、マニュアルページにはオプションはありません。
httrack -Y --near -%P -*p3 -r9999 -B http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F
wget --restrict-file-names=nocontrol --ignore-length --html-extension --tries=3 --timeout=30 --no-http-keep-alive --cookies=off --page-requisites --convert-links -m -H --follow-tags=FRAME,IMG http://zhongwen.com/cgi-bin/zipu.cgi?b5=%A5%5F
他の試みを提案できる人はいますか?それとも私が何か間違っているのですか?
ありがとう
ベストアンサー1
試しwget2
てみました。ロボット.txtそして他のもの:
Disallow: /s/
Disallow: /d/
ドメイン所有者の規則を尊重し、次の場合にのみこの確認をオフにする必要があります。非常にとても良い理由です。ルートがブロックされていない場合wget
(ロボット)はルートを検索します。