クロールの問題が発生しました

クロールの問題が発生しました

ウェブサイト全体をクロールするには、次のコマンドが機能する必要があることを確認しました。

wget  --spider -r https://wikipedia.org/

しかし、私の質問は、ウェブサイト全体をクロールするのと同じコマンドがWikipediaで機能しない理由です。

私の目標は、ウィキペディア全体をクロールするのではなく、違いを理解することです。

以下はコマンドの出力です。

Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56--  http://wikipedia.org/
Resolving wikipedia.org (wikipedia.org)... 91.198.174.192, 2620:0:862:ed1a::1
Connecting to wikipedia.org (wikipedia.org)|91.198.174.192|:80... connected.
HTTP request sent, awaiting response... 301 TLS Redirect
Location: https://wikipedia.org/ [following]
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56--  https://wikipedia.org/
Connecting to wikipedia.org (wikipedia.org)|91.198.174.192|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://www.wikipedia.org/ [following]
Spider mode enabled. Check if remote file exists.
--2016-08-31 17:53:56--  https://www.wikipedia.org/
Resolving www.wikipedia.org (www.wikipedia.org)... 91.198.174.192, 2620:0:862:ed1a::1
Connecting to www.wikipedia.org (www.wikipedia.org)|91.198.174.192|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Remote file exists and could contain links to other resources -- retrieving.

--2016-08-31 17:53:56--  https://www.wikipedia.org/
Reusing existing connection to www.wikipedia.org:443.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘wikipedia.org/index.html’

    [ <=>                                                                                                                                                                                                                                   ] 81 292      --.-K/s   in 0,03s   

2016-08-31 17:53:57 (2,44 MB/s) - ‘wikipedia.org/index.html’ saved [81292]

Removing wikipedia.org/index.html.

Found no broken links.

FINISHED --2016-08-31 17:53:57--
Total wall clock time: 0,2s
Downloaded: 1 files, 79K in 0,03s (2,44 MB/s)

ベストアンサー1

以下はFAQ(wgetWikipedia用)です。

デフォルトでは、Wgetはうまく動作するWebスパイダーとして機能し、サイトのrobots.txtファイルとルールを尊重します。no-follow属性。

2005年1月18日、Googleブログの投稿「コメントのスパム対策」には、Googleがこれを尊重すると述べています。rel="nofollow"ハイパーリンクの属性。ページランクアルゴリズムは、ターゲットページランクを付けるときにこの属性を持つリンクを無視します。意図された結果は、ウェブマスターがユーザーの公開リンクを変更してこの属性が存在するようにすることができるため、Googleがそのサイトにリンクを投稿して爆弾を爆発させようとすると、そのリンクが増加しないようにすることです。

ポイントは、ウィキペディアがこのような行為を防ぐためにサイトを設定したことです。

おすすめ記事