常に新しいページを生成する非常に動的なウェブサイトでは、サイトマップ? もしそうなら、stackoverflow.com のようなサイトはどのようにしてサイトマップを再生成するのでしょうか? 誰かが質問を追加するたびにサイトマップを常に再生成していたら、貴重なサーバー リソースが浪費されるように思えます。設定された間隔 (たとえば 4 時間ごと) で新しいサイトマップを生成しているのでしょうか? 大規模で動的な Web サイトがこれをどのように機能させているのか、非常に興味があります。
ベストアンサー1
Stackoverflow(およびすべてのStack Exchangeサイト)では、sitemap.xmlファイルが作成され、その中にはすべての質問へのリンクシステムに投稿されます。新しい質問が投稿されると、サイトマップ ファイルの末尾に別のエントリが追加されるだけです。ファイルの末尾に追加するのにそれほど多くのリソースは消費されませんが、ファイルは非常に大きくなります。
これが、Google などの検索エンジンがサイトを効果的にクロールできる唯一の方法です。
ジェフ・アトウッドはブログ記事でそれについて語っている:サイトマップの重要性
これはGoogle のサイトマップに関するウェブマスター向けヘルプページ:
サイトマップは、次のような場合に特に役立ちます。
- サイトには動的なコンテンツがあります。
- サイトには、クロール プロセス中に Googlebot によって簡単に検出されないページ (リッチ AJAX や Flash を備えたページなど) があります。
- あなたのサイトは新しく、リンクもほとんどありません。(Googlebot はページ間のリンクをたどってウェブをクロールするため、サイトのリンクが適切でない場合、Google がサイトを見つけるのが難しくなる可能性があります。)
- あなたのサイトには、相互に適切にリンクされていない、またはまったくリンクされていないコンテンツ ページの大きなアーカイブがあります。