Linuxからアホ話まで、何でもありでござる

2008年08月05日

MSNのクローラ行儀悪杉

[Nucleus]
以前一念発起してURLをごっそり整理した。

URLを整理する 序章
URLを整理する rssフィードの修正
URLを整理する pluginのhack

このサイトはNucleusをブログツールとして使用しており、URLでパラメタを渡してやってページを生成する、いわゆる動的生成のサイトだ。だからそのままではhttp://www.oyajiman.net/oyaji/?itemid=2086みたいなURLになっている。フォーマットを統一した理由は上記エントリにも書いているが、そのほかにWebalizerでのアクセス解析がうまくいかないという理由もあった。だからhttp://www.oyajiman.net/oyaji/item-2086.htmlというフォーマットに統一したのだが、パラメータを渡してのページ生成も当然可能だ。多少の労力を払ってフォーマットを統一したが、クローラが引き続きパラメータつきURLでクロールしていく可能性は高いのである。いずれ集約されていくとは思ったのだが、その集約を短時間で済ませてみようと思い少々荒療治してみた。

具体的にはrobots.txtに
Disallow: /index.php?
Disallow: /?
を書き加えたのである。これで、ほぼパラメタ付きURLでのクロールは抑制出来るはずだ。ただ、この設定は、ある意味ではトップページのクロールを拒んでいるようなものだ。アクセス数を犠牲にした手法であるが、その結果、ロボットが拾っていく絶対回数も格段に減ったがパラメータつきでのアクセスやクロールも格段に減った。時間が経過するにつれ、検索エンジンでインデックスされたURLもほぼ一つのURLに統一された。統一されたURLで拾ってもらうという目的はほぼ達成できたのだ。やったね。

我慢すること約3カ月。そろそろいいだろうということで、制限を外したのが8/1である。その直後、驚くべき事実が発覚する。MSNのクローラが、パラメータつきのURLでガンガンクロールしているのだ。その回数は日に日に増え、8/3ではパラメタつきでのクロールがほとんどになっている。現在は変更後のURLに落ち着いて来ているが、これまでの拾い方は異常だ。

これは他のクローラにはまったく見られない現象である。そもそもこのサイトにはすでにパラメータのついたURLはトラックバック以外存在しない。このパラメタ付きURLをどこから拾ってきたのか小一時間問い詰めたい。また、無差別電話勧誘のようにスクリプトで変数を変えつつクロールしていくのがお前のところの正式なやり方なのか、明確に答えてほしい。

なんなんだよ、このクローラは。存在しないはずのURLでクロールするなんて、一時期の百度よりよっぽど行儀が悪い。

MSNには猛省を促したい。


ブログランキング・にほんブログ村へ
posted by oyajiman at 2008年08月05日 22:59:55



コメント

コメントはありません

トラックバック

トラックバック
このエントリにトラックバックはありません
このトラックバックURLを使ってこの記事にトラックバックを送ることができます。 もしあなたのブログがトラックバック送信に対応していない場合にはこちらのフォームからトラックバックを送信することができます。.

コメントする