先日もちょっと言及した
Yahoo!ブログ検索のものと思われるクローラだが、とにかく性質が悪い。一定時間内に複数のIPアドレスのクローラが大挙押し寄せてくるものだから、サーバは毎日悲鳴を上げてしまっている。
このクローラ、なぜかサーバのレスポンスが悪くなるとますます大挙して押し寄せてくるようで、その挙動はまさに嫌がらせである。それもひとつのエントリに数十個のアドレスから一気に来るものだから、さらにレスポンスが悪くなるという悪循環を見事に引き起こしてくれている。あまりにひどいので
Yahoo!ブログ検索ヘルプを参考にrobots.txtでアクセスタイムを制御してみたのだが全く効果がない。ディレイタイムで押さえ込むのじゃなくてクロール拒否にしてもいいのだが、それだけではなんだか腹の虫が収まらない。というか、あの百度の時でさえこういうクロールはされたことがなく、全く持って意味不明だ。こうなればこっちも意地である。たかがクローラ、それもYahooが検索からBlogを排除しようとして作られたであろうBlog検索なるもので、ただでさえ少ないリソースを食いつぶされるような仕打ちをされるのは納得がいかん。
一つ人のサーバリソースを奪い、二つ不埒なクロール三昧、三つ醜いクロールの鬼を、退治てくれよう桃太郎。
調べてみるとこのクローラはcrwl***.bsearch.ogk.yahoo.co.jpというURLで、その***の部分は100~194の範囲内であるようだ。さらに詳しく調べるとこのようになっている模様。
IPアドレス クローラ番号
124.83.190.034 - 056 crwl172 - 194
124.83.191.136 - 143 crwl164 - 171
124.83.191.144 - 207 crwl100 - 163
ここまでくれば反応させるのさえ気分が悪いので、これをすべてDENYしてやろうと思ったのだが、そこは太平洋より広く日本海溝より深い心の持ち主である俺。すべて拒否はやめて一部を開放し、今後の挙動を見ることにした。ということで124.83.191.***のアクセスをDENYしてやることに決定。これでかなりクローラ被害は防げるはずだ。お前には半殺しがお似合いだぜ。
それにしてもなんでこういうことが起こるのかよくわからない。MSNのクローラも同じような挙動をするが、こちらはひとつのエントリに集中アクセスすることはない。Yahoo!ブログ検索って、なにか仕様がおかしいんじゃないのかにゃ?退治したからもういいけど。
こんなYahoo!がなぜ日本でもてはやされているのか、俺には全く理解できないんだけどね。
糞わろた、桃太郎侍もわらったw
違法業者のSPAMも困りものですが、こういうネット専業企業の振る舞いも時としてこういう事が起こるんですね。
クロールする時に相手サーバのスペック確認して苛めにならない程度に加減してアクセスするとかのスクリプト組めばいいのに