2008年12月13日
腾讯soso,不会做搜索引擎就别乱做
昨晚封了两个网段的IP,124.115.0.*和124.115.1.*,终于解决了服务器这两天来的经常莫名其妙的停止响应的问题。
网站的流量现在并不是很大,而且大部分页面的逻辑也很简单,但是最近两天经常出现网站没有反应,一直显示在等待,打不开页面。远程登录服务器速度也非常慢,基本上很难操作,查看进程发现django多出了很多子进程,这说明有些进程堵塞在那里,无法返回所以启动了新的子进程。给mysql数据库启用了slow-log以后,日志里经常会出现一些简单的查询语句,直接把语句放到mysql客户端里去执行,速度却相当快,估计是因为mysql并发量太大,导致这些简单的语句也无法顺利执行,所以把所有的网站页面都堵死了。
后来查看网站的访问日志,好家伙,已经1.5个G的日志了,这个样子在这种速度下也没办法查看,于是清空了日志,稍等了一会,很快就超过了100K,打开一看,sosospider的名字映入眼帘。N多个来自不同IP的soso蜘蛛同时抓取portal页面,即便文章页已经启用了缓存也不起作用。
于是赶紧停了网站,到lighttpd设置里封了soso的这两个网段,顺便封了网易有道的一个蜘蛛IP,虽然并发没有soso这么大,但是每隔几条日志里就有一条是网易有道的。
拜托腾讯soso的开发兄弟们,不会写程序别乱写,写出这种程序来还放出来咬人,会给人家造成切实的经济损失的。
有趣的是,在soso里面搜索soso蜘蛛,出来的全是soso蜘蛛因为乱抓网站被站长封杀的新闻,soso还真是大公无私啊,绝对没有屏蔽自己的负面新闻。
你可以给他们发邮件,基本上当天都能回复,他们接受投诉的态度还是蛮积极的。我已经投诉过两次,让他们把爬虫抓取速度降低下来。
能回复不代表他们会接受你的意见,否则我今天也就不用封他IP了。
前几天Sogou Spider也抓取得非常频繁,几毫秒一次,而且无视robots.txt里对Sogou的限制,气得我发投诉邮件,至今没有收到回复。可见搜狗的态度是无视robots.txtx无视站长。
其实腾讯soso现在用的技术是google的啊 腾讯的搜索引擎09年3月才上线啊 可能你弄错了吧 要不好好咨询一下~~
他用的谁的技术我并不关心,google并没有把别人网站搞死,所以不是谁的技术的问题。宝马到了某些人手里,也只能成为超级马路杀手而已。