2008年12月13日

腾讯soso,不会做搜索引擎就别乱做

作者 非鱼

昨晚封了两个网段的IP,124.115.0.*和124.115.1.*,终于解决了服务器这两天来的经常莫名其妙的停止响应的问题。

网站的流量现在并不是很大,而且大部分页面的逻辑也很简单,但是最近两天经常出现网站没有反应,一直显示在等待,打不开页面。远程登录服务器速度也非常慢,基本上很难操作,查看进程发现django多出了很多子进程,这说明有些进程堵塞在那里,无法返回所以启动了新的子进程。给mysql数据库启用了slow-log以后,日志里经常会出现一些简单的查询语句,直接把语句放到mysql客户端里去执行,速度却相当快,估计是因为mysql并发量太大,导致这些简单的语句也无法顺利执行,所以把所有的网站页面都堵死了。

后来查看网站的访问日志,好家伙,已经1.5个G的日志了,这个样子在这种速度下也没办法查看,于是清空了日志,稍等了一会,很快就超过了100K,打开一看,sosospider的名字映入眼帘。N多个来自不同IP的soso蜘蛛同时抓取portal页面,即便文章页已经启用了缓存也不起作用。

于是赶紧停了网站,到lighttpd设置里封了soso的这两个网段,顺便封了网易有道的一个蜘蛛IP,虽然并发没有soso这么大,但是每隔几条日志里就有一条是网易有道的。

拜托腾讯soso的开发兄弟们,不会写程序别乱写,写出这种程序来还放出来咬人,会给人家造成切实的经济损失的。

有趣的是,在soso里面搜索soso蜘蛛,出来的全是soso蜘蛛因为乱抓网站被站长封杀的新闻,soso还真是大公无私啊,绝对没有屏蔽自己的负面新闻。