2008年01月17日

互联网的重复内容

作者 非鱼

理财易的会员最近经常会提出“网站是否能提供些理财建议”之类的问题,对这种问题,以前我是没打算做的,因为看门户网站,理财资讯和规划建议已经做的相当不错了,到Google上搜索理财,多的很,何必要再搞一套呢?再说我也没有人力物力来支撑这样的内容型网站。不过就像三人成虎那样,问的人多了,我便不得不怀疑自己的判断力了。会员可能并不像我想的那样,乐于多开几个网站找自己想要的内容,可能他们还是希望能够在尽量少的熟悉的网站上获取自己需要的内容。

既然如此,那我就做一个吧。要我自己写内容,那是不可能的了,唯一的途径就是抓取别人现成的。搜索理财二字,出来了不少,其中有两个小网站中国理财网和理财中国,排名很靠前,但是很明显的是小网站,不过分类很明确,那只好从这里下手了。打开Python开始写抓取脚本。取到第一页,分析出总页数,分析出下一页的链接,取到内容,再分析出里面所有的正文的链接和标题,然后取出正文的内容,再从正文页面里分析出正文内容和发表时间,还是挺简单的。

django设计出数据库结构,创建了表,然后开始抓,整个过程很顺利,但是抓取的程序似乎有点问题,抓一些页面以后就会死掉,不知道是网络堵塞还是数据库堵塞,重启一下程序就可以接着走。然后,接近2万篇文章就有了。

但是很快发现这两个小网站基本上都不怎么更新,看来还是需要一些大网站的内容,和讯财经的列表页和文章页格式还算标准,于是先写它的模式。很快发现,和讯里面的文章许多都已经在我的数据库里了。然后看搜狐财经的,结果更令我吃惊的事情发生了,搜狐理财的列表页的格式跟和讯的文章列表页格式几乎完全一致,不知道是不是巧合,这倒好,省的我调试模式了。文章页的格式也大同小异。另外,和讯的文章列表页上会直接写明每篇文章的来源网站,看样子没有几篇文章是和讯原创的,几乎全部都是人民网,第一财经日报,每日经济新闻,大洋网,中国经济网,新华网等等的内容。看来,做门户也还真是挺容易的。而且和讯的网站标题是:全球华人最值得关注的综合理财平台!

小时候不会写作文,妈妈就曾经教育我,天下文章一大抄。现在看来,妈妈真是有做互联网的天份。国外的某个互联网机构曾经出过一份统计报告,说当前的互联网资源已经达到了多少多少PB,不知道他有没有把里面重复的内容排除掉?比如视频网站,假如中国有200个视频网站,那么所有的视频内容的实际容量就要除以200,没有哪一段视频是某个网站所独有的,也没有哪个网站会放过一个别人网站上有的视频不去抓过来。靠着这些重复的内容,我们养活了一大批的互联网创业者,或者互联网从业者,而我们损失的,则是200倍的硬件资源和人力资源。

中国的人数太多,网民数量还有一个月就可以超越美国成为全球第一大网民国家,这在通常意义上都不是什么好事,人均带宽,人均资源数等等,但是,作为互联网从业者,我们还是可以看到好处的,就是每个网站平均用户数。同样的内容和功能的网站在美国可能只能活两家,但是在中国,活个七八家没问题。门户如此,交友网站如此,视频网站也是如此,更不用说简单的提供文本内容资讯的垂直门户网站了。

虽然很不想做这个理财资讯频道,但是最终也还是做了,而且,越做下去,似乎越发现原来自己做的事情还是那么的无聊,因为已经很多比我还无聊的人走在我的前面。恐怕除了为会员服务以外,Google广告是仅存的理由了。