Press "Enter" to skip to content

Posts published in 10月 2008

Apache solr,构建自己的全文检索搜索引擎

公司的网站的搜索一直是使用DotLucene做的,不过一直有很多问题。比如,生成索引的速度太慢,所以不能经常的去生成索引,索引里面坏的东西太多的时候,重新生成索引基本上会失败,因为索引文件被网站进程占用,所以无法删除。没有做搜索服务,而是每个页面去打开索引目录,搜索,然后关闭,导致重复的开关动作浪费极多的CPU,而且占用相当多的内存,无法释放。而且复杂一些查询(比如范围查询,时间查询,分组统计等)因为写法比较复杂,所以根本就没有去做。关键字高亮显示也因为性能和算法问题一直没有做。自己的个人网站上,搜索用的也是PyLucene,情况差不多。

最近在查找更好的搜索引擎供应商的过程中,发现了一个好东西,Apache solr,是由Apache组织基于Lucene所做的扩展应用,详细的介绍网上有不少,就不多说了,大体来说,solr是一个基于Java服务器的服务程序,就像WebService,它自己维护索引,进行查询动作,其它需要使用全文检索功能的程序通过Post和Get的方式使用这个服务,查询命令直接返回结果XML。通过在xml配置文件里面定义字段类型和字段名字,就可以让它支持任意需要的字段数量和类型,而且能够正确处理数值类型的排序和时间类型的范围查询。而且可以通过传递查询参数简单的实现分组统计和高亮显示。

不过因为它是java的,而我又没玩过Java程序,安装和配置着实是花了不少功夫,用了整整一天,把网上那么几篇说明文章看了又看,最后终于算是搞定了。因为几遍文章写的都不全,需要凑合成一篇看才行。所以在这里记一下标准的安装配置流程:(Linux上的)

百度有啊,想说爱你不容易

三天前用百度助理导入的淘宝助理备份出来的csv文件,到今天登录我的有啊终于看见商品了。可是全部是下架状态。点击全选-上架,结果告诉我商品的分类属性已经过期,点击编辑进去看看,商品的类别是空的。 50件商品,要我一个一个选…

阿里巴巴和百度的公关真不是盖的

百度的有啊刚结束内测,就接连遇到阿里巴巴的追杀。先是淘宝公布封锁百度后的浏量数据,号称没了不良搜索引擎,我们的日子更好过。再是今天下午在CNbeta上出现阿里巴巴高调宣布停止在百度投放广告的新闻,因为百度的流量越来越没价…

校内/Manyou/Alisoft API应用开发Demo

其实要写个完整的Demo是挺困难的,而且目前我只做了Python的开发,没有写过其它版本,而且以我的习惯,我也不喜欢写完整的代码给别人去抄,所谓授之以鱼不如授之以渔。写个自然语言的版本吧,写起来简单,看的人也容易使用自己…

又重装了一次

朋友那里弄到了Windows 2008的正版盘,所以借来试验用一下。正好最近XP出了很多问题,比如休眠几次以后就会出现内存错误,输入法经常在打到某个字的时候把主程序搞崩溃,MSN和QQ都动不动就死掉退出,也该重装了。听说…

小软推荐:蓝果桌面日程管理软件

一直想找个好用的桌面日程提醒软件,却一直找不到一个令自己满意的,其实要求不高,软件要简单,就是想在桌面上显示我还有什么事情没干,软件不要太花哨,要稳定,别动不动就死,或者莫名奇妙的任务突然消失,不需要弹出提醒,不需要飞来…