2008年01月18日

PyLucene安装使用简介

作者 非鱼

想给理财易的留言板添加个搜索功能,但是又不想用like这样的搜索语句,慢的要死,搞不好还会成为网站被攻击的漏洞,但是Mysql又不支持中文的全文检索,只支持英文。(似乎最新版的Mysql 6已经可以很方便的用插件方式添加中文全文检索了,而且似乎已经有人把这个插件做出来了。)以前记得海量是出过修改版的支持中文全文检索的Mysql的,于是跑去下载了看看,结果发现最新的版本好像也是2005年出的了,以后再也没有出过。想来想去,还是用Lucene这样的独立的全文检索方式吧。

PyLucene以前就曾经下载测试过,但是一直没有实际的使用,今天再看,还是遇到不少问题。它的下载里面有源码也有二进制文件,源码的编译似乎非常的麻烦,一种方式是需要Java和Ant,另一种是需要Gcj,而且还需要自己修改Makefile文件,修改N多参数。二进制文件里面提供了许多个版本的下载,因为开发环境是Ubuntu的,所以就下载了Ubuntu 7.04对应的二进制文件,解压看了说明,简单的很,把Python的几个文件复制到Python的site-packages目录,把gcj的两个文件复制到/usr/local/lib目录,然后进入tests目录运行一下测试,成功了,相当简单。

然后就开始写生成索引和检索的代码了。这些代码跟Java的Lucene是完全一致的,因为PyLucene只是起一个包装的作用,最终还是调用的Lucene。具体的代码就不放在这里了。

代码写完了传到服务器上,结果不能执行,对了,服务器上还没有安装PyLucene呢。因为服务器是CentOS 4的,网站并没有提供对应的二进制文件下载,于是尝试使用源码编译,结果把两个版本的源码都下载下来了,一看Readme就晕了,有必要搞这么复杂吗?对应CentOS有个链接,过去看了下是提供了个source rpm文件,下载安装后进去却发现是两个压缩文件,分别是Java Lucene的和PyLucene的,但是却没有提供安装说明,看了半天还是摸不着门道。最后还是决定使用Ubuntu的这个,毕业都是针对gcj的,而且服务器上已经安装了gcj了,相关的库应该都不缺。

复制了对应的文件以后运行测试代码,结果却提示undefined symbol: PyUnicodeUCS4_FromUnicode这样一个错误。Google了一下发现不只是PyLucene的问题,似乎是编译Python的时候所使用的Unicode参数和该程序里面所调用的函数不一致。没办法,重新下载了Python 2.5.1的源码进行编译,加上了–enable-unicode=ucs4参数,再运行测试代码,OK,一切正常了。运行一下网站,功能也没有问题,对中文支持也非常好。