中文检索 vs. 汉化检索

      全文检索一般支持中文分词,而往往有人认为将现有的不支持中文分词的全文检索软件加入中文分词模块就可以使用了。这个观点本身没错,但是可以使用不代表可以用好。国内有大量的网站采用Lucene+中文分词的解决方案,但是搜索结果并不乐观。

      中文全文检索绝不是简单的将国外的全文检索软件包加入中文分词模块(汉化的全文检索)。相比汉化的全文检索,中文全文检索引擎主要有如下优势:

  • 高精度的分词算法,有统计认为,中文分词的切分精度至少要达到>96% ,才能对全文检索的精度和准确率没有太大影响;
  • 为中文优化过的结果集排序算法,中文用户有使用长短语(短句)进行搜索的习惯,而汉化的全文搜索不考虑词与词之间的位置关系,严重影响了用户的使用体验;
  • 可以利用中文的词性信息,对于不同词性的词,给与不同的排序权重,进一步改善结果集。

       实现一个中文全文搜索需要付出很多努力,决不是随便找几个人给几个月时间就能完成的任务。为了使您的网站真正能够从实施全文搜索中获得有益的回报,请仔细评价全文检索产品及服务,选择真正的中文全文搜索引擎。