Sphinx

Sphinx Search 是由俄罗斯人Andrew Aksyonoff 开发的高性能全文搜索软件包,在GPL与商业协议双许可协议下发行。
Sphinx支持从多种数据源获取待检索的数据,目前包括:

  • MySQL数据库
  • PostgreSQL数据库
  • XML数据管道,允许索引其他用户自定义格式


Sphinx的主要功能包括:

  • 高速建立索引(可达10 MB/秒)
  • 高性能搜索(在2-4 GB的文本上搜索,平均0.1秒内获得结果)
  • 高扩展性(在单一CPU上,实测可对100GB的文本建立索引,单一索引可包括100M文件 )
  • 支持分布式检索
  • 支持基于短语和基于统计的复合结果排序机制
  • 支持任意数量的文件字段(数值属性或全文检索属性)
  • 支持不同的搜索模式( “完全匹配” , “短语匹配”和“任一匹配” )
  • 支持作为Mysql的存储引擎

Coreseek 在Sphinx的基础上,对Sphinx 的中文支持进行增强,包括:

  • 使用Python的可编程数据源
  • 基于最大匹配算法的中文分词模块
  • 支持GB18030编码的数据源

下载:

  • 基于复合最大匹配算法的中文分词法 libmmseg 。该分词库在GPL协议下授权发布。

目前,Coreseek 不单独提供补丁文件,有在Sphinx中启用中文分词的用户,请直接下载 Coreseek 全文检索服务器


上一篇: CRF++
下一篇: LibMMSeg