Coreseek®  
 | 首页 | 注册 | 回复 | 搜索 | 统计资料 |                 网站首页产品服务开放源码安装使用常见问题中文手册社区交流联系我们 
中文分词 论坛首页 / 中文分词 /

关于遇到的两个中文分词的问题

 
ygnyhdgs
会员
#1 | 发表时间: 2009 09 22 15:07
回复 
1. 对于这样的文档“北京市朝阳区.....”, mmseg 会切成 ‘ 北京市×朝阳区× ’,如果我用“北京”进行搜索无法匹配该文档,看了一下原字典unigram,其中是同时包含"北京",“北京市”词条的,请问通过何种方式能让切词器按照“北京×市×朝阳×区”来切割呢,尝试在字典文件里修改了“字频”未果,或者类似的搜索方式应该怎样来实现?

2.使用其他模式都正常,只有在使用SPH_MATCH_ANY模式时,php test.php  s ef 报错如下:

WARNING: index idesk: syntax error, unexpected TOK_KEYWORD, expecting TOK_INT near '1', 配置文件中index idesk 下没找到相关设置,请问如何解决?


多谢~
HonestQiao
会员
#2 | 发表时间: 2009 09 23 22:02
回复 
1. 把北京市去掉。
则输入北京和北京市,都可以查到北京。

2. ANY模式目前存在解析字符串问题,请使用EXTEND模式
xyliufeng
会员
#3 | 发表时间: 2010 05 13 13:05
回复 
HonestQiao:
1. 把北京市去掉。
则输入北京和北京市,都可以查到北京。

这是为什么啊?
HonestQiao
会员
#4 | 发表时间: 2010 05 13 16:13
回复 
通用分词方式就是这么来操作的啊。
 
回复
Bold Style  Italic Style  Image 链接  URL 链接 
发帖注意:
  • 网址中请去掉http://开头,例如:您需要输入www.coreseek.cn,而不是http://www.coreseek.cn
  • 咨询问题,请贴出详细的操作系统版本、Coreseek版本(Linux环境请给出编译参数)
  • 请仔细查看中文手册和本站安装指南,确认操作正确
  • 请仔细查看常见问题解答,也许你的问题已经有解决方法

» 帐号  » 密码 
发帖前请登陆, 或者 注册 .