Coreseek®  
 | 首页 | 注册 | 回复 | 搜索 | 统计资料 |                 网站首页产品服务开放源码安装使用常见问题中文手册社区交流联系我们 
中文分词 论坛首页 / 中文分词 /

unigram.txt 用户自定义的词有没有什么限制

 
fengyufeng
会员
#1 | 发表时间: 2010 05 26 00:13
回复 
用户自定义的词的限制:
首先是长度:比如 好利来蛋糕世界凤凰店 这个可以作为用户自定义词库吗?
特殊符号和数字:川福楼吴中店7-川府楼7?
词的长度对索引速度的影响
fengyufeng
会员
#2 | 发表时间: 2010 05 26 00:18
回复 
补充一个问题: 如果用户添加的词和词库中的词重复了 会不会报错
HonestQiao
会员
#3 | 发表时间: 2010 05 26 12:54
回复 
你可以参考:www.coreseek.cn/opensource/mmseg/

然后按照里面的分词部分,进行测试查看结果:
mmseg -d <dict_dir> tobe_segment.txt > result.txt
result.txt里面就是分词的结果
 
回复
Bold Style  Italic Style  Image 链接  URL 链接 
发帖注意:
  • 网址中请去掉http://开头,例如:您需要输入www.coreseek.cn,而不是http://www.coreseek.cn
  • 咨询问题,请贴出详细的操作系统版本、Coreseek版本(Linux环境请给出编译参数)
  • 请仔细查看中文手册和本站安装指南,确认操作正确
  • 请仔细查看常见问题解答,也许你的问题已经有解决方法

» 帐号  » 密码 
发帖前请登陆, 或者 注册 .