Core
seek
®
|
首页
|
注册
|
回复
|
搜索
|
统计资料
|
网站首页
|
产品服务
|
开放源码
|
安装使用
|
常见问题
|
中文手册
|
社区交流
|
联系我们
论坛首页
/
中文分词
/
unigram.txt 用户自定义的词有没有什么限制
fengyufeng
会员
#1
|
发表时间: 2010 05 26 00:13
回复
用户自定义的词的限制:
首先是长度:比如 好利来蛋糕世界凤凰店 这个可以作为用户自定义词库吗?
特殊符号和数字:川福楼吴中店7-川府楼7?
词的长度对索引速度的影响
fengyufeng
会员
#2
|
发表时间: 2010 05 26 00:18
回复
补充一个问题: 如果用户添加的词和词库中的词重复了 会不会报错
HonestQiao
会员
#3
|
发表时间: 2010 05 26 12:54
回复
你可以参考:www.coreseek.cn/opensource/mmseg/
然后按照里面的分词部分,进行测试查看结果:
mmseg -d <dict_dir> tobe_segment.txt > result.txt
result.txt里面就是分词的结果
回复
发帖注意:
网址中请去掉http://开头,例如:您需要输入www.coreseek.cn,而不是http://www.coreseek.cn
咨询问题,请贴出详细的操作系统版本、Coreseek版本(Linux环境请给出编译参数)
请仔细查看
中文手册和本站安装指南
,确认操作正确
请仔细查看
常见问题解答
,也许你的问题已经有解决方法
»
帐号
»
密码
发帖前请登陆, 或者
注册
.
中文分词
全文检索
站务公告
案例展示/经验分享
发展建议