Core
seek
®
|
首页
|
注册
|
回复
|
搜索
|
统计资料
|
网站首页
|
产品服务
|
开放源码
|
安装使用
|
常见问题
|
中文手册
|
社区交流
|
联系我们
论坛首页
/
中文分词
/
请教关于中文分词的若干问题
searchnewer
会员
#1
|
发表时间: 2010 08 27 17:19
回复
我现在使用默认词库,输入“肯德基”和“麦当劳”,分词后都是一个字一个字的
肯/德/基 和麦/当/劳 我发现dict里边有三个文件:
Lexicon_full_words.txt
char.stat.txt
unigram.txt
1.请问这三个文件分别是干什么用的?
2.我需要在哪个文件中添加“肯德基”和“麦当劳”的词条,才能分成“肯德基”,“麦当劳”
3.如果修改了上面任何一个txt文件是不是需要重新生成uni.lib?
十分感谢?
HonestQiao
会员
#2
|
发表时间: 2010 08 27 22:13
回复
www.coreseek.cn/products-install/coreseek_mmseg/
charset_dictpath=/usr/local/mmseg3/etc/
表示词典文件的目录,该目录下必须有uni.lib词典文件存在;
uni.lib词典文件的制作,请参考:mmseg词典的构造
回复
发帖注意:
网址中请去掉http://开头,例如:您需要输入www.coreseek.cn,而不是http://www.coreseek.cn
咨询问题,请贴出详细的操作系统版本、Coreseek版本(Linux环境请给出编译参数)
请仔细查看
中文手册和本站安装指南
,确认操作正确
请仔细查看
常见问题解答
,也许你的问题已经有解决方法
»
帐号
»
密码
发帖前请登陆, 或者
注册
.
中文分词
全文检索
站务公告
案例展示/经验分享
发展建议