Coreseek®  
 | 首页 | 注册 | 回复 | 搜索 | 统计资料 |                 网站首页产品服务开放源码安装使用常见问题中文手册社区交流联系我们 
中文分词 论坛首页 / 中文分词 /

请教关于中文分词的若干问题

 
searchnewer
会员
#1 | 发表时间: 2010 08 27 17:19
回复 
我现在使用默认词库,输入“肯德基”和“麦当劳”,分词后都是一个字一个字的
肯/德/基  和麦/当/劳  我发现dict里边有三个文件:
Lexicon_full_words.txt
char.stat.txt
unigram.txt

1.请问这三个文件分别是干什么用的?
2.我需要在哪个文件中添加“肯德基”和“麦当劳”的词条,才能分成“肯德基”,“麦当劳”
3.如果修改了上面任何一个txt文件是不是需要重新生成uni.lib?

十分感谢?
HonestQiao
会员
#2 | 发表时间: 2010 08 27 22:13
回复 
www.coreseek.cn/products-install/coreseek_mmseg/
charset_dictpath=/usr/local/mmseg3/etc/

表示词典文件的目录,该目录下必须有uni.lib词典文件存在;

uni.lib词典文件的制作,请参考:mmseg词典的构造
 
回复
Bold Style  Italic Style  Image 链接  URL 链接 
发帖注意:
  • 网址中请去掉http://开头,例如:您需要输入www.coreseek.cn,而不是http://www.coreseek.cn
  • 咨询问题,请贴出详细的操作系统版本、Coreseek版本(Linux环境请给出编译参数)
  • 请仔细查看中文手册和本站安装指南,确认操作正确
  • 请仔细查看常见问题解答,也许你的问题已经有解决方法

» 帐号  » 密码 
发帖前请登陆, 或者 注册 .