Coreseek®  
 | 首页 | 注册 | 回复 | 搜索 | 统计资料 |                 网站首页产品服务开放源码安装使用常见问题中文手册社区交流联系我们 
中文分词 论坛首页 / 中文分词 /

手动增加词典文件出现问题

 
inter0518
会员
#1 | 发表时间: 2011 06 10 12:30 | 修改: inter0518
回复 
用默认的词典分词结果:

中文/x 分/x 词/x 测试/x
中国人/x 上海市/x
天安门/x 事件/x
研究生/x 论文/x
百/x 度/x 搜索引擎/x

手动在unigram.txt中加入
百度 1
x:1
之后,生成lib文件,替换掉原始uni.lib之后分词的结果:

中文/x 分/x 词/x 测/x 试/x
中国人/x 上海市/x
天安门/x 事件/x
研究生/x 论文/x
百/x 度/x 搜/x 索/x 引/x 擎/x

确保txt文档是utf-8的,确保生成并使用了lib文件,为什么分词的结果是这样的呢?难道生成字典之后还要配置什么东西吗?
HonestQiao
会员
#2 | 发表时间: 2011 06 10 22:36
回复 


这个是全角还是半角?
inter0518
会员
#3 | 发表时间: 2011 06 13 13:35
回复 
我直接从上面的条目中拷贝粘贴的,应该没问题
今天又测了一下,还是不行。。。
HonestQiao
会员
#4 | 发表时间: 2011 06 14 21:28
回复 
那你仔细看我们mmseg的说明吧,确定到底是用全角还是半角。
riby
会员
#5 | 发表时间: 2011 10 17 21:50
回复 
你直接修改已经存在都词肯定可以,,我也是复制下面不行。。。
HonestQiao
会员
#6 | 发表时间: 2011 10 19 00:27
回复 
但是你贴出的代码中,是全角符号,肯定不行
lizimooncake
会员
#7 | 发表时间: 2011 11 22 11:23
回复 
HonestQiao
我也遇到了同样的问题 我的符号式在半角下复制的,而且分到一半就segment  fault
lizimooncake
会员
#8 | 发表时间: 2011 11 22 14:02
回复 
inter0518
请问 最后这个问你解决了没
lizimooncake
会员
#9 | 发表时间: 2012 02 08 09:12 | 修改: lizimooncake
回复 
解决了  在论坛里发了一篇帖子把解决方案贴出来了
 
回复
Bold Style  Italic Style  Image 链接  URL 链接 
发帖注意:
  • 网址中请去掉http://开头,例如:您需要输入www.coreseek.cn,而不是http://www.coreseek.cn
  • 咨询问题,请贴出详细的操作系统版本、Coreseek版本(Linux环境请给出编译参数)
  • 请仔细查看中文手册和本站安装指南,确认操作正确
  • 请仔细查看常见问题解答,也许你的问题已经有解决方法

» 帐号  » 密码 
发帖前请登陆, 或者 注册 .