Coreseek®  
 | 首页 | 注册 | 回复 | 搜索 | 统计资料 |                 网站首页产品服务开放源码安装使用常见问题中文手册社区交流联系我们 
中文分词 论坛首页 / 中文分词 /

mmseg不处理标点和空格么?

 
DreamDreams
会员
#1 | 发表时间: 2010 05 13 10:33
回复 
发现标点和空格都出现在分词结果中,不太确定是不是应该这样。
HonestQiao
会员
#2 | 发表时间: 2010 05 13 16:09
回复 
这些你都可以设置stopwords
xyliufeng
会员
#3 | 发表时间: 2010 05 13 16:12
回复 
stopwords 是什么啊
HonestQiao
会员
#4 | 发表时间: 2010 05 13 16:19
回复 
看帮助文档中的说明
DreamDreams
会员
#5 | 发表时间: 2010 05 26 16:07
回复 
给个link吧,我在mmseg的源代码里搜了半天根本就没找到和stopword相关的任何东西。
HonestQiao
会员
#6 | 发表时间: 2010 05 27 12:51
回复 
stopwords不是mmseg的

mmseg是忠实的切分,他不抛弃任何人
DreamDreams
会员
#7 | 发表时间: 2010 05 27 14:46
回复 
知道了,谢谢。
DreamDreams
会员
#8 | 发表时间: 2010 06 01 10:01
回复 
我正在把libmmseg移植到recoll(http://www.lesbonscomptes.com/recoll/),现在碰到的问题就是mmseg把标点也输出,我想在mmseg里面把中、英文标点都过滤掉,这样感觉比mmseg输出后再比较、过滤效率高点,但是读mmseg的代码还没有头绪,不知哪位大拿能指点一二。
HonestQiao
会员
#9 | 发表时间: 2010 06 01 10:47
回复 
那你可以先切分,在最终输出结果阶段,做一个全局替换,把所有的标点符号都替换掉即可;

否则提前去掉,可能影响分词准确性的
DreamDreams
会员
#10 | 发表时间: 2010 06 01 12:25
回复 
我不是提到最前去掉,我的猜想是这样,mmseg肯定是要利用标点的,天然的分割符号,不可能不用,我只是要在mmseg输出一个个token的时候把标点过滤掉不输出,因为这时候还在mmseg里面,应该会比较容易,我认为这时候还应该保留着tag的信息。

如果我等mmseg输出之后再过滤,我就要重做一遍mmseg做过的事情,这种重复劳动效率太低了。全局替换应该没那么简单,中文标点分布在unicode table不同地方,我看到了mmseg是用table, map来映射的,我自己替换也得做这个表,太不值得了。
 
回复
Bold Style  Italic Style  Image 链接  URL 链接 
发帖注意:
  • 网址中请去掉http://开头,例如:您需要输入www.coreseek.cn,而不是http://www.coreseek.cn
  • 咨询问题,请贴出详细的操作系统版本、Coreseek版本(Linux环境请给出编译参数)
  • 请仔细查看中文手册和本站安装指南,确认操作正确
  • 请仔细查看常见问题解答,也许你的问题已经有解决方法

» 帐号  » 密码 
发帖前请登陆, 或者 注册 .