我不是提到最前去掉,我的猜想是这样,mmseg肯定是要利用标点的,天然的分割符号,不可能不用,我只是要在mmseg输出一个个token的时候把标点过滤掉不输出,因为这时候还在mmseg里面,应该会比较容易,我认为这时候还应该保留着tag的信息。
如果我等mmseg输出之后再过滤,我就要重做一遍mmseg做过的事情,这种重复劳动效率太低了。全局替换应该没那么简单,中文标点分布在unicode table不同地方,我看到了mmseg是用table, map来映射的,我自己替换也得做这个表,太不值得了。 |