用默认的词典分词结果:
中文/x 分/x 词/x 测试/x 中国人/x 上海市/x 天安门/x 事件/x 研究生/x 论文/x 百/x 度/x 搜索引擎/x
手动在unigram.txt中加入 百度 1 x:1 之后,生成lib文件,替换掉原始uni.lib之后分词的结果:
中文/x 分/x 词/x 测/x 试/x 中国人/x 上海市/x 天安门/x 事件/x 研究生/x 论文/x 百/x 度/x 搜/x 索/x 引/x 擎/x
确保txt文档是utf-8的,确保生成并使用了lib文件,为什么分词的结果是这样的呢?难道生成字典之后还要配置什么东西吗? |