配置的地址没有报错,
root=D://
CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt;CompanyName.txt;school.txt;
字典(school.txt):
上海财经大学 ntu 1
上海交通大学 ntu 1
复旦大学 ntu 1
北京大学 ntu 1
清华大学 ntu 1
中国科学技术大学 ntu 1
浙江大学 ntu 1
中国人民大学 ntu 1
对外经济贸易大学 ntu 1
中央财经大学 ntu 1
同济大学 ntu 1
外交学院 ntu 1
上海外国语大学 ntu 1
北京外国语大学 ntu 1
北京航空航天大学 ntu 1
....
方法这样调用:
Segment segment = HanLP.newSegment().enableCustomDictionary(true);
final List schoolList = segment.seg(content);
但我定义的词和词性还是没有按照我设置的词进行分词,
例如我在自己的分词txt文件中设置了 浙江大学 ntu 1,
但分词后还是分成了 浙江 nt,大学 n,请大神指点一二
原因很简单,你强制使用自定义词典代码写错,正确函数是:enableCustomDictionaryForcing(true);
http://blog.csdn.net/a_step_further/article/details/50333961
另外注意以下两点:
1、保证自定义字典文件编码格式为utf-8;
2、删除\data\dictionary\custom\CustomDictionary.txt.bin缓存文件;
再次运行会提示找不到CustomDictionary.txt.bin文件,然后大概需要100s等待重新加载自定义词典即可!
补充一点,自定义词中不能含有空格,否则一直会有警告。
问怎么添加都不起作用,为什么?
我是Ubuntu 16.0