使用NLP中文近义词工具synonyms时,发现下载的一个文件'vocab.txt',里面中文词语后有个数字,哪位朋友能解释一下这个数字是什么吗?干什么用的?
同一种词性标注的词汇数量?
比如
nr 人名
nz 其它专名
n 名词
词频
是词频。
(1)vocab.txt是synonyms的中文分词主字典,格式和使用参考另一个库jieba。
(2)词典格式和 dict.txt 一样,一个词占一行;每一行分三部分:词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒。file_name 若为路径或二进制方式打开的文件,则文件必须为 UTF-8 编码。
词频省略时使用自动计算的能保证分出该词的词频。
(3)参考资料
https://github.com/fxsjy/jieba#%E8%BD%BD%E5%85%A5%E8%AF%8D%E5%85%B8
https://github.com/fxsjy/jieba/blob/master/test/userdict.txt
https://github.com/chatopera/Synonyms