python的jieba分词如何把“很”这类词单独划分出来?“这道菜很腻”,自定义词典中有“腻”这个单字,但是jieba切出来还是“很腻”,我想要的效果是“很”“腻”这样,请问大家有什么方法吗?
可以通过调整jieba分词中的词频来实现将“很”这类词单独划分出来的效果。
首先,需要将自定义词典中的单字加入到jieba的词典中,可以使用以下代码:
import jieba
jieba.load_userdict('userdict.txt')
其中,userdict.txt
是自定义词典文件名,文件格式为每行一个词,词语后面可以跟随词频,例如:腻 100
然后,可以将“很”这类词的词频调整为较高的值,例如:
import jieba
jieba.add_word('很', freq=1000)
最后,使用jieba.cut()
函数进行分词时,可以加上cut_all=False
参数,表示使用精确模式,这样就能够将“很”这类词单独划分出来了,例如:
import jieba
jieba.load_userdict('userdict.txt')
jieba.add_word('很', freq=1000)
text = '这道菜很腻'
words = jieba.cut(text, cut_all=False)
print(list(words))
输出结果为:
['这道菜', '很', '腻']