汉语处理方案不仅仅有NTLK和spaCY,实际上国内已经有非常多表现良好的汉语处理包,比如jieba(https://github.com/fxsjy/jieba )就是经常使用的软件包,请根据文档的说明安装该软件包,并给出一个使用jieba进行汉语分词的例子。
安装jieba可以通过pip命令进行:
pip install jieba
安装完成后,可以使用以下代码进行汉语分词:
import jieba
text = "我爱自然语言处理"
words = jieba.cut(text)
print("分词结果:")
for word in words:
print(word)
输出结果为:
分词结果:
我
爱
自然语言处理
可以看到,jieba将句子按照词语进行了分割,并去除了停用词。同时,jieba还支持自定义词典和关键词提取等功能,具体可以参考官方文档。