要付费也行,可以私信我
另外s_4和s_6的单词都是原型,原文多是特殊形式,这一点该怎么解决呢?
#gdut龙洞。 同校的别撞我车谢谢
一般就用到匹配,计数相关的库,再加上文件读取相关的库。
其实,很多库都是你使用过程中才发现要用的,详细可私我
nltk包
Spacy包
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
lemmatizer.lemmatize('填写不同时态的单词 ')
# 输出:'原型单词 '
利用上下文语境和词性来确定相关单词的变化形式,根据词性来获取相关的词根,也叫lemma,结果是真实的单词。
基于字典的映射。nltk中要求手动注明词性,否则可能会有问题。因此一般先要分词、词性标注,再词性还原。
Spacy
https://www.cnblogs.com/ljhdo/p/10777246.html
collections库中counter函数