# 停用词
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
word_tokens=str(word_tokens)
filtered_sentence = [w for w in word_tokens if not w in stop_words]
print(filtered_sentence)
得到的结果是:
['[', "'", '[', "'", ',', ' ', '"', "'", '"', ',', ' ', "'", 'D', 'e', 'c', 'r', 'p', 'o', 'n', "'", ',', ' ', "'", 'O', 'f', "'", ',', ' ', "'", 'E', 'v', 'e', 'n', '\\', '\\', 'n', '0', "'", ',', ' ', "'", 'T', 'h', 'e', "'", ',', ' ', "'", 'p', 'l', "'", ',', ' ', "'", 'w', "'", ',', ' ', "'", 'p', 'u', 'n', 'c', 'u', 'r', 'e', 'd', "'", ',', ' ', "'", 'b', 'y', "'", ',', ' ', "'", 'n', 'o', 'h', 'e', 'r', "'", ',', ' ', "'", 'p', 'l', 'l', 'e', "'", ',', ' ', "'", 'n', "'", ',', ' ', "'", 'h', "'", ',', ' ', "'", '.', '.', '.', "'", ',', ' ', "'", '\\', '\\', 'n', '1', "'", ',', ' ', "'", 'W', 'h', 'l', 'e', "'", ',', ' ', "'", 'u', 'n', 'l', 'o', 'd', 'n', 'g', "'", ',', ' ', "'", 'h', 'e', "'", ',', ' ', "'", 'd', 'r', 'u', 'm', "'", ',', ' ', "'", 'f', 'e', 'l', 'l', "'", ',', ' ', "'", 'o', 'f', 'f', "'", ',', ' ', "'", 'h', 'e', "'", ',', ' ', "'", 'd', 'o', 'c', 'k', "'", ',', ' ', "'", 'n', 'd', "'", ',', ' ', "'", '.', '.', '.', "'", ',', ' ', "'", '\\', '\\', 'n', '2', "'", ',', ' ', "'", 'T', 'h', 'e', "'", ',', ' ', "'", 'p', 'l', "'", ',', ' ', "'", 'w', "'", ',', ' ', "'", 'f', 'o', 'u', 'n', 'd', "'", ',', ' ', "'", 'b', 'e', 'w', 'e', 'e', 'n', "'", ',', ' ', "'", 'w', 'o', "'", ',', ' ', "'", 'k', 'd', "'", ',', ' ', "'", 'c', 'r', 'u', 'h', 'e', 'd', "'", ',', ' ', "'", "'", ',', ' ', "'", '.', '.', '.', "'", ',', ' ', "'", '\\', '\\', 'n', '3', "'", ',', ' ', "'", 'W', 'h', 'l', 'e', "'", ',', ' ', "'", 'u', 'n', 'l', 'o', 'd', 'n', 'g', "'", ',', ' ', "'", 'h', 'e', "'", ',', ' ', "'", 'r', 'l', 'e', 'r', "'", ',', ' ', "'", 'h', 'e', "'", ',', ' ', "'", 'd', 'o', 'c', 'k', 'w', 'o', 'r', 'k', 'e', 'r', "'", ',', ' ', "'", 'p', 'u', 'n', "'", ',', ' ', "'", '.', '.', '.', "'", ',', ' ', "'", '\\', '\\', 'n', '4', "'", ',', ' ', "'", 'O', 'n', "'", ',', ' ', "'", 'J', 'n', 'u', 'r', 'y', "'", ',', ' ', "'", '3', ',', '2', '0', '2', '0', "'", ',', ' ', "'", ',', "'", ',', ' ', "'", "'", ',', ' ', "'", 'r', 'c', 'o', 'r', '-', 'r', 'l', 'e', 'r', "'", ',', ' ', "'", 'd', 'o', 'c', 'k', 'e', 'd', "'", ',', ' ', "'", "'", ',', ' ',
想问一下是哪里出错了,要怎么处理呀?
问题在word_tokens不是分词列表,只是一个字符串,取出来的只能是单个字母和标点符号,检查一下word_tokens,并对标点符号进行处理。
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
word_tokens = ['hello','yes','string','test','this','don\'t']
filtered_sentence = [w for w in word_tokens if not w in stop_words]
print(filtered_sentence)
您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>> https://vip.csdn.net/askvip?utm_source=1146287632