对数据进行清洗,去除数据中的空字符串
、None
、广告
,只留下单词,对留下的单词统计次数
1.使用语句:w=[x for x in words if x not in [' ',None,'广告']]过滤
2.用字典统计词频
words=['a',None,' ' ,'b','广告','a']
w = [x for x in words if x not in [' ', None, '广告']]
d={}
for x in w:
if x in d:
d[x]=d.get(x,0)+1
else:
d[x]=1
print(d)
依次判断单词在不在这三个中,不在就加入新列表1。最后对新列表去重。得到列表2
。然后依次取出列表2元素,用列表1去计数
1.