文本数据清洗,去除数据中的`空字符串`、`None`、`广告`,只留下单词,对留下的单词统计次数

对数据进行清洗,去除数据中的空字符串None广告,只留下单词,对留下的单词统计次数

1.使用语句:w=[x for x in words if x not in [' ',None,'广告']]过滤
2.用字典统计词频

words=['a',None,' ' ,'b','广告','a']
w = [x for x in words if x not in [' ', None, '广告']]
d={}
for x in w:
    if x in d:
        d[x]=d.get(x,0)+1
    else:
        d[x]=1
print(d)

依次判断单词在不在这三个中,不在就加入新列表1。最后对新列表去重。得到列表2

。然后依次取出列表2元素,用列表1去计数

1.