安装第三方扩展库jieba,用该库所提供的一些方法,对下面的新闻进行分词,分词后统计每个词的出现次数,最终输出统计结果,每行显示5个字词的统计结果。提示:(1)不要统计各种标点,
如:punctuation=r'[’!"#$%&'()*+,-./:;?@[\]^_`{|}~]+,、。\n “”();—'
(2)不要统计数值,如228等。
试试这样写:
import jieba
punctuation = r'[’!"#$%&\'()*+, -./: ; ?@ [\]^_`{|}~] +,、。\n “”();—'
with open('t11031.txt','r',encoding='utf-8') as f:
words=jieba.cut(f.read())
words=[w for w in words if w not in punctuation and w.isalpha()]
dic={}
for k in words:
if k in dic:
dic[k]+=1
else:
dic[k]=1
for n,(k,v) in enumerate(dic.items()):
if n%6!=0:
print(f'{k}:{v}',end='\t')
else:
print()
运行结果:
库是:1 一款:1 优秀:1 的:5 Python:1
中文:1 分:2 词库:1 支持:1 三种:2
精确:4 模式:8 全:2 和:1 搜索引擎:2
是:2 特点:1 试图:1 将:2 语句:2
切分:3 不:1 存在:2 冗余:2 数据:2
做:1 文本:1 分析:1 中:1 所有:1
词:2 词语:1 都:1 出来:1 速度:1
但是:1 在:1 基础:1 上:1 对长:1
如有帮助请点采纳。