函数输入:文件路径(见调用示例) # 函数输出:该路径下所有文件中单词出现的频率(以字典数据类型进行返回,去除掉长度不大于2的单词) # 注意:1、在统计单词出现的频率时,所有的单词均应先变成小写。 # 2、在统计单词时,从非字母字符(包括空格)的下一个字符作为单词的字母,直到 # 非字母字符(包括空格)截止。 # 3、数据为整个email文件夹 # 例如: "Increase volume ofEjacu1ate" 分离出来的单词为"increase" ,"volume" , "ofejacu" ,"ate"
邮件内容如下:
--- Codeine 15mg -- 30 for $203.70 -- VISA Only!!! --
-- Codeine (Methylmorphine) is a narcotic (opioid) pain reliever
-- We have 15mg & 30mg pills -- 30/15mg for $203.70 - 60/15mg for $385.80 - 90/15mg for $562.50 -- VISA Only!!! ---
Hi Peter,
With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?
Let me know
Eugene
实际上有50个txt文档,用的是垃圾邮件过滤的数据。
import re
import os
def cpf(path):
dic = {}
FileNames=os.listdir(path)
for fn in FileNames:
if re.search(r'\.txt$',fn):
fullfilename=os.path.join(path,fn)
with open(fullfilename,'r',encoding='utf-8') as f:
s = f.read()
print(s)
li = re.findall(r'[A-Za-z]{3,}',s)
for v in li:
v = v.lower()
dic[v] = dic.get(v,0)+1
return dic
print(cpf(r'e:/xxx'))
您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~
如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~
ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632
非常感谢您使用有问必答服务,为了后续更快速的帮您解决问题,现诚邀您参与有问必答体验反馈。您的建议将会运用到我们的产品优化中,希望能得到您的支持与协助!
速戳参与调研>>>https://t.csdnimg.cn/Kf0y