【python】多封邮件词频统计

函数输入:文件路径(见调用示例)
# 函数输出:该路径下所有文件中单词出现的频率(以字典数据类型进行返回,去除掉长度不大于2的单词)
# 注意:1、在统计单词出现的频率时,所有的单词均应先变成小写。
#       2、在统计单词时,从非字母字符(包括空格)的下一个字符作为单词的字母,直到
#      非字母字符(包括空格)截止。
#       3、数据为整个email文件夹
# 例如: "Increase volume ofEjacu1ate" 分离出来的单词为"increase" ,"volume" , "ofejacu" ,"ate"

 

邮件内容如下:

--- Codeine 15mg -- 30 for $203.70 -- VISA Only!!! --

-- Codeine (Methylmorphine) is a narcotic (opioid) pain reliever
-- We have 15mg & 30mg pills -- 30/15mg for $203.70 - 60/15mg for $385.80 - 90/15mg for $562.50 -- VISA Only!!! ---

 

Hi Peter,

With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?

Let me know
Eugene

 

实际上有50个txt文档,用的是垃圾邮件过滤的数据。

import re
import os

def cpf(path):
    dic = {}
    FileNames=os.listdir(path)
    for fn in FileNames:
        if re.search(r'\.txt$',fn):
            fullfilename=os.path.join(path,fn)
            with open(fullfilename,'r',encoding='utf-8') as f:
                s = f.read()
                print(s)

                li = re.findall(r'[A-Za-z]{3,}',s)
                for v in li:
                    v = v.lower()
                    dic[v] = dic.get(v,0)+1

    return dic

print(cpf(r'e:/xxx'))

 

您好,我是有问必答小助手,您的问题已经有小伙伴解答了,您看下是否解决,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632

非常感谢您使用有问必答服务,为了后续更快速的帮您解决问题,现诚邀您参与有问必答体验反馈。您的建议将会运用到我们的产品优化中,希望能得到您的支持与协助!

速戳参与调研>>>https://t.csdnimg.cn/Kf0y