【python】多封邮件词频统计

函数输入：文件路径（见调用示例）
# 函数输出：该路径下所有文件中单词出现的频率（以字典数据类型进行返回，去除掉长度不大于2的单词）
# 注意：1、在统计单词出现的频率时，所有的单词均应先变成小写。
#       2、在统计单词时，从非字母字符（包括空格）的下一个字符作为单词的字母，直到
#      非字母字符（包括空格）截止。
#       3、数据为整个email文件夹
# 例如： "Increase volume ofEjacu1ate" 分离出来的单词为"increase" ,"volume" , "ofejacu" ,"ate"

邮件内容如下：

--- Codeine 15mg -- 30 for $203.70 -- VISA Only!!! --

-- Codeine (Methylmorphine) is a narcotic (opioid) pain reliever
-- We have 15mg & 30mg pills -- 30/15mg for $203.70 - 60/15mg for $385.80 - 90/15mg for $562.50 -- VISA Only!!! ---

Hi Peter,

With Jose out of town, do you want to
meet once in a while to keep things
going and do some interesting stuff?

Let me know
Eugene

实际上有50个txt文档，用的是垃圾邮件过滤的数据。

import re
import os

def cpf(path):
    dic = {}
    FileNames=os.listdir(path)
    for fn in FileNames:
        if re.search(r'\.txt$',fn):
            fullfilename=os.path.join(path,fn)
            with open(fullfilename,'r',encoding='utf-8') as f:
                s = f.read()
                print(s)

                li = re.findall(r'[A-Za-z]{3,}',s)
                for v in li:
                    v = v.lower()
                    dic[v] = dic.get(v,0)+1

    return dic

print(cpf(r'e:/xxx'))

您好，我是有问必答小助手，您的问题已经有小伙伴解答了，您看下是否解决，可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案，可以点击【采纳】按钮，给回答的小伙伴一些鼓励哦～～

ps:问答VIP仅需29元，即可享受5次/月有问必答服务，了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632

非常感谢您使用有问必答服务，为了后续更快速的帮您解决问题，现诚邀您参与有问必答体验反馈。您的建议将会运用到我们的产品优化中，希望能得到您的支持与协助！

速戳参与调研>>>https://t.csdnimg.cn/Kf0y