Python怎么进行指定文本词频统计?

根据自己所学专业文字完成对一篇文章(文本文件)的词频统计,具体参照词频统计案例。

=====

  1. 读入文本信息
  2. 指定文本词频统计
  3. 退出

    请输入功能编号:

https://blog.csdn.net/m0_61903191/article/details/123817563

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 这个问题的回答你可以参考下: https://ask.csdn.net/questions/7672743
  • 你也可以参考下这篇文章:python 异常处理编程 编写程序,在完成上一题功能的基础上。要求考虑输入非法情况,如果输入的数不合法,要求让其重新输入,直至输入一个分数。
  • 你还可以看下python参考手册中的 python- 定义扩展类型:已分类主题- 属性管理
  • 您还可以看一下 jeevan老师的Python量化交易,大操手量化投资系列课程之内功修炼篇课程中的 讲师简介,量化交易介绍及自动化交易演示小节, 巩固相关知识点
  • 以下回答来自chatgpt:

    问题解答:

    # 导入需要使用的库
    import os
    import sys
    import collections
    
    # 定义读取文件函数
    def read_file(file_path):
        f = open(file_path, 'r', encoding='utf-8')
        content = f.read()
        f.close()
        return content
    
    # 定义词频统计函数
    def word_count(content, word):
        count = collections.Counter(content.split())
        return count.get(word)
    
    if __name__ == '__main__':
        # 输入文件路径以及目标单词
        file_path = input("请输入文件路径:")
        word = input("请输入目标单词:")
    
        # 判断文件是否存在
        if not os.path.exists(file_path):
            print("文件不存在")
            sys.exit()
    
        # 读取文件内容
        content = read_file(file_path)
    
        while True:
            option = input("请选择需要执行的功能:1.进行词频统计,2.退出程序")
    
            if option == "1":
                # 进行词频统计
                word_num = word_count(content, word)
                print("单词'{}'出现的次数为:{}".format(word, word_num))
            elif option == "2":
                # 退出程序
                print("退出程序")
                sys.exit()
            else:
                # 输入错误,重新输入
                print("输入错误,请重新输入")
    

    解释:

    1. 首先导入需要使用的库,包括os库、sys库、collections库。
    2. 定义函数read_file(),用于读取文件内容。该函数打开文件,读取文件内容,并将文件关闭,最后返回文件内容。
    3. 定义函数word_count(),用于进行词频统计。该函数将文件内容按空格分割,使用collections库中的Counter函数统计每个单词的出现次数,并返回目标单词的出现次数。
    4. 在主函数中,先让用户输入文件路径和目标单词。
    5. 判断文件是否存在,如果不存在则打印提示信息并退出程序。
    6. 进入循环,等待用户输入选择需要执行的功能,如果选择1,则调用word_count()函数进行词频统计,输出目标单词的出现次数;如果选择2,则退出程序;如果输入错误,则提示重新输入。
    7. 通过input()函数获取用户输入,input()函数将会作为字符串进行处理,所以需要将option用引号括起来。
    8. 根据不同的用户输入执行相应的功能,可以使用if语句或者字典来进行选择。
    9. 在输出结果时,可以使用format()方法将变量值填充到字符串中。

    这样就可以实现对指定文本的词频统计功能了。


如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^