python123上的jieba库

img


填写横线上的内容即可,中文字符和中文词语的统计有什么区别吗?请问有没有会的呀,好像在网上不太能搜到

import jieba
s='电饭锅数据库电饭锅快递费官非督护贵'
n=len(s)
m=len(jieba.lcut(s))
print('中文字符数为{},中文词语数为{}'.format(n,m))
  • 帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/7438759
  • 我还给你找了一篇非常好的博客,你可以看看是否有帮助,链接:【python】jieba分词,去停用词,自定义字典
  • 除此之外, 这篇博客: Python_jieba库中的 jieba库是Python中一个重要的第三方中文分词函数库,能够将一段中文文本分隔成中文词语序列,就像人结巴时说话一样。 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:

  • 实例1:

    import jieba  #
    
    f = open('data.txt','r')   # 导入文本数据
    lines = f.readlines()
    f.close()
    f = open('out.txt','r+')  # 使用r+模式读取和写入文件
    for line in lines:     
        line=  line.strip()         # 删除每行首尾可能出现的空格
        wordList = jieba.lcut(line)         # 用结巴分词,对每行内容进行分词
        f.writelines('\n'.join(wordList))  # 将分词结果存到文件out.txt中
    f.seek(0)
    txt = f.read()
    print(txt)
    f.close()
    
  • 您还可以看一下 钱兴会老师的从零开始自然语言处理课程中的 自己构建jieba分词的停词库,提升分词质量小节, 巩固相关知识点
  • 以下回答由chatgpt基于相关博客总结生成:

    由参考资料可以得知,jieba库可以完成中文分词和中文词性的判别,用于获取不同类型的中文字符串。其中分词后得到的每一个词语可以用于中文词语统计。因此,中文字符和中文词语统计的区别在于处理的对象不同。要完成中文字符和中文词语的统计,可以对中文文本进行分词后统计得到。

    以下是以jieba库完成中文字符串和词语统计的示例代码:

    import jieba
    
    text = "我爱Python,因为Python太强大了。"
    
    # 中文字符串统计
    char_num = len(text)              # 统计字符数
    print("中文字符数:", char_num)
    
    # 中文词语统计
    seg_list = jieba.cut(text)        # 分词
    word_dict = {}                    # 统计词语
    for word in seg_list:
        if word in word_dict:
            word_dict[word] += 1
        else:
            word_dict[word] = 1
    print("中文词语统计:", word_dict)
    

    在以上代码中,首先利用jieba库进行分词,然后分别对分词后的结果进行了中文字符和中文词语的统计。

    需要注意的是,中文词语统计结果需要进行去重操作,否则可能会出现重复统计的情况。

    另外,在实际应用中,为了更好地进行中文词语统计,可能需要针对特定领域使用自定义词典进行分词。可以使用jieba库提供的load_userdict()方法或手动添加词典实现。具体方法可以参考上述参考资料中的相关内容。