pythonjieba分词

提问
jieba分词我想保留连续的”适得其反”这个词,
但是结果出来老是断成【适得 其反】,该怎么在下面的代码里写

img

  • 你可以看下这个问题的回答https://ask.csdn.net/questions/7438759
  • 我还给你找了一篇非常好的博客,你可以看看是否有帮助,链接:python jieba分词,图片打印清晰,设停用词,去英文
  • 除此之外, 这篇博客: python中jieba分词使用基本介绍中的 结巴分词的三种模式 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • # encoding=utf-8
    # 分词模式介绍
    import jieba
    seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
    print("Full Mode: " + "/ ".join(seg_list))  # 全模式
    
    seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
    print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
    
    seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
    print(", ".join(seg_list))
    
    seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  # 搜索引擎模式
    print(", ".join(seg_list))
    type(seg_list)
    

    输出结果如下
    在这里插入图片描述

  • 您还可以看一下 钱兴会老师的从零开始自然语言处理课程中的 自己构建jieba分词的停词库,提升分词质量小节, 巩固相关知识点
word1=""
word2=""
for word in words:
    word1=word2
    word2=word
    if word2=="适得":
        pass
    elif word1=="适得" and word2=="其反":
        words_ls.append(“适得其反”) 
    else:
        words_ls.append(word)

在代码中使用 jieba.load_userdict() 函数加载自定义词典,代码示例如下:

import jieba

# 加载自定义词典
jieba.load_userdict('适得其反')
# 输入文本进行分词
text = '适得其反的结果往往是事与愿违'
words = jieba.cut(text)
# 输出分词结果
print('/'.join(words))

运行结果如下:

适得其反/的/结果/往往/是/事与愿违

如果以上回答对您有所帮助,点击一下采纳该答案~谢谢