jieba 如何 提取较为专业的词汇

jieba 如何 提取较为专业的词汇,比如
二次曲面,解析几何,空间,数学 等
而不是下面这些比较宽泛的
课程,基本,理论,能力,学生

该回答通过自己思路及引用到GPTᴼᴾᴱᴺᴬᴵ搜索,得到内容具体如下:
jieba是一个基于前缀树的中文分词工具,它可以将中文文本分解成一个一个的词语。但是,由于中文的特殊性,同一个词语可能有很多种不同的表达方式,因此jieba可能无法准确地分辨出一些较为专业的词汇。

为了提取较为专业的词汇,可以使用jieba提供的自定义词典功能。自定义词典可以让你手动添加一些特定的词语,以便jieba在分词时能够更准确地识别它们。
具体操作步骤如下:

创建一个文本文件,例如custom_dict.txt,将需要添加的专业词汇逐行输入,每行一个词汇。例如:
二次曲面
解析几何
空间
数学
使用jieba的load_userdict函数加载自定义词典,代码示例如下:
import jieba

jieba.load_userdict('custom_dict.txt')

对文本进行分词,例如:

text = '这是一门关于二次曲面和解析几何的课程,涉及空间中的数学理论和相关能力的培养。'
words = jieba.cut(text)
print(list(words))

输出结果应该为:

['这是', '一门', '关于', '二次曲面', '和', '解析几何', '的', '课程', ',', '涉及', '空间', '中', '的', '数学', '理论', '和', '相关', '能力', '的', '培养', '。']

可以看到,jieba成功地将二次曲面和解析几何这两个专业词汇分开,并且没有将其与其他词汇拼接起来。

需要注意的是,自定义词典虽然可以提高jieba对专业词汇的识别能力,但也有可能会导致一些误判。因此,在使用自定义词典时,需要谨慎选择词汇,尽量避免添加过多的冗余词汇。

如果以上回答对您有所帮助,点击一下采纳该答案~谢谢

不知道你这个问题是否已经解决, 如果还没有解决的话:
  • 帮你找了个相似的问题, 你可以看下: https://ask.csdn.net/questions/7415674
  • 我还给你找了一篇非常好的博客,你可以看看是否有帮助,链接:jieba 分词 用户自定义词典(即不想被分开的词)
  • 除此之外, 这篇博客: 利用jieba分词分析小说二中的 基本概念 部分也许能够解决你的问题, 你可以仔细阅读以下内容或者直接跳转源博客中阅读:
    • 语料(Corpus):一组原始文本的集合,用于无监督地训练文本主题的隐层结构。语料中不需要人工标注的附加信息。在Gensim中,Corpus通常是一个可迭代的对象(比如列表)。每一次迭代返回一个可用于表达文本对象的稀疏向量。
    • 向量(Vector):由一组文本特征构成的列表。是一段文本在Gensim中的内部表达。
    • 稀疏向量(SparseVector):通常,我们可以略去向量中多余的0元素。此时,向量中的每一个元素是一个(key, value)的元组
    • 模型(Model):是一个抽象的术语。定义了两个向量空间的变换(即从文本的一种向量表达变换为另一种向量表达)。
  • 您还可以看一下 钱兴会老师的从零开始自然语言处理课程中的 jieba分词介绍小节, 巩固相关知识点

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^