求TF-IDF改进算法(python语言)

最近在研究文本分类的一些内容,遇到了一些难题,希望有缘人能够指点一下关于TF-IDF改进算法的问题,或者有没有其他渠道可以找到算法紧紧的代码,万分感谢!

参考一下: 一文看懂 TF-IDF (概念图解+4大变种+发展历史) 简单来说,向量空间模型就是希望把查询关键字和文档都表达成向量,然后利用向量之间的运算来进一步表达向量间的关系。比如,一个比较常用的运算就是计算查询关键字所对应的向量和文档所对应的向量之间的 “相关度”。本文还会介绍TF-IDF的变种、历史已经拓展阅读。 https://easyai.tech/ai-definition/tf-idf/
其实你要改变算法,你要从算法的计算过程着手,TF-IDF算法如图

img

你改进算法的话,需要对其公式进行调整,这个要有合理的计算逻辑和验证。如果要提高算法的精度,就要提高数据输入的准确度,比如加强数据清洗规则,使输入的数据更加干净

你好,我是有问必答小助手。为了技术专家团更好地为您解答问题,烦请您补充下(1)问题背景详情,(2)您想解决的具体问题,(3)问题相关代码图片或者报错信息。便于技术专家团更好地理解问题,并给出解决方案。


您可以点击问题下方的【编辑】,进行补充修改问题。

问题背景:用于结构设计领域(自己建立的数据库)
解决的具体问题:实现结构设计领域内的文献自动分类,现在已经成功实现TF-IDF算法的测试,想对特征选择TF-IDF算法进行改进
相关代码:不知道如何实现tf-idf算法的改进代码或者应从哪方面对tf-idf算法进行改进并用代码实现