TF-IDF算法的超参数设置问题

请问TF-IDF算法有需要人为设定的超参数吗?
如果有的话,都有什么?一般取值范围是多少呢?

是的,TF-IDF算法有需要人为设定的超参数:

1.词频权重算法(TF):包括 raw frequency、log normalization、augmented frequency 等。

2.逆文档频率算法(IDF):包括 basic IDF、probabilistic IDF、smooth IDF 等。

对于取值范围,具体的取值取决于所选择的具体算法。一般情况下,词频和逆文档频率都是以自然数形式给出的。但是,对于一些具体的词频和逆文档频率算法,也可以使用带有实数权重的参数,具体的超参数设定需要根据数据和任务特征进行评估和调整。

  • 这篇文章讲的很详细,请看:TF-IDF算法实现,稀疏矩阵的转化
  • 除此之外, 这篇博客: 基于TF-IDF算法,来创建自己的词典库(文本预处理并结合关键词库)中的 什么是TF-IDF? 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • 哎呀,能看到这篇个人日志,估计你早已明白tf-idf了吧。下面简单啰嗦一下凑字数。
    tf:是指当前文本中出现这个单词的频次,在这个文本里面出现越多当然越重要啦。
    idf:是指n个文本中有多少个文本出现过这个单词,越特殊越重要的,也就是出现在越少的文本中重要。
    tf*idf构成了单词的权重,就我理解这还是比较科学的哈哈哈。