请问TF-IDF算法有需要人为设定的超参数吗?
如果有的话,都有什么?一般取值范围是多少呢?
是的,TF-IDF算法有需要人为设定的超参数:
1.词频权重算法(TF):包括 raw frequency、log normalization、augmented frequency 等。
2.逆文档频率算法(IDF):包括 basic IDF、probabilistic IDF、smooth IDF 等。
对于取值范围,具体的取值取决于所选择的具体算法。一般情况下,词频和逆文档频率都是以自然数形式给出的。但是,对于一些具体的词频和逆文档频率算法,也可以使用带有实数权重的参数,具体的超参数设定需要根据数据和任务特征进行评估和调整。
哎呀,能看到这篇个人日志,估计你早已明白tf-idf了吧。下面简单啰嗦一下凑字数。
tf:是指当前文本中出现这个单词的频次,在这个文本里面出现越多当然越重要啦。
idf:是指n个文本中有多少个文本出现过这个单词,越特殊越重要的,也就是出现在越少的文本中重要。
tf*idf构成了单词的权重,就我理解这还是比较科学的哈哈哈。