要计算30万个文档的tfidf,idf字典已经计算好了,在计算tf-idf,用字典构建文档空间向量的时候内存不够。我也尝试把每一个文档的tfidf字典写入一个新文档,但是时间效率低,文档空间也过大。不知道该用什么样的方法高效地计算较大数据的tfidf并构建空间向量。
idf理论来说这么多可以了加载到内存,你把文档id和idf作为键值对加载到内存不可能加载不进去,计算tf时,这个加载进来的idf尽量不要赋值操作,可以用yield遍历,再读一个文件,计算tfidf,然后再释放,速度上应该也不慢。
这个我不太会,关注一下
数据量太大,你得电脑配置估计得好几年