计算大量文本TF-IDF

要计算30万个文档的tfidf，idf字典已经计算好了，在计算tf-idf，用字典构建文档空间向量的时候内存不够。我也尝试把每一个文档的tfidf字典写入一个新文档，但是时间效率低，文档空间也过大。不知道该用什么样的方法高效地计算较大数据的tfidf并构建空间向量。

idf理论来说这么多可以了加载到内存，你把文档id和idf作为键值对加载到内存不可能加载不进去，计算tf时，这个加载进来的idf尽量不要赋值操作，可以用yield遍历，再读一个文件，计算tfidf，然后再释放，速度上应该也不慢。

这个我不太会，关注一下

数据量太大，你得电脑配置估计得好几年