gensim里LDA模型训练时的corpus参数什么意思?

问题1:gensim里LDA模型训练时的corpus参数什么意思?


lda = LdaModel(corpus=corpus, id2word=dictionary, num_topics=20, passes=60)

问题2:看到有人还结合了tf-idf来初始化corpus,为什么要用tf-idf呢?

tfidf_model = model.TfidfModel(corpus)
corpus_tfidf = tfidf_model[corpus]
  • 这篇文章:TF-IDF矩阵与LDA模型的参数 也许能够解决你的问题,你可以看下
  • 除此之外, 这篇博客: gensim实现TF-IDF和LDA模型、sklearn实现聚类中的 2.2 corpus创建 部分也许能够解决你的问题, 你可以仔细阅读以下内容或跳转源博客中阅读:
  • corpus = [id2word.doc2bow(text) for text in string_list100]   # 分别对每篇文章建立词袋向量
    
    print(corpus[:1])
    print([[(id2word[id], freq) for id, freq in cp] for cp in corpus[:1]])
    

    输出形如:

    [(0, 2), (1, 2)]
    [('一侧', 2), ('一端', 2)]