tfidf计算文本相似度

目前有N个已经分好词的英文txt文件,希望通过tfidf计算两两txt之间的文本相似度

已分词文本示例:

img

是按空格进行的分词,图中为一个txt文件中的3条文本,需要实现的是两两txt文本之间每个文本相似度的计算,即类似一个矩阵,比如txt A有5个文本,txt B有3个文本,即计算这3x5个文本之间的相似度

可以使用gensim包计算tf-idf
具体使用方法可查看gensim官方文档