如何找出含有相同单词的词组

我有一个知识网络的点边信息文件,如下(节点很多,有一万左右):

img

我想找出含有相同单词的词组(点),并单独列出,在他们之间建立一个有权重的边,以改善网络连通性。如何找出含有相同单词的词组呢?