公共子序列文章相似度!

基于公共子序列的文章相似度
实现一种基于公共子序列的文章相似度算法,即以两文件的公共子序列包含词汇占总词汇的比例来定义相似度。为简化问题,这里不考虑中文(因为分词困难),只考虑文件中长度 5‐8 个英文单词的子序列【要求子序列中的空格、换行、制表符 Tab 不影响判断结果,以标点符号为判断边界】。
输入:
给出要检查的两篇英文文档所在文件夹位置
输出:

  1. 给出该文件夹下两文件的相似度数值
  2. 分别在两文件中标识出所找到的公共子序列
    说明:
    两文件的相似度定义为两文件的公共子序列包含词汇占总词汇的比例