用C++写一个文本比较程序,比较文本重复率

比较两个或多个源代码、文本的重复率(代码、文本查重)

1.读文件,逐句或者逐个单词解析出来,放入队列或者map中(这个随意,都可以),每个文件一个队列或者map
2.用文件1的队列去跟其他文件的队列做比较,统计文件1的队列内容在其他文件队列中的出现次数,然后统计占比,就得出重复率

请问对重复的标准是怎么定义的呢?你得明确一个计算公式啊