文章1和2的文件名由用户输入。将两篇文章的相同单词,相同单词数量,相同单词在两篇文章的出现次数,相同单词分别在各自文章所占百分比,输出到屏幕,同时保存在一个单独的文件中
http://bbs.csdn.net/topics/360200867
那个网站不行啊!显示出有爬虫
雷同检测软件你试试!
map
可以参考编程珠玑第二版第二章的内容
首先强调下,你的算法有问题,单词相同占比不能说明文章雷同。
非要按照你做,你可以扫描两篇文章,构造字典树。然后可以得到一个全文单词和出现词频的排序,两者比较下就可以了。
C#构造字典树的代码我分享过。