两个txt中各有几万行数字,用什么数据结构比较适合做(JAVA):
先分别去重后,输出一个文件中有而另一个没有的数字?或者查不重复的再去重也行
如果可以用excel操作,请告诉我操作方法,我对excel不熟悉
解决了,我忘了set还有removeAll()这个方法,用两个set做个差集就行了
你描述的还不够准确,两个txt本身就有重复的数字?分别去重,还是合并为一个txt去重。建议数据库创建一个表,添加唯一键这样就不会把重复的添加进去。
两个算法:
最小编辑距离:https://blog.csdn.net/ssjjy/article/details/19127117?ABstrategy=codes_snippets_optimize_v4 这个指标越小,说明文本越相似(比如那种拿一个文章修改修改,就冒充自己的)
最长公共子串:https://blog.csdn.net/xiaoyi357/article/details/70209164/ 这个指标越大,说明文本越相似(特别是对于那种论文选择一段来抄袭拼凑的)