JAVA查重用什么数据结构比较好

两个txt中各有几万行数字，用什么数据结构比较适合做（JAVA）：
先分别去重后，输出一个文件中有而另一个没有的数字？或者查不重复的再去重也行

如果可以用excel操作，请告诉我操作方法，我对excel不熟悉

解决了，我忘了set还有removeAll()这个方法，用两个set做个差集就行了

你描述的还不够准确，两个txt本身就有重复的数字？分别去重，还是合并为一个txt去重。建议数据库创建一个表，添加唯一键这样就不会把重复的添加进去。

两个算法：
最小编辑距离：https://blog.csdn.net/ssjjy/article/details/19127117?ABstrategy=codes_snippets_optimize_v4 这个指标越小，说明文本越相似（比如那种拿一个文章修改修改，就冒充自己的）
最长公共子串：https://blog.csdn.net/xiaoyi357/article/details/70209164/ 这个指标越大，说明文本越相似（特别是对于那种论文选择一段来抄袭拼凑的）