Java语言高分悬赏,怎么将多个txt中的数据和并在一起,并且去掉重复
Java语言高分悬赏,怎么将多个txt中的数据和并在一起,并且去掉重复
实现思路:
1、txt 文件定义为列表,外层循环文件;全局定义统计变量,使用 HashMap 结构来存储结构。
2、堆每个文件的处理,循环读取每一行,读取需要的数据,key 与全局 HashMap 中的数据对比
存在:则合并上次旧的数据和此次新数据;
不存在:新数据,直接 put(key,value)
思路:
1、新建txt文件用来保存新的合并的内容;
2、循环读取需要合并的txt文件,判断内容是否重复(是全部内容重复还是部分内容重复);
3、重复的内容跳过,不重复的内容写到新的文件中去;
你是不是想说CSV格式的文件,还是什么,请详细描述问题。
TXT文本去重 TXT去重 TXT文本合并去重工具 —— 20亿行130GB的数据只需60分钟
https://blog.csdn.net/zhengzizhi/article/details/72615021
例如:多个TXT大数据文本文件合并以及文本行去重 130GB20亿行数据60分钟即可完成去重操作
测试数据大小:20亿行130GB的数据只需60分钟
平均去重速度:2000000000(行) ÷ 3600(秒) = 555555(行/秒)≈55万行/秒