python 实现两个TXT文本文件内容去重 数据比较大
例如 :
A.txt 内容为 111 222 333 444 555 666 777 888 999 101010
B.txt 内容为 111 222 444 666 888 101010
去除A和 B 里的重复的数据 输出一个文本
两个文本内容各有几百万行的数据
如何实现
我的思路是先读取a的数据生成一个去重的set,然后用这个set去和b生成最后的set。
因为数据量比较大所以最好不要一次性全读进去,写个迭代器一点一点读,具体每次都多少看你电脑配置。
几百万行虽然看起来不少但是如果全是111222这种数据那其实也不是太恐怖,我原来跑过一个几千万行的csv好点的电脑读的也不是特别慢
大数据 - 文本文件数据对比分离去重工具 如何求两个数千GB超大集合的交集和补集
https://blog.csdn.net/zhengzizhi/article/details/89407876?spm=1001.2014.3001.5501