400张相同的表格,每张都有80万行左右,怎么进行合并,并且输出后,还能统计400张所有表格中的重复数量。
这是真的把我难受了,主要是表格最高能统计104万行,超了,就没办法了。
现在数据量的总行数在
400*800000=3亿2000万0000行。
我需要统计,这3亿行中,出现的重复数,并且,还能导出来。
有什么方法,可以实现吗?
联系使用Python的pandas,如果有必要的话,使用分块处理,pandas底层用的是C,处理亿级的数据丝毫不成问题
如果不是及时的,Java随便写个脚本等他慢慢跑吧
存到 数据库,写 sql
表格有多少列?重复是每列元素都相等才算?