大数据量下数据怎么全量比较大数据量下数据怎么全量比较大数据量下数据怎么全量比较
有没有好的思路
将数据正规化(比如排序、去重,计算hash等),然后再作为索引比较。
结果需要聚合吗? 不需要聚合的话就对数据做分区分片 然后并行比较,多个线程或者多个服务多个机器 都能操作,如果需要对结果做聚合就相对比较复杂一点,在第一步的比较之后再把结果发送到一个统一接收端做聚合。
你这个问题问的很模糊啊,具体比较什么呢?相同?不同?大小?包含?