clickhouse如何去掉重复数据?

a,每天2份指标数据,上午的是新增,下午的是更新数据(有补数有新增,但是99%都是重复的数据)

b, 采用ReplacingMergeTree存储引擎,但是合并数据操作是后台不定时执行,在这期间会有重复数据,查询的时候会重复

c,如果解决改从哪方面入手,1落地的时候执行OPTIMIZE语句(阻塞?数据量大的时候会不会失效?每个月大概1千万的数据量)2、查询的时候用final 效率太低

有没有更好的解决方案

把未处理的数据临时保存在hashmap里面效率是否比较高呢。

您好,我是有问必答小助手,你的问题已经有小伙伴为您解答了问题,您看下是否解决了您的问题,可以追评进行沟通哦~

如果有您比较满意的答案 / 帮您提供解决思路的答案,可以点击【采纳】按钮,给回答的小伙伴一些鼓励哦~~

ps:问答VIP仅需29元,即可享受5次/月 有问必答服务,了解详情>>>https://vip.csdn.net/askvip?utm_source=1146287632

 

非常感谢您使用有问必答服务,为了后续更快速的帮您解决问题,现诚邀您参与有问必答体验反馈。您的建议将会运用到我们的产品优化中,希望能得到您的支持与协助!

速戳参与调研>>>https://t.csdnimg.cn/Kf0y

对于时效性有没有要求,如果没有那么严格的话 更新可以写在另一张表B ,定时同步表B的数据到主表,合并分区的时候 只合并更新这部分的分区,别整表合并