在数据仓库中,大表关联小表会产生数据倾斜,原因是关联查询时,有一个较小的表的key比较集中,key的分布不均,就导致在分区时,某一个或几个分区的数量过多
我想问的问题是较小表中key是否可以重复,如果不可以重复,怎么会有key的分布不均呢
请帮忙解答一下,谢谢!
较小表中的key通常是唯一的,不允许重复。在抽取过程中没有进行均衡的筛选和分布,可能导致某些源的数据量较大,而其他源的数据量较小,从而导致较小表中key的分布不均。清洗过程中没有充分考虑数据分布的平衡,没有对某些key进行了过滤或聚合,可能导致key的分布不均