在学数据仓库时,遇到这么一句话:“使用group by但没有用聚合函数,导致维度过小,某值的数量过多,产生数据倾斜”,是什么意思,麻烦指点一二,谢谢!
只是用group by,没有使用聚合函数查询结果会将相同值的行归为一组,没有对这些分组进行具体的计算,在没有使用聚合函数的情况下,某个值在数据集中出现的次数过多,从而导致数据在不同分组中的分布不均匀。