1.他们处理的数据源和处理次数、处理逻辑是一模一样的!!可是所需的时间差异却这么的大
2.因为spark版的kmeans算法里我要迭代计算新的聚类中心点,每一次迭代计算的聚类中心点结果需要collect到drive端,来进行下一次的迭代计算