为啥同样的的数据源spark的collect算子循环150次6s，pyspark的collect循环150次要2300s？

1.他们处理的数据源和处理次数、处理逻辑是一模一样的！！可是所需的时间差异却这么的大

2.因为spark版的kmeans算法里我要迭代计算新的聚类中心点，每一次迭代计算的聚类中心点结果需要collect到drive端，来进行下一次的迭代计算