目前有一个用Python写的数据预处理的代码,不知道怎么在集群上跑,希望知道的大神指导下。
使用 pyshell 或 spark -shell命令可以运行py脚本,具体的使用方法, 楼主可以上网查,关于这方面有很多教程
使用 pyspark 或 spark -shell命令可以运行py脚本,具体的使用方法, 楼主可以上网查,关于这方面有很多教程