实时清洗使用spark submit提交任务的时候,根据接受的kafka数据量自动分配资源和task任务并且不影响集群上其他job执行

实时清洗使用spark submit提交任务的时候,根据接受的kafka数据量自动分配资源和task任务并且不影响集群上其他job执行

望采纳!!!
1、还是需要考虑如果kafka存在rebalance的情况下,你要如何处理的问题。
2、kafka如果已经到位,可以通过消费的offset和最新的offset进行对比。如果实时进来的话,只能通过类似流量监控的包进行处理了。
3、还可以通过调整spark的executor和memory进行任务的启停。