YARN.NODEMANAGER.RESOURCE.CPU-VCORES=88;
YARN.NODEMANAGER.RESOURCE.MEMORY-MB=360G;
YARN.SCHEDULER.MINIMUM-ALLOCATION-MB=2G;
YARN.SCHEDULER.MINIMUM-ALLOCATION-VCORES=1;
CDH 6.3.2(Hadoop 3.0)集群上执行一个HIVE SQL或SPARK SQL,如下图日志所示,从任务提交到执行MR任务, 需要70-80秒, 正常情况下,只需5-6秒。任务能正常执行
完毕。执行时,指定了队列且队列资源(CPU & 内存)均较为空闲。请问,调整哪些参数,可以将时间缩短至正常范畴内?
00:56:10 Starting Job = job_123456789,Tracking URL=http://MY_NAMENODE.8088/proxy/application_9876543210
00:56:10 Kill Command = /opt/cloudera/parcels/CDH-6.3.2-1/./bin/hadoop job -kill job_123456789
00:57:18 Hadoop job information for Stage-1: number of mappers:1; number of reduces: 0
调整MR APPLICATION MASTER的OPT参数,调整为850M,内存为2G.
将时间缩短至正常5-6秒
建议先分析是哪里慢了?
执行SQL 到MR任务提交到yarn耗时多少?
MR任务从提交到yarn, 到任务变成running状态耗时多少?
MR任务执行时间又是耗时多少?
你配的是yarn的资源,要调运行任务的资源