gunicorn开多进程调用mxnet预测模型cpu受限,怎么解决?

使用gunicorn的gevent开了多worker的形式调用mxnet模型的接口,发现cpu利用率已经达到380%,导致预测时间全都延迟,该使用什么方法解决这个问题呢?
htop查看cpu和内存结果如下:

img

watch nvidia-smi 查看gpu结果如下:

img

能不能开多线程调用mxnet模型解决cpu受限的问题?

多进程有空跑或者阻塞的逻辑吗?