多节点运行cuda+mpi时报错 cudaEvent报错

我在一个小集群上运行mpi+cuda的程序,设置了cuda计时,但是其中一个节点运行到
CUDA_CALL(cudaEventRecord(stop, 0));
CUDA_CALL(cudaEventSynchronize(stop));
时报错:
CUDA Error: invalid resource handle (err_num=33)
其他节点正常运行,请问这是什么原因。

这往往是显存的问题,但是没有办法知道是多节点部署的问题还是你程序本身就有问题,最好加上日志输出下,看看是哪一步出错的。