两个节点四张显卡调用问题。

有个小的linux集群，两个节点四张显卡，现在可以用mpi连接两个节点，
目前只能利用cuda调用到两张卡来进行并行计算，如果要用上四张卡，
是不是得用到cuda上面的stream来（不知道这样表述对不对），还是有什么别的方法？
有没有办法使得mpi直接识别这四张卡？
欢迎大家畅所欲言哈。