有个小的linux集群,两个节点四张显卡,现在可以用mpi连接两个节点,目前只能利用cuda调用到两张卡来进行并行计算,如果要用上四张卡,是不是得用到cuda上面的stream来(不知道这样表述对不对),还是有什么别的方法?有没有办法使得mpi直接识别这四张卡?欢迎大家畅所欲言哈。
NVLink 和 NVSwitchhttps://www.nvidia.com/zh-cn/data-center/nvlink/