cuda GPU并行, nvidia nccl通讯如何一次性发送不连续数据？

cuda GPU并行, nvidia nccl通讯如何一次性发送不连续数据到其他GPU上？有没有类似MPI_type_vector的操作？
三维子矩阵如何打包发送数据？

不知道你这个问题是否已经解决, 如果还没有解决的话:

如果你已经解决了该问题, 非常希望你能够分享一下解决方案, 写成博客, 将相关链接放在评论区, 以帮助更多的人 ^-^