我现在有一个120亿参数的模型,需要做训练,并部署应用。
问题1-集群GPU型号选型问题
在模型训练和推理两个阶段使用卡的建议:排除NVIDIA NVLink GPU 卡型号和A100 PCIE 卡型号在A30 、A40、RTX A6000 、RTX 4090进行选择
问题2-GPU集群架构设计这种大模型的集群设计 ,我使用的的是 200Gb IB网络。存储使用分布式全闪存储。是否还有其他架构设计的建议。
可以私信我!最好是研究这个方向的人员。
参考下