大规模预训练语言模型训练问题

我现在有一个120亿参数的模型，需要做训练，并部署应用。

问题1-集群GPU型号选型问题

在模型训练和推理两个阶段使用卡的建议：
排除NVIDIA NVLink GPU 卡型号和A100 PCIE 卡型号
在A30 、A40、RTX A6000 、RTX 4090进行选择

问题2-GPU集群架构设计
这种大模型的集群设计，我使用的的是 200Gb IB网络。
存储使用分布式全闪存储。
是否还有其他架构设计的建议。

可以私信我！最好是研究这个方向的人员。

参考下