关于#多层感知机#的问题，如何解决？

对于同一个数据集, 比如FashionMNIST, 不同隐藏单元的单隐藏层多层感知机会有不同的表现, 以下四副图分别表示了隐藏单元为50, 100, 256, 512四种情况下的训练损失(train loss), 训练准确率(train acc)和测试准确率(test acc). 请问哪个模型的表现比较好?