初学者,试图在本地,利用神经网络复现一下知识蒸馏。数据集是MNIST三层全链接神经网络epoch=500教师网络隐层1500个神经元预测准确率99%学生网络隐层1500个神经元预测准确率89%
请问loos=(1-γ)TTsoft loos + γhard lossγ,T取值多少合适0.9 20准确率降到85%