KD神经网络的超参数

初学者,试图在本地,利用神经网络复现一下知识蒸馏。
数据集是MNIST
三层全链接神经网络
epoch=500
教师网络隐层1500个神经元
预测准确率99%
学生网络隐层1500个神经元
预测准确率89%

请问loos=(1-γ)TTsoft loos + γhard loss
γ,T取值多少合适
0.9 20准确率降到85%