深度学习调参有哪些技巧？

最近在研究深度学习，发现训练的效果一直不太好，想来问一下各位博主有什么技巧？深度学习调参有哪些技巧？

望采纳！！！！
比如：
1.显存不够用的时候，gradient checkpointing可以起到降低显存的效果
2.学习率最好是从高到底2倍速度递减一般从0.01开始
3.参数初始化用xavier和truncated_normal可以加速收敛，但是，同样是tensorflow和pytorch用同样的初始化，pytorch可能存在多跑一段时间才开始收敛的情况，所以，如果出现loss不下降的情况，大哥请耐心一点，多跑几个epoch，当然你也可以用tensorflow实现一把，看看效果是不是一样
.....

1，学习率，先从0.1或0.01开始调，如果训练不稳定或出现Nan，则调小；如果学习得太慢，则相应调大；
2，mini_batch，一般设置2的多少次方，别太大，内存会扛不住；也别太小，会抖动很厉害；
3，epoch次数，开始设置大些，观察其在哪个值时准确率变化很小，就将epoch改成那个值附近；
4，隐藏层神经元个数，发现欠拟合就改大一点，发现过拟合就改小一点；
5，还有很多超参数，比如梯度下降不同方法中的参数、激活函数的选择等，实际要尝试。