记录学习率和loss等的一些问题

 

在进行一次训练时,发现当使用和其他数据相同的超参数时,在 loss 中出现了 Nan.

关于 Nan 的产生:

  • 梯度爆炸可能产生 Nan. —— 去判断到底是否是梯度爆炸

梯度爆炸怎么办?— 降低 learning rate

然而降低 lr 到原来的一半时,出现了过拟合现象,即 train loss 下降,而 test loss 上升.