在进行一次训练时,发现当使用和其他数据相同的超参数时,在 loss 中出现了 Nan
.
关于 Nan
的产生:
- 梯度爆炸可能产生
Nan
. —— 去判断到底是否是梯度爆炸
梯度爆炸怎么办?— 降低 learning rate
然而降低 lr 到原来的一半时,出现了过拟合现象,即 train loss 下降,而 test loss 上升.
Nan
.Nan
的产生:Nan
. —— 去判断到底是否是梯度爆炸然而降低 lr 到原来的一半时,出现了过拟合现象,即 train loss 下降,而 test loss 上升.