上QQ阅读APP看书,第一时间看更新
3.1 局部最小值与鞍点
我们在做优化的时候经常会发现,随着参数不断更新,训练的损失不会再下降,但是我们对这个损失仍然不满意.把深层网络(deep network)、线性模型和浅层网络(shallow network)做比较,可以发现深层网络并没有做得更好——深层网络没有发挥出自身全部的力量,所以优化是有问题的.但有时候,模型一开始就训练不起来,不管我们怎么更新参数,损失都降不下去.到底发生了什么事情?
我们在做优化的时候经常会发现,随着参数不断更新,训练的损失不会再下降,但是我们对这个损失仍然不满意.把深层网络(deep network)、线性模型和浅层网络(shallow network)做比较,可以发现深层网络并没有做得更好——深层网络没有发挥出自身全部的力量,所以优化是有问题的.但有时候,模型一开始就训练不起来,不管我们怎么更新参数,损失都降不下去.到底发生了什么事情?