2.3.2 单点回归损失
这里我们先介绍一般的单点回归损失,然后在下一小节中介绍一类特定任务的回归损失,即目标检测中的边框回归损失。在回归问题中,假定标签集为Y={yi|i=1,…,n;yi ∈ ℝ},样本集为X={xi|i=1,…,n},假设模型为深度神经网络f,问题类型为单点回归问题,即模型输出f(x)为输出空间中的单个点(可以是一个标量或多维向量),而不是多个点组成的集合形状(如边框)。基于此设定,下面介绍几个通用的回归损失函数,包括均方误差、平均绝对误差和平滑平均绝对误差。
均方误差(mean squared error,MSE)是回归任务中最常用的损失函数之一,它计算了模型预测值和真实值之间的差值平方和。给定样本x、真实类别y、模型f,MSE损失定义如下:
平均绝对误差(mean absolute error,MAE)是另一种用于回归任务的损失函数,它计算了模型预测值和真实值之间的绝对差值之和。给定样本x、真实类别y、模型f,MAE损失定义如下:
平滑平均绝对误差(Huber损失)[5]是在MAE基础上的一种平滑改进。一般认为,MSE比MAE对异常值更加敏感,因为当出现异常值时,MSE中的平方操作会将其误差加倍放大,会使模型朝异常值拟合的方向优化,影响模型的整体性能。而MAE的问题在于梯度始终一致,即使损失值很小,梯度也会比较大,因而往往需要使用动态学习率的方式帮助MAE更好地收敛。Huber损失结合MSE和MAE的特点重新设计了损失函数,给定样本x、真实类别y、模型f,Huber损失的定义如下:
其中,δ是超参数,用于调节MAE的平滑程度。可以发现在真实值的近端,Huber损失使用MSE的形式使梯度随优化的进行逐步减小,利于模型最后阶段的参数收尾调优;而在优化目标的远端,Huber损失使用MAE的形式,降低损失函数对于异常点的敏感程度。当δ趋于无穷时,该损失函数将退化为MSE;当δ趋于0时,该损失函数将退化为MAE。