上QQ阅读APP看书,第一时间看更新
4.1.10 模型监控
在模型上线前应该准备好模型监控,并与模型一并上线。模型异常可能会导致巨大的经济损失,所以配备专人监控不足为奇。如前文所说,机器学习输出的模型与传统软件开发输出的程序具有典型的差别。当模型本身无Bug,只是数据出现了差池,例如数据源调用中断或更新异常,从系统角度来说这也属于Bug,需要及时发现。当模型评分出现了偏移,需要查找是哪些特征造成的,此时特征监控将指出问题所在。在寻找这些问题的原因时,也可能牵扯出IT系统的故障。总之,发现问题就是模型监控的意义所在。
模型监控的内容可分为如下几个部分。
1)模型评分稳定性的监控:分布、稳定性指标、业务指标等。
2)特征稳定性的监控:分布、稳定性指标等。
3)线上服务稳定运行的监控。
第3点偏向于IT系统,此处不进行详细解释。
对于具有表现期的模型,从监控的时间轴上可分为前期监控、后期监控。前期监控的范围主要在评分与业务决策指标的分布和稳定性,这需要对比建模时同期的样本和预上线时段样本。后期监控指的是具有完整表现的群体监控,重点观察群体的真实表现,例如正负样本分布、KS等。监控内容的展现形式可以是日报、周报和月报,以短信、微信、邮件等形式发出。
监控细节在第16章会进行详细讲述。