SAS金融数据挖掘与建模:系统方法与案例解析
上QQ阅读APP看书,第一时间看更新

2.2 数据准备与预处理

2.2.1 数据源

营销类评分模型追求高的响应率和预测的准确性,风险和欺诈类模型则追求高的覆盖度,最好能将欺诈客户一网打尽,哪怕误报率会高一些(准确性要求可适当降低)。更多的数据源意味着更可能全面覆盖欺诈案例,发现各种形态的欺诈行为和特征,因此训练欺诈评分模型的数据量和变量数都会更多,除了信用卡公司自有数据外,各种外部数据都会被引进、尝试并通过模型评估。

下面以近一年的信用卡交易信息为主体,辅以三个月内网络行为以及法院、电信、人行征信等方面的外部数据,以便尽可能全面地了解客户,为欺诈者画出负面画像,从而预防欺诈行为的发生。具体如图2-1所示。

图2-1 欺诈评分模型的数据源

从已掌握的近一年的历史数据中,选取有欺诈行为的客户作为坏样本,与正常客户做对比。相对纯粹的数据公司,掌握“坏”样本也是信用卡公司和互联网金融公司的优势,即可以通过有监督的机器学习,评估各类数据对于反欺诈的实际价值,而不仅仅是建立各类查询信息库。

2.2.2 变量设计

首先是目标变量Y。如果客户在欺诈之列则打上标签“1”,否则打上标签“0”, Y为二分类变量。依据历史数据,客户要么有过欺诈行为,要么没有,非0即1,而未来,客户是否会欺诈并不能绝对确定,而是用概率表示发生欺诈行为的可能性。计算出这个概率(即Y=“1”的概率)就是评分模型的目的。

评分依据是能够体现欺诈行为、与Y有一定关系的一组客户信息,即自变量X。引入营销学中的RFM模型(R为最近一次消费间隔时间;F为某段时间内消费次数;M为某段时间内消费金额),将各类行为视作消费来处理。可以按照客户与时间跨度加工成若干个自变量X,例如客户信用卡持卡时长、一年内信用卡逾期次数、最近一次查询人行征信距当前间隔天数、客户一年内月均消费金额、最后还款日前三天内还款次数占全部还款次数的比例、客户一年内浏览儿童用品网站次数等,全部变量约1000个。表2-1所示是部分预测变量的样例。

表2-1 预测变量X(部分样例)

按照客户号准备这些数据,每人一条,最终形成如表2-2所示的建模宽表。与营销响应率模型相比,欺诈行为属于稀疏事件,很难做到像营销模型那样按时间窗预测,一般不区分X和Y的先后顺序,而是从大量历史数据中归纳欺诈行为的一般特征和规则。

表2-2 欺诈评分模型数据宽表(Train)