中国金融科技运行报告(2018)
上QQ阅读APP看书,第一时间看更新

技术篇:可应用于金融的科技探索 Technology Part: Technology Exploration Applicable to Finance

第一章 大数据技术及其应用

沈志勇沈志勇,博士,百度云首席数据科学家,曾任百度研究院大数据实验室副主任,高级数据科学家。进入百度前任惠普中国研究院研究员。兼任大数据分析技术国家工程实验室学术委员会成员,大数据流通与交易技术国家工程实验室专家委员。

摘要:本章首先介绍大数据技术的相关概念,简要阐述了常见数据挖掘与机器学习的基础技术与算法模型,包括基本的有监督学习算法、无监督学习算法以及大数据挑战下的大规模数据分析、降维、增量、迁移等新的机器学习方法与模式。其次介绍了这些方法在金融领域的常规应用,即客户管理、信用与风控以及量化投资中数据驱动方法的应用。


关键词:大数据 数据分析 机器学习 客户管理 另类数据

大数据在近年来受到了包括金融行业在内的各行各业的关注乃至热炒,热门概念往往会有“瞎子摸象”的效应——不同的人会有不同的理解。因此,在展开论述前有必要先对相关概念给出本章所依照的理解与定义,同时与一些易混淆的概念进行辨析。

数据。数据是信息化的产物,是计算机、传感器等产生并被记录的符号与信号。数据是信息的载体,包含量、准确性、完整性、时效性、描述粒度等维度特征,这些维度达到一定的指标,就形成了所谓的“大数据”。

结构化数据。主流数据的存储方式是以表格(关系)的形式。表格有行有列,我们把每一行看作一个数据点,把每一列看作数据的一个维度或者特征,这样的数据往往被称为结构化数据。大部分大数据分析的算法,是以结构化数据作为输入的。

大数据技术。大数据技术是指如何高效地采集、存储大量数据,然后通过数据分析与挖掘技术从中提炼有效信息,服务乃至驱动生产生活。大数据技术综合了信息科学中的统计学、数据库、数据挖掘、信息检索、机器学习、模式识别、自然语言处理等领域中与采集、处理、分析数据相关的方式和方法。

其中,数据库和信息检索技术是大数据技术中基础架构层面的,包括海量数据的分布式存储,数据需要高时效性处理时的流式数据处理架构,以及如何在海量数据下进行高效而准确的查询等。

目前的数据分析技术,除了传统的统计学外,更多地依赖近十年来蓬勃发展的机器学习以及数据挖掘等相关领域的技术。致力于让机器在海量的数据中发现数据内在的规律,基于此获得信息并做出预测等判断。

模式识别更多地被用于图像、语音的识别,自然语言处理则致力于自然文本数据的分析。将这些“非结构化”数据“结构化”,提高了多媒体和文本数据的可用性。大数据基础架构层的相关技术一般由专业的IT技术人员完成,并且可以在云服务等市场上获得标准化的服务,而多媒体数据以及自然文本的识别与分析技术则可归于人工智能范畴。本报告侧重对数据分析相关技术,也就是机器学习和数据挖掘技术进行梳理和介绍。当金融行业的业务逻辑经过信息化与数据化的抽象后,首先面对的将是这些数据分析技术的合理应用,因此,对于行业从业人员而言,需要重点介绍这一部分的大数据技术。

大数据分析技术整体上可以分成两部分:一部分是基础技术,包含从理论衍生出来的基础的机器学习和数据挖掘算法与模型;另一部分是应用技术,针对具体的应用场景,对基础算法与模型进行针对性开发和组合使用。

篇幅所限,本部分不对大数据算法与模型的具体理论进行推导与细数,更多地分析这些方法的基本逻辑、适用场景以及在大数据条件下的相应改进。

一 基础技术部分

机器学习和数据挖掘算法与模型最基本的划分方式,是根据是否有“监督信息”。如果把机器“学习”的过程和人的学习进行类比,有监督(Supervised)的算法,就是在一个有标准答案的习题集上进行学习,标准答案就是所谓的监督信息,学到的规律就是模型,我们希望学到的模型在开放应用中,得出尽量准确的目标结果;相对应的,无监督(Unsupervised)的算法是从数据中寻找本身存在的模式和规律。

(一)有监督的算法与模型

在实际具有明确目标的应用中,人们更偏好有监督的算法与模型,因为这类算法会对目标进行针对性优化,带来低误差、高效率的自动判断。在金融大数据领域应用比较广泛的典型有监督的算法,包括预测数值的回归类的方法——线性回归法、时间序列预测法等,预测离散值的分类算法——决策树相关的算法、逻辑回归法、最大熵法等。为了适应大数据应用的特点,这些算法还会有一些相应的用来提高预测稳定性以及针对大规模数据量等情况的改进。下面按照机器学习领域的划分方式,对基础模型做一个简单的介绍,其详细介绍在各类相关领域的书籍中都会提及,这里不再赘述。

线性模型(Linear Models)。线性模型用数据各个维度取值的线性组合(加权平均)来进行预测。最基本的线性模型包括线性回归(Linear Regression)和逻辑回归(Logistic Regression),前者可以用来预测数值,后者一般用来做分类。

决策树(Decision Trees)。顾名思义,决策树就是在数据的各个维度上建立判断规则,以树(一种数据结构)的形式将这些规则组织起来,形成预测的功能——每一条从树的根节点到叶子节点的路径,就是一条完整的预测规则。

支持向量机(Support Vector Machines)。支持向量机的核心思想是在数据的特征空间上找到几何间隔最大的能把不同类型的数据点分离的超平面,用这个超平面去区分未知类别标签的数据。

神经网络(Neural Networks)。机器学习领域的神经网络学习是指“由具有适应性的简单单元组成的广泛并互连的网络,它的组织能够模拟生物神经系统对真实世界物体所做出的交互反应”。

贝叶斯分类器(Bayes Classifier)。贝叶斯分类器是基于概率框架下的贝叶斯决策理论来实施决策的分类器。最典型的就是朴素贝叶斯分类器(Naïve Bayes Classifier)。

(二)无监督的算法与模型

在实际应用中,无监督的算法与模型一般用来更好地归纳与刻画数据,方便对数据做可视化等分析,也可用来生成新的数据特征,应用到监督学习中去。常见的无监督学习包括聚类分析、因子分析等。

聚类分析(Clustering)。聚类分析是将数据点自动根据某种标准分类到不同类的过程,所以同一个类中的对象有很大的相似性,而不同类间的对象有很大的相异性。最典型的聚类分析算法是K-均值(K-means)算法。

因子分析(Factor Analysis)。因子分析是针对数据维度(列)之间关系的分析,研究如何以最少的信息丢失,将众多原始维度浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种方法。文本理解中常用的主题模型(Topic Models),可以看作在离散数据中的因子分析。

概率图模型(Probabilistic Graphical Models)。概率图模型是一类用图来表达变量关系的概率模型,刻画了数据各个维度之间的概率依赖关系,有向的概率图模型可以用来表达因果关系。常见的概率图模型有隐马尔可夫模型(HMM)等。

复杂网络分析(Complex Network Analysis)。复杂网络分析主要研究网络(由连边和节点构成)的几何结构、网络的形成机制、网络的演化规律、网络的模型性质等问题。比较典型的复杂网络是社交网络(Social Networks)。

常用机器学习与数据挖掘方法示例见图1-1。

(三)适用大数据场景的算法与模型

以上的算法与模型在应用到金融大数据场景中时会遇到一些挑战,如数据的维度过大(列数过多)、数据点的数量过大(行数过多)、相对而言有标注的数据过少、模型不够稳健等。因此,很多模型的改进方式不断涌现,如针对行数过多的分布式模型训练、抽样等,针对列数过多的降维、特征选择、稀疏学习等。其他提升模型性能的方式如集成学习(Ensemble Learning)等。这里挑选一些典型的方式进行简要介绍。

分布式大规模机器学习算法。当数据量过大时,需要对数据进行分块,在不同的计算节点上进行模型参数的估算。有些模型是天然可分的,如随机森林等,可以在分块数据上独立训练得到子模型,然后再集成得到整体模型,比较容易实现;大部分模型需要设计专门的算法与计算架构,前者从数学上保证算法的合理性,后者保证参数估算的可行性。

另外,充足的数据也为一些方法的奏效提供了条件。例如,深度学习作为一个多层神经网络,有着复杂的模型结构与大量的参数,需要使用大量的数据训练模型,大数据时代为此类算法提供了用武之地。还有一种方式是迁移学习(Transfer Learning),可以有效地利用多数据源对模型进行训练。

图1-1 常用机器学习与数据挖掘方法示例

降维(Dimension Reduction)、特征选取(Feature Selection)与稀疏学习(Sparse Learning)。大数据时代,经常会面临数据过多的问题。针对那些数据维度过高、列数过多的场景,如个人信贷的大数据风控,很多时候面临个人信息的维度过多,而真正对个人违约概率有影响的维度其实并不多。对数据维度进行压缩,既有利于模型的效果,也能提高计算的可行性与效率。

降维是将数据映射到另一个空间的方法——在那里数据用尽量少的维度保留了足够多的“有用信息”,最经典的降维方法是主成分分析(Principal Analysis)。

特征选取是通过制定一些标准,挑选那些对关心的目标起作用的维度(也叫相关特征)。最经典的标准包括信息增益、基尼系数等。

稀疏学习是直接在模型中引入正则的机制,让模型自动确定相关变量,不相关变量的系数会被自动置为0。最典型的稀疏学习算法是线性回归上增加了L1范数的改进模型——LASSO。

集成学习(Ensemble Learning)。集成学习通过构建并结合多个模型来完成一个预测任务,通常会比一个单一的模型取得显著优越的效果。如果说降维方法、特征选取等体现了“如无必要,勿增实体”的“奥卡姆剃刀”的哲学思想,那么集成学习体现的则是另一种哲学思想——“多释原则”,即主张保留与经验观察一致的所有假设。随机森林(Random Forest)是应用比较广泛的一种集成学习算法,以决策树为基本的模型,对一个数据集建立多个在维度顺序上有变化的简单的决策树,最后将结果融合,具有简单、计算开销小、易分布式实现、效果好的特点。

增量学习(Incremental Learning)。这种方式能不断从新样本中学习新的知识,并能保存大部分以前已经学习到的知识。增量学习主要表现在两个方面:一方面,由于其无须保存历史数据,因而减少了存储空间的占用;另一方面,增量学习在当前的样本训练中充分利用了历史的训练结果,从而显著地减少了后续训练的时间。

深度学习(Deep Learning)。深度学习在形式上是多层的神经网络。对数据进行表征学习,用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。目前主流的深度学习模型包括卷积神经网络(CNN)、递归神经网络(RNN)等。

迁移学习(Transfer Learning)。顾名思义,迁移学习就是把已训练好的模型参数迁移到新的数据中来帮助新模型训练。考虑到大部分数据或任务是存在相关性的,所以通过迁移学习我们可以将已经学到的模型参数进一步优化,同时如果新的数据不足,通过既有模型参数,也有效利用了其他数据的信息。

以上是对与大数据分析相关的数据挖掘与机器学习技术的简单梳理和介绍,这些技术在后文金融领域的大数据应用技术中,或多或少地都会涉及。关于这些技术的具体内容,可以通过提到的名词到相应的文献中寻找。

二 应用技术部分

金融行业信息化程度高,从业人员的素质也高,尤其是数据思维完备,因此金融行业是大数据技术得到较好应用的领域。这里把大数据技术在金融行业的应用分为三部分:客户管理、信用与风险管理、另类数据。

(一)客户管理

与传统客户关系管理系统的功能不同,大数据条件下人们可以对客户进行更加深入和全面的理解,从而更高效地获得新客户(营销),提升客户的活跃度,唤醒那些沉睡的老客户。客户管理涉及的相关技术包括用户画像、推荐系统等。

用户画像(User Profiling)。作为比较有代表性的大数据技术,将用户碎片化的信息组织起来,通过一套标签体系,刻画用户的固有属性,如性别、年龄、职业、收入水平等,以及兴趣与偏好属性,如投资偏好、风险倾向等。

用户画像的构造,大部分标签是离散值,主要采用前文的有监督的分类模型,如逻辑回归法、朴素贝叶斯分类器、支持向量机、决策树等;对于年龄以及收入水平等,可能会用到数值类的预测模型,如线性回归法等。当数据中包含多媒体和自然语言文本数据时,深度学习也会被采用。除了前文提到的那些有监督的打标签的方法外,还可以使用无监督的方法,如聚类方法,对客户进行自动分组,根据人的理解,为每个组打上标签。

用户画像的结果,可以作为一个基础的数据资源,方便对用户的管理与服务。在产品与服务的运营中,需要进行客群分析,用户画像是客群分析的一个直接依据。用户画像也可以直接作为数据管理平台(Data Management Platform, DMP)的组成部分,对于拉新或者获客的需求,可以在第三方的DMP中根据对自身客户的理解,查找具备相应标签(如“医生”“商旅人士”)的候选对象,在法律允许的前提下进行营销触达(见图1-2)。

图1-2 利用用户画像进行用户拉新示例

推荐系统(Recommendation System)。个性化推荐系统,可以为客户或者潜在的客户提供个性化的产品或进行服务推荐。推荐系统可以通过用户画像,以及用户画像中标签与产品或服务之间的关联来构造,也可以通过一些具体的技术来构建,如协同过滤(Collaborative Filtering)技术——本质上是一种猜测客户对某个产品或服务喜好程度的有监督的预测算法。笔者也曾使用前文提到的概率图模型构造的推荐系统并取得了很好的推荐效果。在了解社交网络关系的前提下,也可以基于人际复杂网络分析技术来做推荐,直观的可以视为熟人间的营销。当我们有跨领域的数据时,如对于拥有多渠道的金融企业来说,既拥有移动设备APP上的客户行为数据,又拥有线下的理财与交易数据,可以采用迁移学习思想指导下的方法,来做跨领域的推荐系统。

推荐系统会为客户提供个性化的服务,会让用户感受到尊享感,提升客户体验。对提升客户活跃度、唤醒沉睡客户具有重要的作用。

(二)信用与风险管理

随着互联网金融、普惠金融等领域的发展,基于大数据的征信与风控等,应该是近期最抢眼的大数据成功应用之一。征信为一个实体(个人或者企业)进行信用信息的采集、管理与评估,会对该实体进行信用评分或评级,通过报告的形式提供给需要参考的机构使用。风控是指对客户逾期、违约或者欺诈等行为发生的可能性进行预测与评估。

大数据征信与风控在当前金融行业,尤其是在互联网金融、普惠金融等场景需要快速为用户提供贷款等金融服务时发挥了重要作用。对于传统的征信与风控系统来说,是非常有益的补充。大数据时代,相关机构设法获取行为主体的数据信息,使数据的覆盖率大大提高。这些信息都被纳入征信体系,并通过各种信用模型进行多角度分析,利用集成学习等思想,融合多种模型,可以使评价结果更加全面准确。

此外,大数据征信和风控的时效性更强,大数据时代的数据时刻更新,运用增量学习的思想,可以快速使用新增的数据,对实体进行高时效性的信用评估与预警。

在风控问题中,是否会逾期、违约或者欺诈,是典型的分类问题,因此逻辑回归、随机森林等方法以及它们的改进型是常用的大数据风控的算法。而一般在进行大数据风控时,会广泛收集实体各个方面的数据,会有很高的维度,降维、特征选取与稀疏学习等方法也经常会被采用。在有用户之间的社交网络数据的前提下,复杂网络分析的方法也会有助于提升风控的效果(见图1-3)。

图1-3 金融风控中复杂网络分析应用示例

(三)另类数据

大数据,特别是另类数据(Alternative Data)的运用,极大地改变了投资领域的面貌。可能影响投资决策但又不属于市场交易数据和公司财报这类传统投资参考信息的数据都被称为“另类数据”,如早年有些对冲基金使用的遥感数据,这些数据被用来分析某些企业的运行与经营情况,作为投资参考。

被用作另类数据的数据源有很多,除了前文提到的遥感数据外,互联网上的新闻和用户的各类行为数据也是重要来源。前几年有些大型互联网公司利用自己掌握的大量用户行为大数据,与金融机构合作推出大数据指数型基金,产生了巨大的反响。

另类数据相对于传统的金融交易数据与财报数据,具有以下特点:信噪比低、非结构化数据多、来源多、维度高。要想有效地应用另类数据,需要对另类数据进行准确的理解与分析,需要用到大量的机器学习与数据挖掘模型。以新闻数据为例,假设我们要准确地理解一个财经新闻,需要做两个判断:该新闻对哪只股票有影响?在情绪上是看多还是看空?前者需要采用知识图谱方法,后者则基于情感分析(Sentimental Analysis)——一般是使用有监督的分类模型。下面简单介绍一下知识图谱。

知识图谱(Knowledge Graph)。知识图谱可以理解成一个由知识点(实体)相互连接(关系)而成的语义网络,知识点上有属性值,连边上也有关系类型的值,在这个网络上可以进行语义推理。知识图谱可以帮助理解自然语言的文本,以iPhone6发布的新闻为例,我们可以根据iPhone6的属性——屏幕采用的是大猩猩玻璃,再通过大猩猩玻璃的生产厂商关系,推断相应的生产厂商如果是上市公司,股价可能会上涨——虽然那个新闻上没有任何文字提到大猩猩玻璃的生产厂商。又如将企业知识图谱应用于个人征信中的关系推理(见图1-4)。

图1-4 知识图谱及其应用示例

知识图谱的构造会使用大量的基础算法,其中大部分是分类算法,用以从自然语言文本里做实体的抽取与识别以及做关系的抽取与分类。

此外,另类数据还可以被加工成量化方法中常用的因子和金融指数,其间会用到回归分析、因子分析等方法。对于风险投资等一级市场,如何在海量的新闻数据,尤其是高新科技类新闻数据里,让机器自动发现行业热点,也会用到文本聚类、主题模型等文本挖掘的方法。互联网的用户行为数据作为另类数据,有很强的时空特性,在这些数据上抽取有价值的投资信息,可能要用到序列建模的方法,如隐马尔可夫模型等。

本章简略分析了大数据分析技术和方法在金融领域的应用。随着金融行业的不断创新,以及大数据技术的持续发展,相信在将来会有更多的成功应用场景不断涌现。


参考文献


周志华:《机器学习》,清华大学出版社,2016。

孙亮、黄倩:《实用机器学习》,人民邮电出版社,2017。

李航:《统计学习方法》,清华大学出版社,2012。