2.2 数据来源
要做大数据,首先要了解自己的企业,或者自己所在的行业的核心是什么。也就是说最关键的企业需要找到自己的核心数据(价值)。只有在这个基础上,建立自己的大数据才能做一些延伸。其次,要找到内部的一些外围相关数据,去慢慢地成长它。第一层是核心;第二层是外围相关的数据;第三层是外部机构的一些结构化数据;第四层是社会化的,以及各种现在所谓的非结构化的数据。第一步,找到核心数据,核心数据现在对很多企业来说实际上就是 CRM,自己的用户系统,这是最重要的。第二步,找到外围数据,通过营销活动等获取大量数据。第三步,找到常规渠道的数据,这就需要企业去找常规渠道里面的数据,跟自己的CRM结合起来,才能为下一步做市场营销、做推广、产品创新等建立基础。第四步,找到外部的社会化的或者非结构化的数据,即现在所谓的社会化媒体数据。这方面信息的主要特征是非结构化,而且非常庞大。
下面以金融企业为例,重点讨论金融企业的数据来源、数据现状,企业存在哪些问题以及应该怎么应对。
2.2.1 核心数据
1.现状
金融企业的核心数据主要有以下几个来源,如图2.2所示。
图2.2 数据来源
1)历史交易数据
按照主数据的普遍规划来划分,金融企业一般拥有客户数据、交易数据、账户数据等,这些数据有一些已沉淀了多年,伴随着当年的一些金融产品进入数据库,正处于生命周期的某一阶段。这些数据极具潜力价值,通常可以用来促进精确营销、优化产品设计等分析项目。
2)用户行为数据
企业每天处理海量的交易,有相当一部分交易是网络上的终端客户直接发起的,特别是在一些业务促销活动过程中。因此,柜员服务系统、网上服务系统中产生了大量的业务行为轨迹,这些数据通常可以用来分析提高运营效率、促进精准营销。
3)系统运行日志
金融企业的应用系统数量较多,分别负责完成各个子领域的业务处理与管理决策。这些应用系统会产生大量的数据库日志和应用程序日志。在日常维护中,这些日志的数量很大、价值密度低,并不受重视。实际上,通过日志分析应用系统效率,是提高应用系统服务水平和客户满意度的重要方法。
4)非结构化数据
金融企业普遍经济实力雄厚,在众多基础设施建设中投入了巨资。因此,通过大规模的语音呼叫中心、邮件中心、短信中心等客户接触渠道,金融企业拥有发布和采集数据的主动权。另外,不少金融单位有着遍布全国各行政辖区的客户服务大厅,在这里安装了先进的视频监控系统,视频数据既能起到安全防范作用,也能用于分析客户时长等服务类指标。
5)过程文档数据
金融企业通常都成立了大规模的研发中心和数据中心,按照标准的流程开发和部署应用系统。在这个过程中,将产生大量的需求分析、设计文档、测试报告、上线部署、问题记录等过程和技术文档。这些文档是分析和提升服务水平的重要来源。
2.问题
核心数据最大的问题在于来源多样、流动性差、共享性差。
1)数据质量问题
由于某些应用系统开发历史较久,随着架构规划和科学技术的不断进步,导致接口数量多、数据不一致、数据质量差等问题,因此难以进行大数据分析。
2)内部管理壁垒
金融行业在开展大数据项目获取数据时,最严重的问题是内部管理的壁垒。对于许多企业来说,信息流被各部门彼此分割,数据难以互通,在这种情况下,大数据的共享和汇集变得非常困难,更难以实现大数据的深度应用。
3.解决方法
数据作为一项资产,部门之间数据壁垒的问题,根源不是各部门造成的,而是公司在数据职责权利的定位方面出现了偏差。
因此,解决此问题需要以下几个途径。
(1)明确数据相关的职责与归属。金融企业要明确:各个渠道和部门拥有的是数据采集职责,为公司增加数据资产;数据资产的所有权与使用权,只能归公司所有。
(2)提升对数据资产质量的认识。数据资产至关重要,不少金融企业依靠销售渠道或者第三方平台开展销售,若客户资料质量很差或者根本无法获取,就相当于向公司提供了伪劣的数据资产。
(3)打通数据流转。金融行业有独立的研发中心和数据中心。其中,研发中心负责程序的开发,不得接触生产数据以及未脱敏的测试数据;数据中心负责程序的部署,不得接触程序源码。应用系统研发与生产的剥离也可能会加剧大数据实施的难度。在大数据这项需要创新与试错的任务面前,数据中心作为数据的实际保有者,往往不愿意向具有创新能力的研发中心提供数据。因此,对大数据应用来说,要确定真正具有创新实践能力的组织架构,并从决策管理层明确所需的各类支持必须到位,确立一定的考核与激励措施,做到利益均沾、成果共享。
2.2.2 外围数据
1.外围数据的基本准则
(1)符合法律规定,遵循道德规范。这是一项基本要求。
(2)在使用外围数据前,分析清楚提供者的商业模式,如果提供者的商业模式会给本企业的未来带来竞争关系,那么合作时需要仔细商榷。
(3)要在购买与交换之间权衡利弊。在数据所有权不清晰的情况下,交换数据是一种合作举措,可以看作是两家单位以客户为中心的目标下开展的联合行为。
(4)外部数据的目的是补充内部数据,转化为企业数据资产。如果企业已存在类似的内部数据,但因部门利益割裂的原因无法作为数据资产共享,而采用外购形式弥补,那么这些外部数据往往会变成一个新的分割独占的数据,同样不能变成企业级资产。
2.外围数据来源
随着数据资产地位的逐渐确立,和固定资产、知识产权一样,围绕着数据的交易会形成新的产业链条。不过数据资产极为特殊,它的价值会随着交换与使用而扩大,这与固定资产、货币资产存在着显著不同。另外,所有权和使用权难以界定,也大大增加了数据交易的难度与风险。
金融企业外围数据的来源如下。
1)数据共享联盟
对大数据来说,整合和共享的价值更大。例如在医疗行业中,每一个医院对于自己的数据进行分析,需要共享跨医院、跨地域的医疗信息。未来数据将呈现出共享的趋势,数据联盟成为数据集散地之一。
2)互联网数据
网络爬虫仍然是外部数据的有效获取途径,因为互联网有着最大的数据库。在进行舆情监控时,这类数据来源是不可少的。另外也可以直接和大型互联网平台进行数据交易。
3)运营商数据
例如,在统计房屋空置率时,利用大数据,根据电力局的智能电表数据、水利局的水表走数、邮局和快递公司的针对该地址的投递率、通信公司的固定电话使用率,基本能找出哪些房屋无人居住。因此,金融企业在寻找优质企业时可以反其道而行之,挖掘客户。未来各行业更好地发展的一条捷径就是客户资源共享。
3.常见问题
1)数据获得成本
金融企业数据是非常有价值的一类数据。数据提供商最为知道数据的价值,因此选择通过“购买加交换”的形式提供数据。金融企业需要评估可能付出的成本与代价。
2)数据价值发挥
很多购买数据的金融企业,是由于内部数据的所有权和使用权不清晰而被迫的行为。在这种情况下,虽然购买数据可以解决某个部门的一时之需,但是这些购入的数据也会陷入部门壁垒之中,无法最大限度地发挥数据的价值。
2.2.3 常规渠道数据
在大数据时代下,数据将逐步发挥生产资料的作用,数据储备和数据分析能力将成为未来新兴国家最重要的核心战略能力。各地政府正在尝试由信息公开转向数据公开。政府开放数据着重于政府主动开放大量的、实时的、结构化的数据和信息,将其在相关业务上所收集、整理、产生或者保有的数据与信息,主动开放给其他对象(包括社会组织与公众)进行数据创新增值应用。
尽管受格局、意识、管理水平限制,各地各级政府的数据公开呈现出发展迅速但明显不均的态势,但是金融企业应该做好准备,将公开数据资产转化为企业内部的核心竞争能力。
1.政府数据开放存在内驱动力
在所有数据来源中,政府通常掌握着最大量的、关键性的数据和公共信息资源,如果加大开发力度,将会极大地推动政府办事效率的提升和国家信息服务业的发展。
从政府对内有效管理和对外民生服务两个层面上,降低行政成本、提高决策的科学化水平需要高效、实时的信息系统,而大数据的支持是此类信息系统有效发挥作用的支柱之一。政府提供公共服务、促进经济社会发展的职能发挥同样需要大数据支持。政府掌握了大量关于人口、法人和城市空间地理等数据,如果要提供满足群众需求、有针对性的公共服务,则需要对所掌握的数据进行精细分析。
2.政府公开数据的步骤
公开数据需要各级政府出台更多具有可操作性的细则和措施。相应部门应制定由政府或者行业协会牵头的整合数据标准。定义政府开放数据的最小数据集,从最小数据集方面来控制收集、扩大开放。然后要制定开放数据的相关法规,界定哪些数据可以开放,因为开放数据有成本,要开放那些最有用、需求量最大的数据。最后,还要加大数据开放所带来的价值分析和评估,研究持续开放的政策。
3.金融行业积极参与政府数据开放的过程
首先,政府数据公开需要一整套的完整规划、顶层设计和系统建设,贯穿信息收集、整理、存储、发布、服务等全过程,内容包括信息网络、应用系统、信息的采集和发布及相关的管理体制、程序、实施模式和项目管理等。其次,政府公开数据在不同部门、不同层级、不同领域、不同行业之间的分享、交换、整合还存在很多问题,想要建成统一的数据平台,还需要做很多工作。最后,对大数据产业而言,政府公开数据的管理、整合及挖掘,也是具有广阔前景的业务发展方向。
金融行业应秉承社会和政治责任,发挥资金、网点、技术优势,积极参与到政府的数据开放的过程中,以政府为导向,帮助建立起公共数据服务平台,将能够为自身和行业的健康有序发展起到非常重要的基础作用。