1.2.1 优质可用数据少
随着大数据行业的兴起,数据价值得到了充分的肯定,“数据变现”也成为许多拥有大量数据资源的企业的新产业,比较成功的“数据变现”商业模式有利用数据支撑生活服务(如健康、教育等),也有利用数据分析指导营销策略的方式。许多企业看到了数据的价值,就积攒了许多数据在手里,但是企业搜集的数据是否真的优质、是否能够发挥作用,并没有得到验证。
大数据产业的核心价值在于做出趋势预测,以网络营销为例(这也是大数据行业获得最多应用的领域之一),数据驱动带来了更精准的效果,这需要建立在优质数据的基础上。但是由于数据采集过程不完善,企业获得的数据往往是不够优质的,这样就带来了数据清洗的问题。每次在进行数据分析之前,数据科学家都要花费大量的时间在数据清洗上,既造成了人力资源的浪费,又使得最后可用的数据不够多。
要想充分理解大数据产业在数据质量上的窘境,就要先介绍一下数据的质量评定有些什么样的标准,优质数据又有着什么样的特征。数据质量指数据能够反映实际情况的程度高低,一般通过以下五个方面进行衡量和评价,如图1-4所示。
图1-4 数据质量评价标准
1.准确性
准确性是指数据在系统中的值与真实值相比的符合情况,常见的数据准确性问题有数据的值与实际值不同(数据来源出现问题)、与业务规范出现冲突(行业规范不完善或执行不力导致)等问题。当数据的准确性出现问题时,数据最基本的要求就已经达不到了,自然是劣质的数据。
2.完整性
数据的完整性是指数据的完备程度,是否囊括了所需的所有方面的数据信息。常见数据完整性问题包括系统未设定提取字段导致的相关数据的缺失和采集过程不全面导致的数据不完整等问题。当发生了数据完整性问题时,数据对实际情况的描述就不够全面,那么根据这些数据建立的数据模型就容易发生以偏概全的问题。
3.一致性
一致性是指大数据软件系统内外部数据源之间的数据一致程度问题,包括数据形式是否一致、数据格式是否统一等。数据一致性在数据联动的过程中非常重要,如果系统间应该相同的数据却不一致,就容易造成系统的报错和停止运行。
由于大数据数量庞大,且数据间的联动是大数据产业中常见的互动,数据的一致性具有非常重要的作用。但因为大数据产业尚且缺乏统一的数据规范,不同企业间对数据的具体要求都不同,这给大数据产业带来了相当大的处理困境。
4.及时性
及时性是指数据在采集、传送、处理等环节对应用的快速支持能力的描述,考察的是数据的时间性能。优质的数据能够实现在规定时间内完成系统所需数据的更新要求,而质量不够高的数据不能满足这一点,会给数据的后续处理带来不良影响。
5.可用性
可用性是用来衡量数据项整合和应用的可用程度的指标,常见可用性问题包括数据缺乏可应用功能(数据不具备可加工性,不能建立数据模型)、缺乏可整合性(数据过于分散,没有内在联系)等。不具有可用性的数据对企业来说不仅没有好处,反而会因为降低数据的价值密度,给企业带来损失,因此可用性是衡量数据质量的重要因素。
在现在的大数据行业中,由于缺乏统一的大数据规范,数据的量虽然多,但是数据的质量却不高,仅仅收集了数据,并不意味着就能够得到战略上的应用指导。数据的质量直接影响了大数据预测结果的可靠性,优质数据的获取对大数据的发展至关重要。许多具有前瞻性的企业已经意识到了这一点,开始积极地进行大数据质量管理工作。但由于大数据已经深入到了各个行业,要想统一数量管理标准并非易事,所以大数据的优化还有很长的路要走。
大数据时代带来了海量多样的数据,使对市场进行广泛且深入的分析成为可能,但这必须有优质数据作为支撑。优质的数据可以为大数据应用提供更高的上限,而低质量的数据则必然拉低数据产业的下限,由此可见,数据质量是大数据行业的重要标杆。而尴尬的是,由于大数据产业的兴起过快,业内并没有统一规范的数据衡量标准,因此造成了优质可用数据少的现状,为大数据产业带来了困境。