1.1.3 数据与物质
数据和物质都是物理存在的,但数据的存在和物质的存在是不同的,主要表现在可标识性、可共享性和生命周期性3个方面[6]。
(1)可标识性
自然界的物质都是可标识的,所谓“相同的两个东西”指的是同质化的两个东西,例如,面对两杯水,可以说“一样的两杯水”;而对于数据,一个数据的存在和两个相同数据的存在是一样的,“两个相同的数据”的说法意义不大,“两个相同的数据”表示自然界的一个事物,即一个数据,一般采用“一个数据的两个副本”的说法。对于数据,通常讨论数据的相似性,而不讨论数据的相同性,相似性由相似性函数定义,可以说“两个相似的数据”。
数据的这种特性说明数据是面向值的,即如果有两个数据对象有相同的值,则认为它们是一个对象的两个副本。
(2)可共享性
共享就是指共同分享,在物理世界中主要指某样东西被多个人分。例如“共享午餐”是指共享者一起吃午餐,其实每个共享者吃的东西并不一样,同样的东西是不可能被吃进两个人的肚子里的。
而数据共享的概念有本质上的不同,数据共享是指同样的数据被多个共享者使用,并且每个共享者拥有完全一样的数据量、数据形式和数据内容,即拥有数据的副本。相对于数据生产来说,将一个数据复制随意多个副本是轻而易举的事情,因此,数据是可共享的,并且数据拥有者通常愿意将其拥有的数据拿出来共享。
数据的可共享性意味着数据的边际成本很低,能够创造更多的价值。但是,数据的可共享性也可能带来负面效果,例如,因为数据副本的制作相对于数据生产来说非常容易,所以对数据所有权的保护就非常困难,数据的稀缺性也极易受到挑战。
(3)生命周期性
自然界中的物质会老化,有生命周期;而数据不会老化,没有生命周期。数据从其被生产出来到被删除这个过程看起来像是有生命周期的,但其实不是。根据数据的时间属性,一个数据本身是不会随时间的推移而变老、变旧的,例如,将一张照片数据存放多年以后,只要载体还存在或者不断替换新载体,这个数据对象本身是不会发生变化的,数据不会减少,质量也不会下降。
数据被生产、存储、修改、删除的过程通常是一个应用系统执行的结果,也可能是现实中对应该数据的事物的生命周期发生变化的数据反应,而不是计算机系统中数据的生命周期。这一点对于数据科学研究者而言非常重要。