中国战略性新兴产业研究与发展:数据与企业治理
上QQ阅读APP看书,第一时间看更新

1.2 信息化趋势下的数据新定义

信息化的本质是将现实世界中的事物通过“数”的转换,以数据的形式存储到计算机系统中,即信息化是一个生产数据的过程。这些数据是自然和生命的一种表示形式,还记录了人类的行为,包括工作、生活和社会发展。今天,数据被快速、大量地生产并存储在计算机系统中,记录着各个领域的信息,等待着人们去挖掘其潜力。

1.2.1 数据的定义

1.广义上的数据

数据是指记录并可以鉴别客观事件的符号,是记载客观事物的性质、状态以及相互关系等的物理符号或这些物理符号的组合。数据是可识别的、抽象的符号。

广义上的数据概念不仅是数字,还可以是具有一定意义的文字、字母、数字符号的组合、图形、图像、视频、音频等,也是客观事物的属性、数量、位置及其相互关系的抽象表示。例如,“0,1,2…”“阴、雨、下降、气温”“学生的档案记录、货物的运输情况”等都是数据。

2.计算机中的数据

计算机系统中存储的数据含义很广,不仅指2、3、7、5这样一些数字,还指“data”“2011/11/11”等符号、字符、日期形式的数据。确切地说,计算机中的数据是指能够输入计算机中的任何事物,如数字、字符、声音、图像、照片等,而且处理数据的计算机程序本身也是“数据”。数据在物理上以字节(B)作为其大小的计量单位,一个字节为一个数据单位,数据存储于计算机系统中。

数据原子是不可再分割的最小数据单位,是计算机系统所使用的基本字符集,一般为单字节字符,也有一些是双字节字符。

数据对象是识别数据的基本单位,是可命名的,具有独立含义。一个数据对象由有限个数据项组成,必须有一个对象标识,其他为对象内容。

数据项是一个数据原子的有限集,用于描述数据对象的特性,也是可命名的,并且可以定义其数据类型,但没有独立含义,即脱离数据对象单独讨论数据项是没有意义的。

数据集是数据对象的集合。一般情况下,数据集是一个数据对象的有限集合,虽然也有一些无限的数据集需要处理,如流数据,但数据在任何时刻都是有限的。

数据是数据原子、数据项、数据对象和数据集的统称,可以用一个数据表示一个数据原子、一个数据项、一个数据对象或者一个数据集。数据的大小用数据单位B来表示,NULL表示空数据,其大小为0B。

元数据是描述数据的数据,主要是指描述数据属性的信息,用来支持存储位置指示、历史数据、资源查找、文件记录等功能。元数据可看作一种电子式目录,为了达到编制目录的目的,必须描述并收藏数据的内容或特征,进而实现协助数据检索的目的。

计算机系统是数据的载体,数据是计算机系统的唯一存在。为了避免出现诸如“处理数据的数据,或被数据处理的数据”这样的叙述而陷入表达混乱,在需要的时候可将计算机程序称为数据工具。

数据工具是计算机系统中存储的能够运行的计算机程序或软件系统,是一种特殊的数据对象。数据工具通常用于处理数据,但数据工具本身也是数据,可以被其他数据工具处理,例如,杀毒软件是一个数据工具,用于处理另一个数据工具——“病毒程序”,而“病毒程序”还能自己将自己复制和传播,即自己处理自己。

3.数据与二进位计数制

在计算机领域,广泛使用二进位计数制来实现对数据的编译、存储与表达。二进位计数制仅用0和1两个数码,所以,任何具有两个不同稳定状态的元件都可用来表示数的某一位。而在现实中具有两种明显稳定状态的元件有很多。例如,氖灯的“亮”和“熄”、开关的“开”和“关”、电压的“高”和“低”、纸带上的“有孔”和“无孔”等,不胜枚举。利用这些截然不同的状态来代表数字,是很容易实现的。不仅如此,两种截然不同的状态既有量上的差别,也有质上的不同,这样就能大大提高机器的抗干扰能力和可靠性。但是要找出一个能表示多于两种状态而且简单可靠的器件,就困难得多了。

计算机内部采用二进制的原因:

1)技术实现简单。计算机是由逻辑电路组成的,逻辑电路通常只有两个状态(开关的接通与断开),这两种状态正好可以用“1”和“0”表示。

2)简化运算规则。两个二进制数的和、积运算组合各有三种,运算规则简单,有利于简化计算机内部结构,提高运算速度。

3)适合逻辑运算。逻辑代数是逻辑运算的理论依据,二进制只有两个数码,正好与逻辑代数中的“真”和“假”相吻合。

4)易于转换。二进制与十进制数易于互相转换。

5)用二进制表示数据具有抗干扰能力强、可靠性高等优点。因为每位数据只有高低两个状态,即使受到一定程度的干扰,仍能可靠地分辨出它是高还是低。

1.2.2 数据分类厘清数据的边界

1.定义

数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法。按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使每个信息在相应的分类体系中都有一个对应位置。换句话说,就是将相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。

数据分类是根据新数据对象的属性,将其分配到一个正确的类别中。分类分析用预测方法预测给定数据对象的类标号,被广泛地应用到医疗诊断及选择购物等领域。

2.原则

(1)稳定性原则 依据分类的目的,选择分类对象的最稳定的、最本质的特征作为分类的基础和依据,以确保由此产生的分类结果最稳定。因此,在分类过程中,首先应明确界定分类对象最稳定、最本质的特征。

(2)系统性原则 数据分类的一个要点就是要遵循一定的内在规律,通过将选定的分类对象的特征(或特性)按其内在规律系统化排列,形成一个逻辑层次清晰、结构合理、类目明确的分类体系。

(3)可扩充性原则 数据具有迅速增长和不断变迁的特性,在类目的设置或层级的划分上,留有适当的余地,以保证分类对象增加时,不会打乱已经建立的分类体系。

(4)综合实用性原则 数据分类的本质是将繁杂多样的数据进行整理归类,便于统计与处理,需要从实际需求出发,综合各种因素来确定具体的分类原则,使得由此产生的分类结果总体最优、符合需求、综合实用和便于操作。

(5)兼容性原则 数据分类应执行国家标准,若没有相关的国家标准,则执行相关的行业标准;若二者均不存在,则应参照相关的国际标准。只有这样,才能尽可能保证不同分类体系间的协调一致和转换。

3.方法

根据不同的分类方法,可以将统计数据分为以下几种类型。

(1)按计量层次分类 按照数据的计量层次,可以将统计数据分为定类数据、定序数据、定距数据与定比数据。

1)定类数据。这是数据的最底层。它将数据按照类别属性进行分类,各类别之间是平等并列关系。这种数据不带数量信息,并且不能对各个类别进行排序。例如,某商场将顾客喜爱的服装颜色分为红色、白色、黄色等,红色、白色、黄色即为定类数据。又如,人类按性别分为男性和女性,也属于定类数据。虽然定类数据表现为类别,但是为了便于统计处理,可以将不同的类别用不同的数字或编码来表示,如1表示女性,2表示男性。要注意这种数字不代表着这些类别可以区分大小或进行数学运算。不论用何种编码,其所包含的信息都没有任何损失。对定类数据执行的主要数值运算是计算每一类别中的项目的频数和频率。

2)定序数据。这是数据的中间级别。定序数据不仅可以将数据分成不同的类别,而且各个类别之间还可以通过排序来比较。也就是说,定序数据与定类数据最主要的区别是定序数据之间是可以对顺序做比较。例如,人的受教育程度就属于定序数据。我们仍可以采用数字编码表示不同的类别:文盲=0,半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士=6,博士=7。通过将编码排序,可以明显地表示出受教育程度之间的高低差异。虽然这种差异程度不能通过编码之间的差异进行准确的度量,但是可以确定其高低顺序,即可以通过编码数值进行不等式的运算。

3)定距数据。定距数据是具有一定单位的实际测量值(如摄氏温度、考试成绩等)的数据。对于这种数据,不仅可以知道两个变量之间存在差异,还可以通过加、减法运算准确计算出各变量之间的实际差距。可以说,定距数据的精确性比定类数据和定序数据前进了一大步,它可以对事物类别或次序之间的实际距离进行测量。例如,甲的英语成绩为80分,乙的为85分,可知乙的英语成绩比甲的高5分。

4)定比数据。这是数据的最高等级。它的数据表现形式与定距数据一样,均为实际的测量值,唯一的区别是,在定比数据中是存在绝对零点的,而定距数据中是不存在绝对零点的(零点是人为制定的)。因此定比数据间不仅可以比较大小,进行加、减运算,还可以进行乘、除运算。

在统计分析中,区分数据的类型十分重要,不同测度类型的数据所扮演的角色是不一样的。

(2)按来源分类 数据的来源主要有两种渠道:一种是通过直接调查获得的原始数据,一般称为第一手或直接的统计数据;另一种是别人调查的数据,并将这些数据加工和汇总后公布的数据,通常称为第二手或间接的统计数据。

(3)按时间状况分类

1)时间序列数据。这是指在不同的时间所搜集到的数据,反映现象随时间变化的情况。

2)截面型数据。这是指在相同的或近似的时间点所搜集到的数据,描述现象在某一时刻的变化情况。

4.类别

按照数据分类的原则和方法,可以有多种分类方式,在此仅列举部分较为常见的分类方式。

(1)按性质划分

1)定位的,反映事物坐标的数据,如各种坐标数据。

2)定性的,反映事物属性的数据,如表示事物属性的数据(居民地、河流、道路等)。

3)定量的,反映事物数量特征的数据,如长度、面积、体积、重量、速度等。

4)定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。

(2)按表现形式划分

1)数字数据,是指取值范围是离散的变量或者数据,如各种统计或量测数据。数字数据在某个区间内是离散的值。

2)模拟数据,由连续函数组成,是指在某个区间连续变化的物理量,又可以分为图形数据(如点、线、面)、符号数据、文字数据和图像数据等,如声音的大小和温度的变化等。

(3)其他划分 按记录方式可分为地图、表格、影像、磁带、纸带等。按数字化方式分为矢量数据、格网数据等。在地理信息系统中,数据的选择、类型、数量、采集方法、详细程度、可信度等,取决于系统应用目标、功能、结构和数据处理、管理、分析的要求。

1.2.3 数据的特性

1.可共享性

共享是指共同享有,在物理世界中主要是指某样东西被多个人分享。例如,“共享午餐”是指多人一起吃午餐,但其实每个共享者吃的东西并不一样,同样的东西不可能被吃进两个人的肚子里。

数据共享的概念有着本质上的不同,是指同样的数据被多个共享者所拥有,并且每位拥有者拥有完全相同的数据量、数据形式和数据内容,即拥有数据的副本。将一个数据复制多个副本是轻而易举的事情,因此,数据是可以共享的,而共享性也是数据能够被广泛应用和深入挖掘的一个前提。

2.多样性与复杂性

随着数据“爆炸”的继续进行,越来越多的数据被存储到计算机系统中,数据的类别和数据的形式均有很多种,因此计算机系统中的数据是多样的和复杂的。

数据的多样性是指数据有各种类别,如各种语言的、在互联网中或不在互联网中的、公开或非公开的、企业或政府的等。数据的复杂性是指数据具有各种各样的格式,包括各种专用格式和通用格式,并且数据之间存在复杂的关联性。

3.无机性

自然界中的物质会老化,有生命周期,而数据不会老化,没有生命周期。就其被生产、被存储、被修改、被删除这些过程而言,数据是有生命周期的,但这是该数据在现实中对应的事物的生命周期,而不是计算机系统中数据的生命周期。数据本身不会随时间的推移而变老变旧,例如,将一张照片数据存放多年,只要载体还存在或者不断替换新载体,这个数据对象本身就不会发生变化,数据就不会减少,其质量也不会下降。

1.2.4 数据在应用过程中迸发价值

1.结构化数据服务于商业应用

最早的商业数据通常是结构化数据,很多公司从其旧有系统中收集这些数据并把它们存储到关系型数据库管理系统中。这些数据库管理系统中使用的分析技术在20世纪90年代非常流行,通常都很直观但也很简单,例如报表、仪表盘、条件查询、基于搜索的商业智能、联机事务处理、交互式可视化、记分卡、预测建模、数据挖掘等。自21世纪初以来,互联网给各类组织机构提供了一个在线展示其业务并和客户直接互动的独特的机遇。大量的产品和客户信息,包括点击流数据日志、用户行为等,均可以从网站上获取。这样通过采用各种文本和网站挖掘技术进行分析,就可以实现产品布局优化、客户交易分析、产品的建议和市场结构分析。

2.数据持续提升网络应用水平

早期的网络主要提供电子邮件和网页服务,因而文本分析、数据挖掘和网页分析技术也相应地用于挖掘电子邮件内容、构建搜索引擎等。网络数据量在全球数据量中比重较高。如今,Web已经成为相互关联的页面世界,充满了各种不同类型的数据,例如文本、图像、视频、照片和交互内容等。大量用于半结构化或非结构化数据的高级技术应运而生。例如,图像分析技术可以从照片中提取有用的信息,可以从脸部识别个人信息等。多媒体分析技术可以应用于商业执法和军事应用的自动化视频监控系统中。2004年后,在线社交媒体,例如论坛、网上群体、网络博客、社交网站、社交多媒体网站等,为用户创建、上传并分享内容提供了更为便捷的方式,社交数据开始爆发式增长。此外,网络数据不仅源自互联网,移动网络和物联网也成为其重要来源。早在2011年,移动电话和平板计算机的数量就超过了便携式计算机和个人计算机的数量,移动电话和基于传感器的物联网正在开启新一轮网络应用的演变。随着目前新趋势下各类信息技术的发展和数据应用水平的提升,网络应用进入了新的阶段。

3.数据助推科学应用

许多领域的科学研究都在通过高通量传感器和仪器获取大量数据,从天体物理学和海洋学,到基因学和环境研究,无不如此。美国国家科学基金会(NSF)2019年征集BIGDATA方案,以利于信息共享和数据分析。一些学科已经开发了海量数据平台并取得了相应的收益。例如,在生物学中,IPlant(植物生物学家Andreas Madlung参与建设的协作网络基础设施项目)正应用网络基础设施、物理计算资源、协作环境、虚拟机资源、可互操作的分析软件和数据服务来协助研究人员、教育工作者和学生建设植物学科。IPlant数据集形式多样,其中包括规范或参考数据、实验数据、模拟和模型数据、观测数据以及其他派生数据。