第二部分 数据科学原理
第2章 关于数据的真相
2.1 数据的价值:事实还是知识
首先要讨论什么是数据,以及人们为什么关心数据。在数字经济的总体业务架构中,数据可以看作非常重要的生产要素,为产业实践提供巨大的经济价值。数据的价值来源于两个方面,一是反映事实,二是提供知识,而数据科学技术的作用就是从数据中提炼事实信息、挖掘业务知识,以此来帮助人们解决实际应用问题。
反映事实,是指在业务问题的引导下,基于数据技术直接从数据中发现我们所关心的重要业务信息,通过将这些业务信息作为关键的证据参考,可以帮助我们进行准确的情景判断和业务决策;提供知识,是指通过对数据进行深入的分析,挖掘出潜藏在数据背后有价值的业务规律,拓展人们对生产和生活的实践经验与理论认知。
事实是目前观测到的信息,而知识是持续积累的经验性的信息。将观测到的事实与所掌握的知识相结合,加以综合运用,就可以激发出各种有价值的业务能力。本章将从数据的事实价值和数据的知识价值两个方面来介绍数据的“真相”。
2.1.1 数据的事实价值
1.数据事实的应用场景
数据的事实就是数据中呈现出的最直观的信息,通过综合各种不同来源的信息,可以对目前的情况做出准确判断,从而提高业务运营的整体效能。例如,商家在设计制定一款新商品的价格时,需要调研所在行业“竞品”的平均定价水平;医生在确定某个患者的疾病罹患情况时,需要参考患者各种生理指标检查项目的结果;投资人在决定购买某个创业公司股票时,也需要系统地分析该公司的诸多财务报表和市场表现数据。
1)数据事实决定决策行为
实时、高质量、准确的业务信息可以尽可能地保证当前的决策行为是“可靠明智的”,从而帮助我们获得接近目标预期的结果。
如果把业务行为看作由某个特定的决策系统产生的,则任何决策行为都必须依赖于一个有效的环境信息输入。当环境信息输入不同时,该决策系统做出的行为也是不同的,因此,为了确定如何产生具体的业务行为,就必须准确地从外部环境中获取数据,并从数据中解读进行业务决策所依赖的信息。从数据中获取业务决策信息的过程如图2-1所示。
图2-1 从数据中获取业务决策信息的过程
2)数据事实验证业务假设
在另一种情况下,事实可以帮助人们验证某个业务假设,有利于刻画业务活动的底层逻辑。当一件事情发生后,决策者通常会关心到底是什么事件导致了这个结果,会产生关于整个事件发生的一系列业务假设。这些业务假设的背后需要各种数据来支撑,通过从数据中挖掘到的事实信息,可以形成对上述一系列假设是否真实存在的客观验证。一旦业务假设通过数据中的事实信息得到了验证,管理者就可以进一步基于相关假设和认知逻辑,采取相应的措施,“对症下药”地解决所面临的实际业务问题。
以口腔诊所的数字化运营场景为例,当某连锁口腔诊所近期的患者就诊业务量出现了比较明显的人数下滑时,诊所的管理者需要主动分析问题,找到导致业务下降的原因。诊所的管理者可能会假设业务量下降是由于诊所近期开展的免费洗牙活动到期有关。通过查看活动期间和活动之后的就诊人数的数据,发现业务量开始明显下降的时间节点确实是从活动到期日之后三天内开始的。除此以外,基于其他付费诊疗项目与免费洗牙项目的相关性分析,进一步确认很多就诊业务确实是靠免费洗牙活动拉动的。于是,诊所的管理者决定延长免费洗牙活动的结束时间,持续增加患者与诊所之间的服务黏性。
2.数据事实的获取
数据的事实信息可以来自结构化数据和非结构化数据。从结构化和非结构化数据中提取信息的方法本质上有所不同,下面分别进行介绍。
1)结构化数据的信息获取
从结构化数据中获取信息,主要体现在数据对特定业务量化指标的数值计算支撑。这些量化指标首先被业务人员总结出来,作为日常管理运营决策的关键参考信息。定量指标的数据源既可以来自企业内部,也可以通过外部获得。但是对于大多数企业来讲,考虑到数据质量和可用性及业务的相关性等原因,从内部数据计算量化指标是更常见的做法。
针对不同的业务应用主题,业务人员会分别针对性地制定一套相应的定量指标。这些业务指标需要给予明确的内涵描述,约束其适用的业务场景,并用计算公式对其进行标准化和规范化的定义。
在计算公式中,定义了指标的量化值是如何根据企业内部原始的数据源计算形成的。在更新指标的取值时,首先需要通过对数据库的查询操作获得相应的基础数据,然后根据业务指标公式进行计算,最后获得业务人员关心的结构化信息。
以电商行业为例,为了更好地对电商平台的实时经营状态合理配置平台资源并发现商业机会,通常会构建非常复杂的结构化业务指标。
(1)日活跃用户量(Daily Active User,DAU),统计一日之内,登录或使用了某个产品的用户数,并去重。
(2)日新增用户(Daily New User,DNU),表示当天的新增用户。
(3)最高同时在线人数(Peak Concurrent Users,PCU),对统计周期内的在线人数不断监控,并持续更新最高值的纪录。
(4)平均每个活跃用户收益(Average Revenue Per User,ARPU),统计活跃用户的业务收益并取均值。
(5)成交总额(Gross Merchandise Volume,GMV),指下单产生的总金额,是销售额、取消订单金额、退款金额的总和。面向电商平台运营的销售转化指标体系如图2-2所示。
2)非结构化数据的信息获取
非结构化数据包括文本、图片、音频、视频等多种文件形式,这些文件在计算机中的原始数据结构没有具体含义,无法直接进行分析处理。因此,为了从非结构化数据中获取信息,首先需要从原始的数据中提取结构化的数据特征,这些结构化的数据特征需要具备一定的语义内涵,可以支撑有意义的数据模型的构建,推动后续的数据分析处理。
文本数据是最常见的非结构化数据类型,在一般的网页应用中,超过80%的数据是文本数据。文本数据对信息承载密度更大,其可读性、可分析性也更强,具有很大的数据分析需求。
文本数据一般以文件或日志的形式予以存储。例如,产品在线评论、客服对话记录、产品功能说明、企业财务报告、保险记录报告、医疗就诊记录,这些文本数据均蕴含了大量重要的事实信息。从文本中获得事实信息主要包括两个步骤:数据筛选和数据结构化。
图2-2 销售转化指标体系
数据筛选主要是指从指定数据源中提取出与所分析业务问题相关的数据子集合。很多企业在存储文本数据时会为文本数据添加主题标签,这些标签一方面可以提供准确的信息索引,另一方面也便于对文本数据的管理维护。数据分析人员通过主题标签能够快速过滤出所需要的文本数据。
除此以外,还可以使用传统的信息检索方式获得文本数据的排序结果。检索到的文本数据如果非常相关,分析人员则可以通过人工阅读的方式直接获得必要的事实信息;而文本数据如果数量较大,事实信息不显著,则还需要通过计算机算法来辅助提取其中的重要信息。通过计算机技术挖掘文本信息的技术也称为自然语言处理(Natural Language Processing,NLP)技术,可以通过语言模型将非结构化的文本数据以相对结构化的形式进行呈现。
NLP技术可以解决很多不同细分场景的分析需求:
(1)情感分析,统计给定文档集合中不同情感倾向的比例和对应情感的强烈程度,以定量的形式来表示文本内容对某一话题或事件的总体态度,更加细粒度的情感分析技术可以提取出文字中针对不同业务对象和业务属性的情感信息。
(2)关键词抽取,用少数关键词来代表给定文本资料或文本资料集合的语义内涵,可以把比较长的文章内容压缩为若干个词汇的集合。通过阅读、分析少数词的集合,可以更高效率地理解原文内容。同时,关键词也可以承担非常有意义的文章索引的功能。
(3)主题分析,用一个数值向量来描述文本数据在各个业务主体下的内容分布,数值向量的每个维度代表一个业务主题,维度上的数值代表文章中该业务主题的成分比例,数值越大则说明文章与该主题越相关。主题分析一方面可以像关键词抽取一样对文章内容进行压缩,另一方面可以对文本内容进行聚类分析。
(4)事件抽取,从文本中识别重要的事件和事件元素,包括事件类型、事件参与者、事件发生时间,以及事件发生地点等。通过事件抽取可以把非结构化文本数据转换为业务问题关注的事件记录列表。这些事件记录可以用结构化的方式进行表示并进行统计分析。
此外,在具体的行业应用方面,NLP的应用形式也非常丰富:
在电商平台领域,通过对在线评论的文本进行分析,可以分析获得用户对产品质量的满意度情况,以及市场偏好的产品特征;在医疗领域,通过对电子病例的文本进行分析,可以挖掘出患者的主要发病症状和病理特征;在教育领域,通过对学术期刊的论文进行分析,可以了解到最新的研究热点和学科发展方向;在社交媒体领域,通过对用户的访问记录和内容发布记录进行分析,可以对用户的兴趣与喜好规律进行综合刻画。
2.1.2 数据的知识价值
1.知识分类
通过对数据资源进行分析,除了能够获得关于事实的信息,还可以从中获得对业务有指导性作用的知识内容。正如前文所述,知识比信息具有更高的抽象层级,价值密度更高,同时价值属性也更加稳定。在一系列相关信息的基础之上,给定具体的业务观察视角,通过总结归纳等方式,可以抽象出有价值的业务知识。从知识描述的业务对象类型看,知识可以分为静态知识和动态知识,下面分别进行介绍。
1)静态知识
静态知识也可以看作事实知识。事实知识与事实类信息不同,尽管都是描述客观事物的事实,但是知识具有价值稳定性和真实性等特征。此外,知识与信息相比还具有相对明显的规范化、体系化特点。信息一般是杂乱无章的,而知识则具有内在的体系结构,并且与特定的业务主题相关。
静态知识通常是指对业务概念的形式化定义,其中具体包括概念的内涵、概念的从属关系、层级关系、组成关系、等价关系,以及概念中的固有特征属性。上述这些内容的一种常见表现形式叫作本体(Ontology)。本体可以看作一种“形式化的,对于共享概念体系的明确而又详细的说明”。通过构建某个业务领域的本体,可以形成该领域的知识框架。本体可以对数据模型和数字化应用的设计提供重要的基础数据支撑。
例如在医疗领域,典型的静态知识包括疾病的层级分类,以及每种疾病涉及的典型症状,举例如下:
疾病包括心脑血管疾病、皮肤病、免疫系统疾病、传染病、口腔疾病……
口腔疾病包括牙周类疾病、牙体牙髓疾病、口腔颌面部疾病、口腔组织类疾病、口腔种植体疾病……
牙周类疾病包括牙周炎、牙周炎伴发病变、牙龈病、种植体周病……
牙周炎的主要症状有牙龈出血、牙龈肿痛……
2)动态知识
动态知识也可以看作规律性知识,通常是在大量生产实践过程中总结出来的,可以直接指导业务实践落地。动态知识通常会以规则、模型或函数的形式予以抽象表示。
动态知识可以解决判别的问题,也就是通过给定业务对象的观察特征,即事实信息,推断获得该对象具体的业务分类标签。在数据挖掘领域,这是典型的分类问题。通过对业务对象进行分类,可以确定面向该对象的具体行为策略。
例如,在金融领域,很多银行会通过构建信贷模型来衡量一个贷款申请人或企业主体的资金偿还能力,根据给定的消费记录、贷款记录、偿还记录、资产调查等输入信息,自动对贷款申请人的偿还水平进行“高”“中”“低”的分类标注,进一步确定是否向该用户进行贷款核准。
此外,动态知识还可以解决预测类的问题,通过输入当前业务对象的观察信息,对该对象未来可能产生的行为或该对象可能发生的事件进行预测。例如,在数字传媒领域,通过对用户的基本信息(年龄、性别、地区、职业、兴趣)、位置信息和行为信息(内容搜索记录、网页浏览记录、App使用记录等)的综合分析,可以对用户的广告链接点击行为和后续的购买转化行为进行预测。这有利于向用户推送相关性强、能够满足用户实用价值需求的广告页面链接。
2.知识表示
前面提到,可以从数据中提取有价值的业务知识。为了方便计算机软件对这些知识进行自动处理,支持上层的数字化和智能化应用,需要对知识进行标准化、结构化存储,这就涉及对知识进行表示的问题。
知识的概念根据能否规范化表达并且是否容易传播,可以分为显性知识和隐性知识。在人工智能领域,从学派上可以分为符号主义流派、联结主义流派和行为主义流派。
其中,符号主义流派强调知识的符号表示和知识运用,研究让机器掌握知识概念和基于知识的分析推理能力。在符号主义流派中,通常采用显性的方式对知识进行定义和表示。
联结主义流派认为智能来自对人脑的模拟,聚焦算法模块中信息节点之间的底层传播机制,强调智能的产生是由大量简单的计算单元,通过复杂相互联结和混合作用的结果。联结主义把知识内化为数学模型中的变量参数,以这种方式来定义知识可以兼容隐性知识的表达和应用的客观需求。下面将从符号主义流派和联结主义流派两方面来介绍知识的表示方法。
1)符号主义流派的知识表示方法
符号主义流派的知识表示方法包括框架表示法、语义网络表示法、产生式表示法、谓词逻辑表示法、脚本表示法、本体表示法、状态空间表示法等主要类型,其中语义网络表示法和本体表示法比较适用于表示静态知识;产生式表示法、脚本表示法、状态空间表示法比较适用于表示动态知识;框架表示法、谓词逻辑表示法可以同时兼容静态知识和动态知识。
对于静态知识,选择语义网络(Semantic Network)表示法进行重点介绍。语义网络是一种非常灵活的描述事物之间关系的数据结构,该数据结构由知识节点及知识节点之间表示语义关系的边组成。
其中,节点可以代表具体的事物、概念、情况、属性、状态、事件。在语义关系中,以类属关系最为基础和重要。常见的类属关系包括ISA(Is-a,一个事物是一个事物的实例)、AKO(A-Kind-of,一个事物是另一个事物的一种类型)、AMO(A-Member-of,一个事物是另一个事物的成员)等几种具体情况。描述不同语义关系的语义网络如图2-3所示。
通过构建某一行业领域概念的类属关系,可以形成该领域最基本的信息框架。当前,在自然语言处理领域,已经有一些相对通用的语义网络知识,如Word Net(英文)、Babel Net(多语言)、How Net(知网,中文),这些语义网络知识极大地提高了语义消歧、信息检索、文本分类、文本摘要等不同文本分析任务的智能化水平。
图2-3 语义网络的示例
基于语义网络的表示方法,在产业实践方面,根据具体的业务发展需要逐渐衍生出语义网(Semantic Web)和知识图谱(Knowledge Graph,KG)两种重要的知识数据表示技术。
语义网最早是由万维网之父Tim Berners Lee在1998年提出的。语义网把网络上的数据看作彼此连接的知识源,使互联网上的数据可以被机器阅读理解,实现自动化、智能化的网络应用,如网页的智能检索,以及基于网页信息的数据推理。语义网的底层信息表示依托于RDF(Resource Description Framework)、RDFS(Resource Description Framework Schema)和OWL(Web Ontology Language)等语言作为技术标准。
尽管语义网对知识的表达能力很强,但是其对于人工设定的依赖性过强,要求在网页数据发布时就遵循复杂的技术标准。语义网在产业落地时的技术门槛过高,与网络信息爆炸的时代特征产生了较大的矛盾。
对于语义网的不足,在业界近些年产生了一种新的知识表示方式——知识图谱。知识图谱把互联网数据和底层业务知识分离对待,把来自业务系统或从网络数据中自动提取的知识进行结构化的信息表示。与语义网相比,知识图谱技术有诸多优势:
首先,知识图谱进一步对实体层和本体层的概念对象进行了区分,通过本体层的类属框架对实体层的知识节点进行更加严格的约束,从而能够稳定地兼容前端的产业应用;其次,在构建知识数据的过程中,知识图谱技术可充分利用基于命名实体识别(Named Entity Recognition,NER)、实体抽取、事件抽取等机器学习方法自动、批量生成的知识内容;此外,在数据的开放性方面,语义网比较强调知识数据的开放性,而知识图谱则强调首先解决企业内部需求,开放性不是企业的必选项。这又进一步降低了知识表示技术的推广难度,加速了产业落地的总体过程。
通过对人物的社交网络构建知识图谱,记录用户之间的社交关系,以及用户的内容、话题喜好,可以更好地对用户进行自媒体内容的推荐,增加平台黏性和用户满意度。基于人物社交关系的知识图谱如图2-4所示。
图2-4 人物社交关系的知识图谱示例
例如,基于医疗领域的疾病、症状、药物构建知识图谱,可以实现AI辅助诊断、医疗信息查询、药物信息查询、智能导医、自动问答等丰富的智能化医疗应用。关于COVID-19的医疗知识图谱的可视化效果如图2-5所示。
图2-5 关于COVID-19的医疗知识图谱示例
从数据格式上,知识图谱本质上是通过若干形如(实体-关系-实体)或(实体-属性-值)的三元组组成的,分别表示实体与实体的关系和实体的某个特定属性取值。三元组形式的知识数据一般可以直接沿用语义网的RDF框架标准进行表示存储。
随着近年来以Neo4J、Janus Graph、Nebula Graph为代表的新型图数据库的出现,以节点为中心对知识进行记录的方法也逐渐开始流行。很多图数据库支持丰富的复杂图计算方法,这对知识推理的广泛应用提供了极大的便利条件。基于RDF和图数据库的知识图谱表示比较情况,见表2-1。
表2-1 图数据库与RDF比较
对于动态知识,产生式的知识表示方法比较典型。产生式方法以诸如“Condition→Action”格式的规则对知识进行表示,其中Condition作为规则前件或模式,Action作为规则后件或结论。知识规则记录了在特定条件下会产生怎样的目标判定结果。
在人工智能领域,知识规则最典型的应用就是专家系统(Expert System,ES)。所谓专家系统,就是指面向特定的业务需求,通过对知识规则库中的大量知识进行综合推理和应用,自动地提供智能化的诊断结果和决策方案。世界上的第1个专家系统DENDRAL是由美国斯坦福大学的费根鲍姆教授于1965年开发的,其主要功能是根据化合物的分子式和质谱数据推断化合物的分子结构。除此以外,基于知识的专家系统在医疗诊断和工业设备故障发现及识别方面具有非常成熟的应用成果。
对于专家系统来讲,只要知识库中记录了足够多高价值的业务规则,当输入给定的观测事实信息后机器就可以自动应用已知规则进行逐步的事实推理,直到推导出业务人员“感兴趣”的目标结论为止。在专家系统中,规则可以由专家人工总结录入,也可以通过机器学习的关联规则挖掘算法从历史数据进行自动检测并补充。
2)联结主义流派的知识表示方法
对于联结主义流派,主要以函数或模型作为常用的知识表示技术手段,其中,数据模型主要包括机器学习模型和深度学习模型。
深度学习模型的数学基础是人工神经网络(Artificial Neural Network,ANN),该类模型的功能和结构的设计在很大程度上参考了人脑对外界事物的感知和认知方式。深度学习模型在业务上应用广泛,在文本识别、语音识别、手势识别、机器翻译等多种现实问题上表现出了特殊的技术魅力。深度学习模型的特点是模型的参数规模庞大、变量结构复杂,可以看作一个“黑盒模型”,模型内部的变量关系通常难以解释。
在深度学习模型中,知识体现在神经网络的变量联结关系和联结权重上。通过对大量的数据集合进行模型的训练,可以自动地挖掘出这些隐含的知识。尽管这些知识在很大程度上可理解性、可预测性都不强,但具备非常强的实用功能价值。
模型除了能够定义动态知识,还可以对静态知识进行表示,即直接用分布式表示(Distributed Representation)的技术,把知识符号转换为向量进行量化表示。向量化的知识可以直接代入数据模型参与数值计算,这种将符号知识转换为数值知识的方式,其目的是把逻辑推理问题映射为数值计算问题进行处理,以便更有效地发挥大数据的计算能力。
例如,对于符号化的“三元组”知识图谱数据,可以通过TransE、TransR、Trans H、TransD等矩阵分解技术,将其转换为数值向量。数值向量中各维度的取值是连续稠密的,这种知识表示形式虽然丧失了一定的可解释性,但是更加容易进行数值计算和预测分析,可以广泛应用于知识图谱中节点关系预测的任务。
3.知识的来源
知识从实际的用途看,分为客观规律知识和行为决策知识。
客观规律知识需要从日常经验中不断总结发现,例如,金融市场的变化周期、特殊疾病的致病因素、用户在线购物的偏好规律、生产事故的隐患发生、客户反馈的语言习惯等。从数据科学的角度出发,客观规律知识蕴含在大量的业务数据中,借助计算机的运算能力优势,通过各种数据挖掘、数据分析技术,可以对这些潜在的知识进行外显。最终,知识以数据模型的形式沉淀下来并存储。
行为决策知识是指既定的业务工作流程和标准规范,例如,交易条款、法律法规、交通条例、设计工艺、机械构造、治疗方案等,这些知识是由业务人员专门设计出来的。在基于数字化的应用中,充分利用行为决策知识,可以实现业务的定制化和自动化,显著提高业务活动执行的综合效率。在很多智能化应用中,需要领域专家对这些知识进行结构化表示和录入,然后机器根据预先设定的知识进行各项相关操作。
尽管客观规律知识和行为决策知识分别以机器分析和人工构建为主,但是在实际应用中,两种类型的知识都需要以人机结合的方式进行生成和管理,才能达到更优的效果。
对客观规律知识来讲,依托于快速的数据建模能力,机器可以承担很多自动发现知识的任务,但是在整个数据建模过程中,仍然需要人根据经验来提供一些最基本的模型条件。这些模型条件包括模型结构、模型的复杂度,以及变量特征等,可以有效地限定知识发现的范围和方向。
对于行为决策知识来讲,很多领域中既定的行业解决方案已经比较成熟,但是从发展的眼光看,这些方案应该进行不断优化更新,从而适应错综复杂的社会环境和市场环境。人们在定义行为决策知识时,需要不断地借鉴动态更新的客观规律知识。可以说,两类知识的创造过程是相辅相成的。