开放网络知识计算:模型、方法与应用
上QQ阅读APP看书,第一时间看更新

1.4 网络空间感知与数据表示

网络数据具有跨媒体关联、强时效演变、多主体互动等特点,使得对网络大数据的态势感知、质量评估、融合表示等均面临新的问题。

1.4.1 网络大数据的感知与获取

按照网络空间中数据的蕴藏深度,整个网络空间可以划分为Surface Web和Deep Web[26],或称作Hidden Web[27]。Surface Web是指Web中通过超链接可被传统搜索引擎爬取到的静态页面,而Deep Web则由Web中可在线访问的数据库组成。Deep Web的数据隐藏在Web数据库提供的查询接口后面,只有通过向查询接口提交查询才能获得。与Surface Web相比,Deep Web所包含的信息更丰富。同时,Deep Web具有规模大、实时动态变化、异构性、分布性以及访问方式特殊等特点。为了充分利用Deep Web中的数据资源,需要充分获取Deep Web中高质量的数据并予以集成,整个集成过程可以分为数据获取、数据抽取和数据整合这3个环节。

1.4.2 网络大数据的质量评估与采样

对网络空间中多源数据进行质量评估,一方面需要建立数据模型或提出适当的采样方法;另一方面,需要提出对采样数据的评价与检验方法。网络数据采样是将数据从Web数据库提取出来的过程。传统的数据库采样是随机地从数据库中选取数据记录以获得数据库的统计信息的过程,典型方法可参考文献[282930]。但是要获取Web数据库中的数据只能通过向查询接口提交查询,不能自由地从Web数据库获取记录,故而传统方法不能实现对Web数据库的采样。

针对Web数据库采样,HIDDEN-DB-SAMPLER[31]是第1项工作,它给出了对范围属性和分类属性的处理方法,而对查询接口中设计的必填的可任意取值的关键词属性未作处理。文献[32]提出基于图模型的增量式Web数据库采样方法WDB-Sampler,通过查询接口从Web数据库中以增量的方式获取近似随机的样本。但是该方法是针对样本中每条数据作为顶点来建立图模型,每一轮查询后都要将查询结果扩充到图模型中用于产生下一轮查询词,这样做的代价比较高。

1.4.3 网络大数据的清洗与提炼

由于现实世界数据的多源性、异质性以及采集数据时的一些人工错误,导致网络数据是含有噪音、冗余和缺失的。如何有效地衡量数据的质量是一个重要的研究方向。文献[33]定义了衡量数据质量的4个指标:一致性、正确性、完整性和最小性。文献[34]提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量衡量指标,用户应根据应用的需求选择其中一部分。

数据的清洗建立在数据质量标准之上,为了得到高质量的数据,清洗与提炼过程必须满足几个条件:检测并除去数据中所有明显的错误和不一致;尽可能地减小人工干预和用户的编程工作量,而且要容易扩展到其他数据源;应该和数据转化相结合;要有相应的描述语言来指定数据转化和数据清洗操作,所有这些操作应在一个统一的框架下完成。对于数据清洗,工业界已经开发了很多数据抽取、转化和装载工具(如ETL tool)[35]。一些研究人员研究相似重复记录的识别和剔除(如文献[3436]),还有一些研究包括数据的变换和集成(如文献[3738])。

1.4.4 网络大数据的融合表示

对网络数据的建模和表达理论方面的研究,主要集中在网络中的文本信息方面。对文本信息进行表示和建模的目的是让计算机能够正确理解人类的语言,能够分析和表达出其中的语义信息。文本信息的表达经历了从浅层词语表达方式到深层语义表达方式这样一个历程,其中代表性的工作包括了向量空间表示(VSM)[29]、隐语义索引(LSI)[39]和概率话题模型(如图1-1所示)[40]等。随着研究的不断深入,话题模型被广泛应用在各个领域,并进一步提出了改进的话题模型[41],以增强已有话题模型的学习能力,解决其跨领域的问题等,从而使其能够更好地应用于文本数据的表达。

图1-1 概率话题模型[40]

尽管对数据表达的研究历经了很长时间,但是对于网络大数据的建模和表达还面临着很多新的挑战。例如,对于海量文本数据的建模,需要模型能够对更大规模的参数空间进行有效的学习,需要能够有效地建模并解决数据的稀疏性所带来的问题,需要能够对动态演化的网络大数据进行合理的表达。此外,对于图片和多媒体数据,也需要进一步探索其建模与表达方式,以便能够更加有效地表达其内在的语义信息。